如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-21 21:05:16来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 央企的信创，是否有必要把 spring 替换成国产的 solon ？

下一篇 : 想要入行音***开发，但是没有相关项目经验怎么办？

相关文章：

{dede:myad name='右侧广告位'/}

中国军事力量有希望达到全球第一吗？

某种程度上来说，已经是第一。空军：现役四代以上战斗机近...
2025-06-22阅读全文 >>
为什么Go仅仅160MB的安装包就可以编译程序，而Rust却还需要几个GB的VC++才能编译？

不好意思， go1.20 以后得版本只有 96MB. 这就...
2025-06-22阅读全文 >>
如何评价DuckDB?

确实性能强大，我感觉单机TPC-H应该是跑的最快的了。原理...
2025-06-22阅读全文 >>
脸与身材不符是种怎样的体验？

提名一下我的一米九萌妹老婆呀。没错，我老婆大人净身高18...
2025-06-22阅读全文 >>
为什么大部分人都认为2560x1440是2K？

长边K，短边P，本来是没争议的。但不知是谁非要将2560×...
2025-06-22阅读全文 >>

养花知识本月排行

1丰田将中国市场决策权交给中方，是在华战略重大调整，这会不会意味着未来中国市场的丰田车“中味”十足了？
各双拼输入方案之间有明显的优劣之分吗？
美军 B-2 轰炸机参与袭击伊朗核设施，B-2轰炸机战斗力如何？会摧毁伊朗核设施吗？
如何评价《一人之下》***第 721（764）话?
你们是怎么远程用NAS听歌的？
评价一下Proxmox VE与ESXi的优劣？
湘雅二院两年间给罗帅宇转账 40 多万，或涉及 20 多名医生，这背后存在何疑点？
6 月 21 日「苏超」第五轮南京队 4-0 战胜常州队，如何评价这场比赛？
MacOS真的比Windows流畅吗？
《权力的游戏》里面最美的是谁？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐