如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-22 23:20:18来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 你见过最无用的节俭行为是什么？

下一篇 : 中医把脉是***吗？

相关文章：

{dede:myad name='右侧广告位'/}

应该巩固vue2，还是现在开始学vue3？

我为什么觉得 Vue 2 比 Vue 3 更好，更利于团队规...
2025-06-24阅读全文 >>
Electron 做游戏客户端的潜力有多大？

Electron既不是游戏引擎，也不是新时代，也不会带来变革...
2025-06-24阅读全文 >>
武松杀嫂，为什么要先扯开她的胸衣，多此一举还是另有深意？

水浒好看，就好在细节上。所谓，细节见人品，小事见人心。 ...
2025-06-24阅读全文 >>
小鹏G7预售价23.58万，何小鹏称其为「全球首款L3级算力的AI汽车」，何为L3级算力？竞争力如何？

在WAD上，受到CVPR直邀的小鹏汽车世界基座模型负责人刘...
2025-06-24阅读全文 >>
怎么学习前端开发？求推荐学习路线？

之前的文章《 Trae+Claude3.7 | 10分钟生成...
2025-06-24阅读全文 >>

养花知识本月排行

1CPU 为什么很少会坏？
在所有动物肉中，哪一种味道最好？
谁能劝我不要买NAS？
《原神》5.7 版本魔神任务第五章•第六幕「你存在的时空」体验如何？
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架？
为什么B-2天下无敌？
Golang和J***a到底怎么选?
什么时候你意识到自己不年轻了呢？
请问您见过最惊艳的sql查询语句是什么？
为什么Go仅仅160MB的安装包就可以编译程序，而Rust却还需要几个GB的VC++才能编译？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐