如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-19 08:20:12

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
ElasticSearch在项目中具体怎么用?

ElasticSearch在项目中具体怎么用?

直接回答不墨迹:直接在项目中集成使用(通过客户端库连接ES集...

2025-06-24
黑龙江地区人口下降为何比俄罗斯远东远东联邦还快?

黑龙江地区人口下降为何比俄罗斯远东远东联邦还快?

黑龙江不是生育率不如远东,而是低于世界上所有地方,黑龙江现在...

2025-06-24
鱼缸电线长期泡在水里面,水泵也在水里面不怕漏电吗?

鱼缸电线长期泡在水里面,水泵也在水里面不怕漏电吗?

水泵之类本体是不会漏电的,因为它完全包在胶里面。 但电线有可...

2025-06-24
脸与身材不符是种怎样的体验?

脸与身材不符是种怎样的体验?

知乎第一个四千赞,谢谢大家点赞呀! 再加更新两张新拍的图吧,...

2025-06-24
如何评价「东北街边烧烤」亮相苏超赞助灯牌?常州有什么魅力,让一家烧烤小店砸钱为本地体育情怀「埋单」?

如何评价「东北街边烧烤」亮相苏超赞助灯牌?常州有什么魅力,让一家烧烤小店砸钱为本地体育情怀「埋单」?

这可以是一个“千金买马骨”的故事。 这是一对常漂夫妇开...

2025-06-24