如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-18 19:45:10

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
如何评价《机动战士Gundam GQuuuuuuX》第十一集?

如何评价《机动战士Gundam GQuuuuuuX》第十一集?

这俩弔图居然成真了………… 这剧我真的,要说beyo...

2025-06-20
电脑有64G的物理内存(DDR5 5200),完全够用了,可以关闭系统的虚拟内存吗?

电脑有64G的物理内存(DDR5 5200),完全够用了,可以关闭系统的虚拟内存吗?

现身说法。 自从我电脑上有16G内存之后,每次重装完Wind...

2025-06-20
程序员为啥突然会变成这么辣鸡的一个行业?

程序员为啥突然会变成这么辣鸡的一个行业?

在前两三年吧,有一次我们公司新开了一个前端岗位,要求不高,3...

2025-06-20
AI认为贴6目才是平衡的,但为什么现在中国规则贴目是7.5目?

AI认为贴6目才是平衡的,但为什么现在中国规则贴目是7.5目?

首先,目前狗认为的平衡贴目从胜率来看,如果贴6目,黑胜率大概...

2025-06-20
Rust的设计缺陷是什么?

Rust的设计缺陷是什么?

刚看上一个大佬回答的评论区,我认为其实Rust最核心的设计缺...

2025-06-20