环球头条：AI大模型轮番挑战高考数学难题讯飞星火“最聪明”-大西洋社团网

首页 > 热点 >

环球头条：AI大模型轮番挑战高考数学难题讯飞星火“最聪明”

2023-06-09 14:20:56 来源:快科技

(资料图片)

过去两天，高考成为了社会各界广泛关注的话题，但与往年相比，由于今年AI大模型风靡全球，使得高考试卷也成为了检测AI大模型“智商”的试金石。对于人类而言，IQ越高的人大多数学越强，这是因为数学考验的是一个人的理解和推理能力，甚至很多检测IQ的题目就是数学题，对于大模型也是如此，数学能力高低也能反映一个大模型是否“聪明”。

那么这次的高考数学题能否难倒AI大模型呢？根据搜狐科技、量子位等权威科技媒体对ChatGPT、讯飞星火、文心一言、通义千问、360智脑等主流AI大模型的横向评测，讯飞星火居然力压群雄，成为了解题正确率最高、“最聪明”的AI大模型。

先来看下搜狐科技的测试方法，他们选择了2023年高考数学试卷的前10道填空题，让五款AI大模型轮番进行回答。仔细看这10道填空题，既包括了不等式解方程解，圆形方程解和三角形方程解，还包括了GDP逐季度递增的解法，非常全面地考验了人类的数学计算能力，而“智力超群”的AI大模型面对高考数学题会怎样？

根据搜狐科技得出的结论，讯飞星火答对了5道题，正确率为50%；ChatGPT和文心一言答对了4道题，正确率为40%；其他两个大模型一道题都没答对，等同于交了“白卷”。

接下来我们再来看量子位对五款大模型的测试，他们去掉了360智脑，但新增了公认最强的GPT-4。在 “已知函数 f ( x ) = cos ω x -1 (ω>0 ) 在区间 [0,2 π] 有且仅有3个零点 , 则ω的取值范围是？”这道题的求解中，GPT-4给出了ω的取值范围是(0,1/2]U{1}的错误答案。随后其余的大模型也可谓是“全军覆没”，它们都给出了错误的答案。

唯独只有讯飞星火给出了正确的答案。量子位的测试编辑心情悲喜交加地表示道：“本已经抱着再一次全军覆没的心情了，没想到中文大模型（讯飞星火）力挽狂澜！”

后来在三角函数题中，讯飞星火第一小问答案对了，但是步骤中出现了偏差，这说明讯飞星火在数学能力上还有改进空间。估计在6月9日科大讯飞发布星火V1.5之后，这种数学计算的小bug会得以修复。

最终量子位同样制作了一张横评汇总表，结果显示GPT-4在排列组合、立体几何和三角函数三道天空题中只有一道答对，在三角函数解答题中回答错误。而讯飞星火同样答对了一道填空题，但在三角函数解答题中答对了一问。而其余大模型完全就是“陪跑”，没有答对任何一道数学题。

讯飞星火数学能力一直是其优势之一，据悉，6月9日讯飞星火迎来V1.5迭代，不仅会在数学能力方面再上新台阶，还会在开放式问答、多轮对话方面明显升级，并在文本生成、语言理解和逻辑推理能力上持续提升。按照科大讯飞公布的三轮迭代时间表，看来星火将在10月24日实现中文超越ChatGPT、英文旗鼓相当的目标应该可以踏踏实实地一步一个脚印地抵达！

关键词：

成品油价格上调 92号汽油加满一箱多花11.5元

变废为宝让环境更好

逐梦“冰丝带” 浓浓奥运情（双奥城奋斗心）

马晓河：发挥宏观政策调节作用助力经济运行提质增效

三门核电一期工程荣获国家优质工程金奖

快讯

环球头条：AI大模型轮番挑战高考数学难题讯飞星火“最聪明”

成品油价格上调 92号汽油加满一箱多花11.5元

变废为宝让环境更好

逐梦“冰丝带” 浓浓奥运情（双奥城奋斗心）

马晓河：发挥宏观政策调节作用助力经济运行提质增效

三门核电一期工程荣获国家优质工程金奖

湾区经济论坛论道广东佛山聚焦企业高质量发展

12月5日，湾区经济论坛在广东省佛山市举行，佛山市委、市政府及相关职能部门负责人、企业代表、专家学者等齐聚一

环球头条：AI大模型轮番挑战高考数学难题 讯飞星火“最聪明”

成品油价格上调 92号汽油加满一箱多花11.5元

变废为宝 让环境更好

逐梦“冰丝带” 浓浓奥运情（双奥城 奋斗心）

马晓河：发挥宏观政策调节作用 助力经济运行提质增效

三门核电一期工程荣获国家优质工程金奖

湾区经济论坛论道广东佛山 聚焦企业高质量发展

12月5日，湾区经济论坛在广东省佛山市举行，佛山市委、市政府及相关职能部门负责人、企业代表、专家学者等齐聚一

环球头条：AI大模型轮番挑战高考数学难题讯飞星火“最聪明”

变废为宝让环境更好

逐梦“冰丝带” 浓浓奥运情（双奥城奋斗心）

马晓河：发挥宏观政策调节作用助力经济运行提质增效

湾区经济论坛论道广东佛山聚焦企业高质量发展