当前位置:首页 > 品味生活 > 正文内容

复旦大学公布高考数学大模型评测结果 讯飞星火、通义千问名列前茅完胜GPT-4o|界面新闻

fengadmin5个月前 (06-15)品味生活126

近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测结果,其中讯飞星火和通义千问表现突出,分别在高考数学新I卷和高考数学新II卷中分列前两名,而GPT-4o则在两份考卷的评测中均位列第三。

复旦NLP团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。

在全国高考数学新Ⅰ卷中,通义千问和讯飞星火对14道数学客观题的准确率达到70%以上,大幅领先GPT-4o的57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过50%,百度文心一言、腾讯元宝、Kimi等大模型准确率低于50%。 

而在全国高考数学新Ⅱ卷的评测中,讯飞星火、通义千问、GPT-4o准确率均超过60%,字节豆包、GLM4、腾讯元宝紧随其后,正确率在55%以上;文心一言、kimi等其他国产大模型正确率在55%以下。

值得一提的是,数学能力一直是GPT-4o的重要能力模块。OpenAI在5月14日的发布会上推出GPT-4o时,曾特别强调其数学能力,并在现场演示了包含实时图像识别和语音能力在内的在线教学场景。

从复旦大学NLP实验室公布的评测结果可以看出,讯飞星火和通义千问对数学问题的深入理解能力、分析能力和推理能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友幽默地评论道:“看来做数学题还是咱中国人的强项。”

扫描二维码推送至手机访问。

版权声明:本文由上海忠信云帆体育资讯网发布,如需转载请注明出处。

本文链接:http://whlrf.cn/news/post/1246.html

分享给朋友:

“复旦大学公布高考数学大模型评测结果 讯飞星火、通义千问名列前茅完胜GPT-4o|界面新闻” 的相关文章

荣盛发展回应深交所问询,目前与债权人已就部分债务达成重组或展期意向|界面新闻 · 地产

荣盛发展回应深交所问询,目前与债权人已就部分债务达成重组或展期意向|界面新闻 · 地产

界面新闻记者 | 杨冰柯 深交所对“河北王”荣盛发展(002146.SZ)发出问询函,要求其对年报中公司营收、毛利率、现金流及债务情况进一步说明。 5月30日,荣盛发展发布《关于深圳证券交易所对其2023年年报问询涵的回复公告》,作出回应。 根据荣盛发展2023年年报,报告期内,...

鸡肉、猪肉概念走弱 华统股份领跌

鸡肉、猪肉概念走弱 华统股份领跌

快讯摘要 【鸡肉、猪肉概念走弱华统股份领跌】证券时报e公司讯,鸡肉、猪肉概念走弱,华统股份跌近7%,广弘控股跌逾6%,唐人神、天康生物、京基智农等跌幅居前。...

高盛追平华尔街最乐观预测:标普500指数年底将涨至5600点

高盛追平华尔街最乐观预测:标普500指数年底将涨至5600点

  财联社6月15日讯(编辑 潇湘)高盛集团策略师们本周五(6月14日)第三次上调了标普500指数的年底目标位,以反映出这家华尔街大行对盈利增长和美国经济的乐观预期。   以David Kostin为首的高盛股票策略师最新预计,标普500指数到今年年底预计将升至5600点,高于他们2月份时预测的52...

华为靳玉志吐槽智驾直播:驾驶员紧张得要命,说明智能驾驶水平绝对很差

华为靳玉志吐槽智驾直播:驾驶员紧张得要命,说明智能驾驶水平绝对很差

专题:第十六届中国汽车蓝皮书论坛   由汽车商业评论主办的“第十六届中国汽车蓝皮书论坛”于2024年6月14日-16日在北京举行。华为智能汽车解决方案BU CEO靳玉志出席并演讲。   靳玉志表示,当前华为的智能驾驶可以让户用大幅减少疲劳。“我每天上下班开车往返将近100公里,有高速有城区,在高速上...

新能源乘用车5月销量90万辆:零售渗透率47%创新高,自主车企表现强劲

新能源乘用车5月销量90万辆:零售渗透率47%创新高,自主车企表现强劲

快讯摘要 5月新能源乘用车批发销量90万辆,零售渗透率升至47%,较去年提升14个百分点。市场逐步恢复增长,高端车型及自主车企表现强劲。...

利空突袭!这只A股遭美国制裁!

利空突袭!这只A股遭美国制裁!

A股市场一家ST公司,遭到了美国的制裁! 6月16日晚间,ST天喻(维权)发布公告称,美国财政部海外资产控制办公室将公司列入SDN清单(特别指定国民清单)。被列入清单的实体在与美国实体之间的交易、海外资产转移、外汇结算等方面将面临限制。 列入SDN清单 ST天喻主营业务包括数据安全、在线教育、移...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。