当前位置:首页 > 品味生活 > 正文内容

复旦大学公布高考数学大模型评测结果 讯飞星火、通义千问名列前茅完胜GPT-4o|界面新闻

fengadmin6个月前 (06-15)品味生活141

近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测结果,其中讯飞星火和通义千问表现突出,分别在高考数学新I卷和高考数学新II卷中分列前两名,而GPT-4o则在两份考卷的评测中均位列第三。

复旦NLP团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。

在全国高考数学新Ⅰ卷中,通义千问和讯飞星火对14道数学客观题的准确率达到70%以上,大幅领先GPT-4o的57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过50%,百度文心一言、腾讯元宝、Kimi等大模型准确率低于50%。 

而在全国高考数学新Ⅱ卷的评测中,讯飞星火、通义千问、GPT-4o准确率均超过60%,字节豆包、GLM4、腾讯元宝紧随其后,正确率在55%以上;文心一言、kimi等其他国产大模型正确率在55%以下。

值得一提的是,数学能力一直是GPT-4o的重要能力模块。OpenAI在5月14日的发布会上推出GPT-4o时,曾特别强调其数学能力,并在现场演示了包含实时图像识别和语音能力在内的在线教学场景。

从复旦大学NLP实验室公布的评测结果可以看出,讯飞星火和通义千问对数学问题的深入理解能力、分析能力和推理能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友幽默地评论道:“看来做数学题还是咱中国人的强项。”

扫描二维码推送至手机访问。

版权声明:本文由上海忠信云帆体育资讯网发布,如需转载请注明出处。

本文链接:http://whlrf.cn/news/post/1246.html

分享给朋友:

“复旦大学公布高考数学大模型评测结果 讯飞星火、通义千问名列前茅完胜GPT-4o|界面新闻” 的相关文章

鸡肉、猪肉概念走弱 华统股份领跌

鸡肉、猪肉概念走弱 华统股份领跌

快讯摘要 【鸡肉、猪肉概念走弱华统股份领跌】证券时报e公司讯,鸡肉、猪肉概念走弱,华统股份跌近7%,广弘控股跌逾6%,唐人神、天康生物、京基智农等跌幅居前。...

中国中车(601766.SH)3-6月合计签约436.2亿元合同

中国中车(601766.SH)发布公告,公司于2024年3-6月期间签订了若干项合同,合计金额约436.2亿元人民币,约占公司中国会计准则下2023年营业收入的18.6%。...

硅锰市场:现货价格下跌,期货盘面震荡上行

硅锰市场:现货价格下跌,期货盘面震荡上行

快讯摘要 6 月 19 日,硅锰市场偏弱运行,现货报价稍显混乱,期货盘面震荡上行,需关注后市价格走势和供需关系变化。...

法治面|持续1年的行政争议1个月化解,行政复议具有哪些制度优势?|界面新闻 · 中国

法治面|持续1年的行政争议1个月化解,行政复议具有哪些制度优势?|界面新闻 · 中国

界面新闻记者 | 张倩楠 界面新闻编辑 | 刘海川 “便民、公正、高效。” 2024年6月19日,司法部举行新闻发布会,司法部行政复议与应诉局局长周院生介绍,行政复议制度作为监督行政机关依法行使职权和维护机关合法权益的重要法律制度,在化解涉企行政争议方面具有明显的制度优势。 在新闻...

建银国际:维持石药集团“跑赢大市”评级 目标价8.8港元

建银国际:维持石药集团“跑赢大市”评级 目标价8.8港元

  建银国际发布研究报告称,维持石药集团(01093)“跑赢大市”评级,目标价8.8港元。该行预计,2024年中枢神经系统(CNS)药物销售收入增长将加速至20.9%,至110亿元人民币。相信今年的医保(NRDL)协商将会是公司的另一个机会,让药品铭复乐(Mingfule)在内地医院的采用率扩张。...

短视频摆拍治理:加强法规与平台审核,明确创作责任与边界

【短视频行业监管加强,创作主体责任明确】短视频行业迎来新规,监管层将加强互联网相关法律法规的制定和完善,明确短视频创作主体的责任。监管措施包括加大对传递错误观念、刻意制造争议、煽动公众情绪摆拍行为的监管和惩处力度。短视频创作主体被要求坚守创作底线,加强内容创新与提升,遵循正确价值导向。此外,将明确合...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。