当前位置:首页 > 品味生活 > 正文内容

复旦大学公布高考数学大模型评测结果 讯飞星火、通义千问名列前茅完胜GPT-4o|界面新闻

fengadmin3个月前 (06-15)品味生活92

近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测结果,其中讯飞星火和通义千问表现突出,分别在高考数学新I卷和高考数学新II卷中分列前两名,而GPT-4o则在两份考卷的评测中均位列第三。

复旦NLP团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。

在全国高考数学新Ⅰ卷中,通义千问和讯飞星火对14道数学客观题的准确率达到70%以上,大幅领先GPT-4o的57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过50%,百度文心一言、腾讯元宝、Kimi等大模型准确率低于50%。 

而在全国高考数学新Ⅱ卷的评测中,讯飞星火、通义千问、GPT-4o准确率均超过60%,字节豆包、GLM4、腾讯元宝紧随其后,正确率在55%以上;文心一言、kimi等其他国产大模型正确率在55%以下。

值得一提的是,数学能力一直是GPT-4o的重要能力模块。OpenAI在5月14日的发布会上推出GPT-4o时,曾特别强调其数学能力,并在现场演示了包含实时图像识别和语音能力在内的在线教学场景。

从复旦大学NLP实验室公布的评测结果可以看出,讯飞星火和通义千问对数学问题的深入理解能力、分析能力和推理能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友幽默地评论道:“看来做数学题还是咱中国人的强项。”

扫描二维码推送至手机访问。

版权声明:本文由上海忠信云帆体育资讯网发布,如需转载请注明出处。

本文链接:http://whlrf.cn/news/post/1246.html

分享给朋友:

“复旦大学公布高考数学大模型评测结果 讯飞星火、通义千问名列前茅完胜GPT-4o|界面新闻” 的相关文章

极米科技(688696.SH):向激励对象授予138.05万份股票期权

格隆汇6月12日丨极米科技(688696.SH)公布,公司审议通过了《关于向激励对象首次授予股票期权的议案》,确定2024年6月12日为首次授予日,以101.11元/股的价格向符合授予条件的21名激励对象授予138.05万份股票期权。 (:贺...

江西省气象台发布暴雨黄色预警信号

每经AI快讯,江西省气象台2024年06月17日04时46分变更暴雨黄色预警信号:预计未来6小时内,抚州、吉安两市北部和宜春、上饶两市南部以及萍乡、新余、鹰潭三市的部分地区降水可达50毫米以上,其中抚州、吉安两市北部和宜春市南部局部3小时降水可达50毫米以上,伴有短时强降水、雷电等强对流天气,请注意...

券商中期策略会:6 家券商将举办,4 家集中在上海陆家嘴

【6 月 17 日消息,据每经报道,券商中期策略会高峰将至,多家券商将举办,部分券商选择放弃。】往年惯例,每年 6-7 月为券商举办中期策略会高峰,一周内扎堆举办是行业常态。明后天起,约 6 家券商将举办中期策略会,至少 4 家在上海陆家嘴地区集中举办。值得关注的是,不少券商今年或放弃举办,中部地区...

特斯拉两款车型进入全球销量前十,国产车中比亚迪秦最畅销|界面新闻 · 汽车

特斯拉两款车型进入全球销量前十,国产车中比亚迪秦最畅销|界面新闻 · 汽车

界面新闻记者 | 杨诗涵 英国调查公司JATO Dynamics日前发布2023年全球车型销量排行,前20名中中国车型比亚迪秦和比亚迪宋Plus上榜。丰田虽然在前十名中占据五个席位,但是其主力产品卡罗拉轿车销量同比下滑19%,成为前20名中下滑幅度最大的车型。 此外,比...

华检医疗盘中异动 股价大跌5.56%

2024年06月18日临近收盘15时55分,华检医疗(01931.hk)股票出现异动,股价快速下跌5.56%。截至发稿,该股报0.850港元/股,成交量150.7万股,换手率0.11%,振幅10.00%。 资金方面,该股资金流入48.977万港元,流出84.97万港元。 最近的财报数据显示,该股实现...

盘前机会前瞻|中医药迎来重要催化,这几家公司在中成药研发方面优势明显,其中一家已实现中药全产业链布局(附概念股)|界面新闻 · 证券

6月17日,十四届全国政协第二十次双周协商座谈会17日在京召开,中共中央政治局常委、全国政协主席王沪宁主持会议。王沪宁表示,要在推动中医药振兴发展上深化研究,围绕中医药传承创新发展涉及的经典保护、科技创新、体制改革、产业转型、国际合作等重要问题,研究提出更多增进人民健康、推动中医药事业高质量发展的...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。