当前位置:首页 > 趣味生活 > 正文内容

文科考上一本理科不及格,大模型“高考”为啥偏科?|界面新闻 · 科技

fengadmin6个月前 (06-25)趣味生活33

界面新闻记者 | 肖芳

界面新闻编辑 | 文姝琪

随着各地高考出分,各家大模型回答高考题能力有了一个更加客观衡量标准

根据极客公园使用高考新课标Ⅰ卷评测,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,而河南高考录取分数线显示,文科本科一批录取分数线为521分,上述三款国产AI成功冲上一本线。

相比之下大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。

从具体的科目来看,英语是大模型表现最优异的学科,九个大模型的平均分高达132分(满分 150),大部分大模型都可以做到客观题接近满分。其次是语文,但不论中外大模型语文的得分都要略差于英语得分较高大模型分数能够达到120

数学试卷中,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分)重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有34分和39分(满分为100110)。

另一个机构司南评测体系高考全国新课标I卷“语数外”三个科目评测呈现类似趋势7款参与评测的大模型英语语文成绩较高数学成绩不及格

虽然不同评测机构标准有所差异一个非常明显趋势大模型擅长回答文科试题不太擅长回答数学物理理科题目

在一些人的印象中,数学一直都是计算机的强项,大模型在数学等理科试题上表现糟糕让他们有些意外。但一位大模型技术专家告诉界面新闻,这可能是普通人对大模型最大的误解,因为大模型和计算机完全是两个不同的体系。

这位大模型技术专家表示大模型理科表现不好,本质上都来源于数学能力的欠缺。这个和大模型本身的next-token prediction(下一个词预测)有关。

界面新闻了解在大语言模型中,next-token prediction是非常关键的一个环节。当模型处理输入的文本序列时,它会基于已有的信息和学习到的语言知识,对下一个最可能出现的词(token)进行预测。模型通过对大量文本数据的学习,理解了不同词之间的概率分布和关联关系。在预测时,模型会计算每个可能的下一个词出现的概率,并选择概率较高的词作为预测结果。

这种逐词预测的方式使得模型能够生成连贯的文本输出。通过不断地进行下一个词预测,模型可以生成一段完整的文本内容。为了提高预测的准确性,模型的训练过程会不断调整参数,以更好地捕捉语言的模式和规律。同时,模型也会考虑上下文信息,包括前面已经生成的词以及整个输入文本的语义和语法结构,来更精准地进行下一个词预测。这有助于生成更符合逻辑和语义的文本,增强语言模型的表现和生成能力。

当大语言模型学习了海量知识数据,天然就适应考验记忆能力和语言运用的文科考试。但理科考试主要考验推理和计算,比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%。

高考试题评测非常直观显示出大模型上述能力特点如果是文科题目,回答是一段话,阅卷评分的时候其实主要看的还是整段话的意思是否符合要求,可能有一两次不准确,或者用了一些同义词,都不影响评分。但如果是数学题目,假设模型前面输出了32103,下一个token输出一个2还是小数点,都会对最终结果造成决定性的影响。

目前的大模型回答理科试题时只能正确推理步骤相对简单的问题。比如高考新课标Ⅰ卷评测豆包大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。物理试题有一道送分题选择位移时间变化正确图像人类考生根据“时间不会倒流”可以排除所有错误选项大模型则几乎全军覆没。

理科语料比较稀缺也是大模型理科答题能力不如文科重要原因之一另一位大模型技术专家告诉界面新闻理科语料稀缺问题普通日常感知也能理解日常生活普通人接触语料较大比例文字语料数学物理数字符号语料较少用于大模型训练语料同样这种分布

上述大模型技术专家表示普通人认知厉害计算软件大模型完全不同技术原理计算软件并不是基于概率预测下一个token而是基于提前写好专家规则专门用于计算某类数学问题

看起来,要学会像人类一样思考和解决问题,大模型还有很长的路要走。在上述大模型技术专家看来即使文本推理大模型目前只是达到勉强能用水平还有非常提升空间比如研报技术文档分析准确度要求更高场景大模型能力很难达到正常使用水平

目前,各家大模型都在努力提升智能水平,一方面在提升文本生成能力,另一个目标就是提高推理和计算能力。

但学界对大模型的推理和计算能力存在争议。有观点认为,next-token prediction本身就包含了推理,计算也是一种推理。只要scaling law(规模法则)生效,大模型性能持续提升,推理和计算能力就能够提升;但也有反对者认为,大语言模型缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果,主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI?对于这个问题,目前还没有定论。

扫描二维码推送至手机访问。

版权声明:本文由上海忠信云帆体育资讯网发布,如需转载请注明出处。

本文链接:http://whlrf.cn/news/post/4265.html

分享给朋友:

“文科考上一本理科不及格,大模型“高考”为啥偏科?|界面新闻 · 科技” 的相关文章

鹏华优质企业混合A:净值下跌至0.7716元,近6个月收益率-11.89%

鹏华优质企业混合A:净值下跌至0.7716元,近6个月收益率-11.89%

快讯摘要 鹏华优质企业混合A基金最新净值0.7716元,近1个月收益率为-3.04%,近6个月收益率为-11.89%,规模2.10亿元。...

ElectrifyAmerica:今年前 5 月 129 条充电线缆被盗,远超去年全年

【美国多地电动汽车充电站电缆被盗事件频发】今年以来,美国多地发生电动汽车充电站电缆被盗事件。美国第二大充电网运营商 ElectrifyAmerica 数据显示,今年前 5 月已有 129 条充电线缆被盗,比去年全年还多。盗贼作案手法基本一致,趁夜色用大嘴钳剪断多条充电桩充电线缆后迅速离开。近期国际铜...

中公高科(603860.SH):“中公云”平台目前主要服务于公司业务管理

格隆汇6月18日丨中公高科(603860.SH)在互动平台表示,公司“中公云”平台目前主要服务于公司业务管理,主要面向合作的行业内单位使用。...

云中马董事刘雪梅增持1.17万股,增持金额20.67万元

云中马董事刘雪梅增持1.17万股,增持金额20.67万元

快讯摘要 云中马董事刘雪梅增持1.17万股,增持金额20.67万元 每经AI快讯,据上交所官网,2024年6月6日,云中马(SH603130,收盘价:17.85元)董事刘雪梅通过二级市场买卖,增持公司1.17万股...

乌军袭击扎波罗热核电站所在城市 致该市电力中断

乌军袭击扎波罗热核电站所在城市 致该市电力中断

快讯摘要 乌军袭击扎波罗热核电站所在城市 致该市电力中断 每经AI快讯,当地时间19日,扎波罗热核电站所在的埃涅尔戈达尔市相关部门负责人通报称,乌克兰武装力量对一处变电站的无人机攻击导致该市电力供......

IPO雷达|达利园、盼盼面粉供应商参花实业三“闯”港交所:资产负债率超100%|界面新闻 · 证券

IPO雷达|达利园、盼盼面粉供应商参花实业三“闯”港交所:资产负债率超100%|界面新闻 · 证券

记者|张乔遇 河北的固安县,一个看似不起眼的小县城,却孕育出了一家规模不小的面粉生产制造公司——参花实业控股有限公司(下称:参花实业),且该公司近日还向港交所递交了IPO申请,中泰国际为独家保荐商。 据悉,参花实业不仅是达利、盼盼等知名品牌的供应商,还同时是康师傅的合作伙伴。然...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。