当前位置:首页 > 趣味生活 > 正文内容

Meta最强大模型超越GPT-4o,扎克伯格再次挑起开闭源之争|界面新闻 · 科技

fengadmin6个月前 (07-25)趣味生活35

界面新闻记者 | 伍洋宇

界面新闻编辑 | 宋佳楠

OpenAI突然上线一款“小模型”GPT-4o mini之后,Meta决定抛出其超大参数的大模型炸场。

7月24日,Meta发布了开源大模型系列Llama 3.1 405B,以及升级后的70B和8B两个尺寸模型。

Llama 3.1 405B被认为是当前最强的开源大模型。根据Meta公布的信息,该模型上下文长度支持128K,增加了对八种语言的支持,在通用知识、可操控性、数学、工具使用和多语言翻译等方面能够与GPT-4o和Claude 3.5 sonnet等旗舰模型相媲美,甚至在人工评估(Human Evaluation)的比较中,其总体表现比这两个模型更好。 

同时,8B和70B两个型号的升级版本也是多语言的,并且都拓展到了128K上下文长度。

Llama 3.1 405B是Meta迄今为止最大的模型。Meta表示,该模型的训练涉及超过15万亿tokens,为了在合理时间内达到理想效果,团队优化了整个训练堆栈,使用了超过16000个H100 GPU——这也是第一个在如此大规模算力下完成训练的Llama模型。

这个艰难的训练目标被团队拆分为多个关键步骤。为了最大程度保证训练稳定性,Meta没有选择MoE架构(混合专家架构),而是采用了标准仅解码器的Transformer模型架构进行小幅调整。

据Meta介绍,团队也使用了迭代的后训练过程,对每一轮进行监督微调和直接偏好优化,为每个回合创建最高质量的合成数据,以提高每种能力的性能。与此前版本的Llama相比,团队提升和改进了用于训练前、后的数据数量和质量。

在Llama 3.1 405B炸场的同时,马克·扎克伯格发表了一篇题为“开源AI是前进的道路”的宣言,再次强调开源大模型的意义与价值,剑锋直指OpenAI等走上闭源路线的大模型公司。

扎克伯格重提开源Linux与闭源Unix的故事,认为前者支持更多功能和更广泛的生态系统,并且是云计算和运行大多数移动设备操作系统的行业标准基础。“我相信人工智能也会以类似的方式发展。”

他指出,几家科技公司在开发领先的闭源大模型,但开源大模型正在迅速缩小这一差距。最直接的证据是,Llama 2此前只能与落后的老一代模型相比,但Llama 3已经可与最新模型相提并论,并在某些领域获得领先。

他预计,从明年开始,Llama 3就能成为业内最先进的模型——而在此之前,Llama已经在开放性、可修改性和成本效率方面处于领先地位。

扎克伯格引用了很多理由阐述为什么这个世界需要开源模型,称对开发者而言,除了更透明的开发环境以更好训练、微调和提炼他们自己的模型,另一个重要因素是“需要一种既高效又负担得起的模式”。

他解释道,对于面向用户和离线的推理任务,开发人员可以在自己的基础设施上运行Llama 3.1 405B,成本大约是GPT- 4o等闭源模型的50%。

围绕开源、闭源两大路线之争,此前业界已有过多番讨论,但当时的主要基调在于,两者各有价值,开源能够以高性价比的方式惠及广大开发者,并且有利于大语言模型自身的技术迭代与发展,而闭源能够集中资源更快、更深突破性能瓶颈,比开源更有望率先达成AGI(通用人工智能)。

换句话说,业界普遍认为,在模型的性能水平上,开源很难追上闭源。而Llama 3.1 405B的出现或许会让行业重新思考这一结论,很可能将影响一大批已经倾向于使用闭源模型服务的企业和开发者群体。

目前,Meta的生态圈已经非常庞大。Llama 3.1模型上线后,超过25个合作伙伴将提供相关服务,包括亚马逊AWS、英伟达、Databricks、Groq、戴尔、微软Azure和谷歌云等。

只是扎克伯格对于Llama系列模型处于领先地位的预期是明年,不排除中间有再被闭源模型掀翻屋顶的可能。在此期间,外界可能会纷纷关注到那些性能水平赶不上Llama 3.1 405B的闭源大模型,它们当前的处境的确有些尴尬。

他还特别谈及中国与美国在大模型领域的竞争认为美国在这方面永远领先中国数年是不现实的。但即使是几个月的微小领先,也会随着时间的推移而“积少成多”,从而使美国获得“明显优势”。

“美国的优势是去中心化和开放式创新。有些人认为,我们必须封闭我们的模式,以防止中国获得这些模式,但我认为这行不通,只会让美国及其盟友处于不利地位。”在扎克伯格看来,一个只有封闭模式的世界,会导致少数大公司和地缘政治对手能够获得领先的模式,而初创公司、大学和小企业则错失机会。此外,将美国创新限制在封闭开发中,增加了完全无法领先的可能性。

“相反,我认为我们最好的策略是建立一个强大的开放生态系统,让我们的领先公司与政府和盟友密切合作,以确保他们能够最好地利用最新进展,并在长期内实现可持续的先发优势。”扎克伯格表示。

扫描二维码推送至手机访问。

版权声明:本文由上海忠信云帆体育资讯网发布,如需转载请注明出处。

本文链接:http://whlrf.cn/news/post/12347.html

分享给朋友:

“Meta最强大模型超越GPT-4o,扎克伯格再次挑起开闭源之争|界面新闻 · 科技” 的相关文章

启明医疗-B(02500.HK):VENUSP-VALVE美国IDE关键性临床首例患者成功植入

来源:格隆汇 格隆汇6月14日丨启明医疗-B(02500.HK)发布公告,公司自主研发的经导管人工肺动脉瓣膜置换(TPVR)系统VenusP-Valve的美国PROTEUS IDE关键性临床于近日正式启动并成功完成首例患者植入。这标志着VenusP-Valve的国际化临床取得重大进展,是继2022年...

气溶胶检测概念盘中拉升,先河环保涨6.24%

气溶胶检测概念盘中拉升,先河环保涨6.24%

06月14日,气溶胶检测概念盘中拉升,截至13点45分,气溶胶检测概念整体指数上涨1.01%,报893.810点。 从个股上来看,该概念的成分股中,先河环保(维权)涨6.24%,理工能科、蓝盾光电、京东方A涨幅居前。 从资金上来看,截止发稿,气溶胶检测概念主力净流入为-1389.34万,其中仙琚制...

新三板创新层公司博生医材新增专利信息授权:“一种包覆式密封垫片”

新三板创新层公司博生医材新增专利信息授权:“一种包覆式密封垫片”

快讯摘要 新三板创新层公司博生医材新增专利信息授权:“一种包覆式密封垫片” 每经讯,据启信宝,新三板创新层公司博生医材(873710)新增专利信息,专利权人为博生医材,发明人是王永亮、华亮。专利授......

深圳气象台:暴雨预警解除,雷电预警生效

【深圳气象台:雷暴云团移出,风雨减弱】深圳市气象台 2024 年 06 月 15 日 19 时 45 分解除所有暴雨预警信号和雷雨大风预警信号,全市雷电预警信号继续生效。市民仍需注意远离河道和危险边坡等。...

【专访】兴业证券首席经济学家王涵:科创板坚持“硬科技”定位,促进多层次资本市场互联互通|界面新闻

【专访】兴业证券首席经济学家王涵:科创板坚持“硬科技”定位,促进多层次资本市场互联互通|界面新闻

界面新闻记者 | 冯赛琪 6月19日-20日,2024年陆家嘴论即将在黄浦江畔举办,今年的论坛以“金融高质量发展推动世界经济增长”为主题。 据悉,本届陆家嘴论坛将推出“科技创新与资本市场高质量发展”全体大会,除了主题讨论,论坛还将举办“科创金融工作室”,围绕“提升多层次资本流动,打造高...

地方新闻精选 | 武平特大暴雨致4死2失踪 梅州超13万户停电|界面新闻 · 中国

地方新闻精选 | 武平特大暴雨致4死2失踪 梅州超13万户停电|界面新闻 · 中国

界面新闻记者 | 翟瑞民 界面新闻编辑 | 刘海川 【福建】武平特大暴雨已致4人死亡2人失踪,全县4.78万人受灾 据央视新闻客户端消息,6月16日,福建省龙岩市武平县普降暴雨,当日14时起,局部骤降特大暴雨,24小时过程雨量最大为岩前镇372.4毫米。全县多地受灾严重。据初步统...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。