界面新闻记者 |
界面新闻编辑 | 宋佳楠
继OpenAI突然上线一款“小模型”GPT-4o mini之后,Meta决定抛出其超大参数的大模型炸场。
7月24日,Meta发布了开源大模型系列Llama 3.1 405B,以及升级后的70B和8B两个尺寸模型。
Llama 3.1 405B被认为是当前最强的开源大模型。根据Meta公布的信息,该模型上下文长度支持128K,增加了对八种语言的支持,在通用知识、可操控性、数学、工具使用和多语言翻译等方面能够与GPT-4o和Claude 3.5 sonnet等旗舰模型相媲美,甚至在人工评估(Human Evaluation)的比较中,其总体表现比这两个模型更好。
同时,8B和70B两个型号的升级版本也是多语言的,并且都拓展到了128K上下文长度。
Llama 3.1 405B是Meta迄今为止最大的模型。Meta表示,该模型的训练涉及超过15万亿tokens,为了在合理时间内达到理想效果,团队优化了整个训练堆栈,使用了超过16000个H100 GPU——这也是第一个在如此大规模算力下完成训练的Llama模型。
这个艰难的训练目标被团队拆分为多个关键步骤。为了最大程度保证训练稳定性,Meta没有选择MoE架构(混合专家架构),而是采用了标准仅解码器的Transformer模型架构进行小幅调整。
据Meta介绍,团队也使用了迭代的后训练过程,对每一轮进行监督微调和直接偏好优化,为每个回合创建最高质量的合成数据,以提高每种能力的性能。与此前版本的Llama相比,团队提升和改进了用于训练前、后的数据数量和质量。
在Llama 3.1 405B炸场的同时,马克·扎克伯格发表了一篇题为“开源AI是前进的道路”的宣言,再次强调开源大模型的意义与价值,剑锋直指OpenAI等走上闭源路线的大模型公司。
扎克伯格重提开源Linux与闭源Unix的故事,认为前者支持更多功能和更广泛的生态系统,并且是云计算和运行大多数移动设备操作系统的行业标准基础。“我相信人工智能也会以类似的方式发展。”
他指出,几家科技公司在开发领先的闭源大模型,但开源大模型正在迅速缩小这一差距。最直接的证据是,Llama 2此前只能与落后的老一代模型相比,但Llama 3已经可与最新模型相提并论,并在某些领域获得领先。
他预计,从明年开始,Llama 3就能成为业内最先进的模型——而在此之前,Llama已经在开放性、可修改性和成本效率方面处于领先地位。
扎克伯格引用了很多理由阐述为什么这个世界需要开源模型,称对开发者而言,除了更透明的开发环境以更好训练、微调和提炼他们自己的模型,另一个重要因素是“需要一种既高效又负担得起的模式”。
他解释道,对于面向用户和离线的推理任务,开发人员可以在自己的基础设施上运行Llama 3.1 405B,成本大约是GPT- 4o等闭源模型的50%。
围绕开源、闭源两大路线之争,此前业界已有过多番讨论,但当时的主要基调在于,两者各有价值,开源能够以高性价比的方式惠及广大开发者,并且有利于大语言模型自身的技术迭代与发展,而闭源能够集中资源更快、更深突破性能瓶颈,比开源更有望率先达成AGI(通用人工智能)。
换句话说,业界普遍认为,在模型的性能水平上,开源很难追上闭源。而Llama 3.1 405B的出现或许会让行业重新思考这一结论,很可能将影响一大批已经倾向于使用闭源模型服务的企业和开发者群体。
目前,Meta的生态圈已经非常庞大。Llama 3.1模型上线后,超过25个合作伙伴将提供相关服务,包括亚马逊AWS、英伟达、Databricks、Groq、戴尔、微软Azure和谷歌云等。
只是扎克伯格对于Llama系列模型处于领先地位的预期是明年,不排除中间有再被闭源模型掀翻屋顶的可能。在此期间,外界可能会纷纷关注到那些性能水平赶不上Llama 3.1 405B的闭源大模型,它们当前的处境的确有些尴尬。
他还特别谈及中国与美国在大模型领域的竞争,认为美国在这方面永远领先中国数年是不现实的。但即使是几个月的微小领先,也会随着时间的推移而“积少成多”,从而使美国获得“明显优势”。
“美国的优势是去中心化和开放式创新。有些人认为,我们必须封闭我们的模式,以防止中国获得这些模式,但我认为这行不通,只会让美国及其盟友处于不利地位。”在扎克伯格看来,一个只有封闭模式的世界,会导致少数大公司和地缘政治对手能够获得领先的模式,而初创公司、大学和小企业则错失机会。此外,将美国创新限制在封闭开发中,增加了完全无法领先的可能性。
“相反,我认为我们最好的策略是建立一个强大的开放生态系统,让我们的领先公司与政府和盟友密切合作,以确保他们能够最好地利用最新进展,并在长期内实现可持续的先发优势。”扎克伯格表示。