界面新闻记者 |
界面新闻编辑 | 文姝琪
6月14日,中关村国际创新中心,上午七点半,已经开始有人排队等待入场,大模型创业者们开始享受到明星般的追随与礼遇。
在由北京智源人工智能研究院主办的“智源大会”上,李开复直言,具身智能并不一定适合创业者;相信Scaling Law过程中不能盲目“堆”GPU;大公司、传统公司不敢采取颠覆式技术,它们已经习惯每年增长5%的预算,做和去年一样的事情。
大模型创业热,但大厂群狼环伺,在大模型降价潮的口子刚刚撕开,大厂立即下场出牌,创业公司艰难交手。不同于多年前的互联网热,大模型热不到两年,但创业者们已经开始强调性价比和产出比。
人们还在继续追问:大模型的落地场景在哪里?B端和C端的场景在哪里?还有哪些机会?
李开复仍然相信技术可以永久领先,但技术带来的领先窗口期非常短暂,一旦巨头看到你验证了PMF(产品市场匹配度),他们会有很多方法超越你。最终胜出的To C(用户端)应用不仅需要技术优势,还要在时间窗口内打造持续优势,比如品牌优势、社交链、用户数据,让用户离不开这个平台。
会上,智源研究院理事长黄铁军,零一万物CEO、创新工场董事长李开复与中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤展开对谈。现场聊了关于大模型的优势与不足、大模型热为自动驾驶带来机会,具身智能和AGI等热点话题。
以下内容经界面新闻编辑和删节
谈大模型:优缺点、商业化难题
黄铁军:什么原因使得大模型如此成功?还有哪些欠缺的地方需要进一步发展?
李开复: AI 2.0是有史以来最伟大的科技革命和平台革命,大模型Scaling Law 的重要性在这个时代得以凸显——人类能够用更多计算和数据不断增加大模型的智慧,这条被多方验证的路径还在推进中,还远没有触达天花板,这点也让大家非常振奋。
大模型的智慧来自于接近无损的压缩,这点也非常重要。上世代的人工智能从业者很难想到今天会把压缩和智能连接在一起。但Scaling Law过程中不能盲目“堆”GPU,需要有方法评估哪个方法做得更好。零一万物内部采用压缩的理念去评估,让以往漫无目的“炼丹”训模过程变得更系统也更有科学和数学根据。
大模型正面临着一些挑战,如果“仅仅用更多算力就能把它往前推动”是主要方向的话,就会导致只有那些GPU资源丰富的公司和国家能够在这方面胜出。但话说回来,很多国内大模型在部分案例里接近或者打平、或者偶尔超过美国大模型。需要专注算法和工程创新一体化推进,避免进入“盲目堆算力推动模型性能提升”的状态。
张亚勤:我讲“三个做对了”和“三个需要改进” 。有三件事做对了。首先,规模定律Scaling Law(规模定律)的实现,得益于对海量数据的利用以及算力的显著提升,再加上现在的Diffusion和Transformer架构能够高效地利用算力和数据,使得“飞轮效应”得以正循环。
有人质疑Scaling Law在2-3年后不一定有效,但我认为至少在未来五年里,它仍是产业发展的主要方向。
其次是“Token-Based”统一表述方式。在大模型中,“Token”是一个基本元素。无论是文本、语音、图像、视频,还是自动驾驶中的激光雷达信号,甚至是生物领域的蛋白质和细胞,最终都可以抽象为一个Token。
大模型的通用性不仅体现在文本处理上,还扩展到了多模态领域,甚至可以生成如蛋白质等复杂结构。此外,它在物理世界(如具身智能)和生物世界(如生物智能)中也有着广泛的应用前景。以上这三个是大模型做对的。
大模型现阶段主要存在以下三个问题:
一是大模型计算效率低下,与人类大脑的高效性形成了鲜明的对比。如何借鉴人类大脑的计算方法,在降低计算耗能、提高效率方面进行探索和创新,是一个值得关注的方向。
其次,大模型尚未能真正理解物理世界,相关的推理能力、透明性以及幻觉等问题都还在研究中。
此外,大模型做得再好,它在生成式表述与对真实世界之间仍存在矛盾。需要探索将生成式大模型与现有的“第一性原理”或真实模型、知识图谱相结合,虽然目前已经有人采用RAG技术或进行微调。但我认为这些方法并非根本解决方案。未来五年内,会有一个全新的架构取代目前的Transformer和Diffusion模型。
最后,大模型欠缺的地方是边界问题。现在大模型无法知道“我不知道什么”,这是目前要解决的问题,是它的边界效应。
黄铁军:有人认为大模型是实践、工程,经验主义的东西,没有理论基础,说得不好听叫“不靠谱”,不知道你怎么看这个问题?
李开复:科学和工程缺一不可。如果只做工程,不了解“第一性原理”,没有数学根据、没有办法评估不同方法的效果,考虑到高昂的算力成本,这样的摸索肯定做不出好模型。如果只在实验室里雕花,写论文,期待有工程人才把论文做成产品,肯定也是不行的。
零一万物的经验是,每个做AI、做模型的Researcher要懂Infrastructure、都要懂推理、知道成本问题。训练模型的过程中绝对不只是写Paper,还要考虑怎样系统化、工程化地做数据工程,还有底层的AI Infrastructure。GPU这么昂贵,如果把一张当成两张、三张使用,任何公司都会得到好处,所以科技和工程这两方面缺一不可。
黄铁军:大模型产业化最大的场景在哪里?移动互联网这么多年,To B、To C ,这两个大赛道哪个更有机会?为什么?
李开复:简单来说,短期在中国To C 更有机会,但国外两者都有机会。To C方面,AI 2.0 时代会和PC、移动互联网时代一样,第一个阶段是生产力工具,包括信息获取。第二个阶段可能是娱乐、音乐、游戏。第三个阶段是搜索;再下一个阶段可能会是电商、社交、短视频、O2O的应用出现。
应用要能赚钱并且解决问题,所以第一波潮流会出现生产力工具,但越往后的难度越高——高用户量的应用商业模式往往先堆积用户,再找变现模式,所以应用成本一定要低,试错难度大、所需要的投资也更多。
递进模式不会有特别大的改变,To C应用会从生产力工具一步步走向短视频类应用,在普及顺序上会按照这六个阶段进行。
但是,大模型领域做应用的推理成本太贵。最近零一万物提出了TC-PMF概念(技术成本产品市场契合度),这个概念是指,当你考虑PMF时,还要把技术的需求、实现难度和成本考虑进去。做应用一定要考虑到刚才这六个阶段谁先谁后、什么时候做、提早做。
此外,做应用还要综合考虑技术、成本的性价比,大模型To C应用不像过去移动互联网时代,产品经理一个人就可以做主,它需要做Infrastructure、做推理引擎的人、一起打磨TC-PMF。
To B应用上,大模型有可能在To B方向上带来更大价值,而且比To C更快实现,但To B领域存在以下几个挑战。
首先是大公司、传统公司不敢采取颠覆式技术,它们已经习惯每年增长5%的预算,做和去年一样的事情。
第二个挑战在中国比较严重,许多大公司没有认识到软件的价值,为软件付费意的意识有待提高。
现在有许多大模型公司在竞标时越竞越低,最后做一单赔一单,都没有利润。我们在AI 1.0时代曾见过这个现象,现在它在AI 2.0时代又重现了。这种心态导致部分大公司只愿支付很低的价格,大模型公司也只能给出折中的方案,达到惊艳效果的寥寥无几。零一万物坚决做To C,不做赔钱的To B,而是做能赚钱的To B。
黄铁军:在To B、To C方面,大模型产业的最大场景会在哪些场景落地?
张亚勤:在应用和服务层面,先面向消费者(To C)再面向企业(To B)。To B的周期相对较长,而To C的应用产品则可以迅速推出,这与过去的PC互联网和移动互联网的发展路径基本一致。
在基础设施层,目前真正盈利的主要集中在To B领域,特别是在芯片、硬件、服务器等。像英伟达、AMD等芯片制造商,以及服务器、HBM存储、InfiniBand和NVLink等相关技术的提供商,他们目前是盈利最多的。
AI路径上,我在过去十年中一直强调三个关键领域:信息智能、物理智能(即具身智能)、生物智能。在具身智能阶段,To B的应用可能会比To C更快落地。然而,在生物智能阶段,情况可能相反,To C的应用可能会先于To B出现。尽管每个领域的具体情况可能有所不同,但总体来看,无论是To C还是To B,都将存在开源模型、商业闭源模型、基础大模型,以及针对垂直行业模型和边缘模型。
谈具身智能与自动驾驶
黄铁军:在具身智能这么多可能性里面,到底是热门的人形机器人会先有机会,还是已经有相当多积累的自动驾驶会有机会?
张亚勤:无人驾驶L4+是具身智能第一个、最大的应用,也会是第一次实现新图灵测试的应用。
无人驾驶就是一个开车的特殊机器人,它在安全性已经比人类驾驶要高至少10倍,不管是Waymo还是百度阿波罗的商业运营。
尽管安全性很好,当前无人驾驶仍存在一些挑战——开得安全但不够老练,不够“老司机”。无人驾驶要变成主流,要通过新图灵测试的话,既是好司机,也是老司机。我认为无人驾驶在明年会成为第一个真正实现具身智能或者物理智能的AGI。
大模型的推出帮助无人驾驶解决了很多历史问题,比如长尾问题、数据生成问题,百度已经积累了1亿公里的驾驶数据,但数据仍然不够,生成式人工智能可以生成更多数据。大模型的应用使得无人驾驶系统能够实现端到端的智能化,也意味着无人驾驶会有更高的智能性,加速其在实际场景中的落地应用。
李开复:我同意亚勤的分析。创新工场投了6家无人驾驶公司,发展都不错。现在无人驾驶面临的一个巨大机会——终于可以落地了。在L2、L3阶段,包含城市自动小巴等场景。到L4、L5阶段,要无限制的开放场景,全球都面临着挑战。我在美国看到Waymo依然在往前推进。特斯拉FSD虽然不是完全的大模型,但也用了类似end to end(端到端)的概念。至于不用FSD方案能产生多少产业价值,希望我们投的这五六家公司和亚勤的前公司都能够证明,中国能做得很好,也许这是很大的市场。
过去一年,我专注于零一万物,没有做自动驾驶研究,但我确定FSD会带来新机会。把大模型的概念放到无人驾驶,是我非常期待能够在下一阶段看到的事。但这是需要巨大的投资,不见得适合初创公司。
具身智能很重要。但我也必须说,大模型非常适合虚拟世界,例如金融公司的后台、客服等等场景,大模型可以迅速落地产生价值。如果你的需求是软件,直接对接大模型就好了。一旦大模型接入物理世界就会面临各种问题:安全、机器、机械、故障问题等,难度会大很多倍。
从创业者的角度来说,如果希望短期落地产生价值、能赚钱,做虚拟世界容易很多。具身智能可以很好地结合大模型多模态能力,而且一旦“具身”后就可以产生数据,形成数据飞轮闭环,有很大的想象空间。但短期要做好,难度很大。具身智能肯定要走很漫长的道路。
对人形机器人,我有一些特别的看法:绝大多数应用场景并不需要人形机器人,像是波士顿动力那种很酷的、跳来跳去的机器人,真的会有很多应用场景吗?绝大多数场景几个轮子不是更容易移动吗?很多科学家和创业者都是从小热爱科技,希望能复制一个人,这无可厚非。如果你很简单地问VC,VC给出的恐怕是更务实更理性的判断。
谈AGI的定义、实现、安全
张亚勤:最近经常有人问我,AGI到底什么时候可以实现?我比较乐观,认为15-20年内可以就实现,并通过新图灵测试。
5年内,在信息智能领域,对语言、图像、声音和视频的理解、生成等方面通过新图灵测试。10年内,在物理智能领域,实现大模型在物理环境中的理解与操作能力,通过新图灵测试。20年内,在生物智能领域,聚焦人体、脑机接口、生物体、制药和生命科学,实现大模型与生物体连结的生物智能,通过图灵测试。
要是三年前问我这个问题,我可能会说50年实现AGI,随着大模型的发展,现在20年能实现。
黄铁军:AGI是要超越人类、有自我意识,有自己的目标、独立做判断。你们刚才谈的是这样的AGI吗?
李开复:AGI的定义是因人而异的。如果把AGI定义为能做人所能做的一切事情,那么我今天没有办法定义,因为它还有太多未解之谜。只把人当作金标准,就像在问车什么时候能跟人跑的一样快。
只要Scaling Law继续,只要AI一年比一年更聪明,它会多做比如5倍的事情,IQ会提升20个点。
我是做投资和创业的,我想看到的是巨大的商业价值。从这个角度来说,我们不会太纠结是不是能够100%做到人类能做的事。如果世界上有一万件事情,AI在9000件上做得比人好,有1000件人做得比较好,这样也挺好的,要给人留一点空间。
张亚勤:我刚才讲的20年实现AGI,不包括拥有意识或情感。我对AGI的定义有三点,第一是要有巨大的能力,要能在大部分的任务要比人类强,而不是所有任务均超越人类。第二,它是必须要是通用的,过去每个任务都要用不同的模型,但是AGI是要有一个通用的大底座,当然可以有小的垂直模型,但它本身具有通用性。第三是不断升级、学习、进化,就像人类一样。我不认为现在的Scaling Law,或者我们现在做的研究会让AI产生意识,并且我也不认为我们应该从事这方面的研究。我们还是要解决真正的问题,把人工智能作为我们的工具、我们的延伸、我们的Agent,而不是另外一种物种。
黄铁军:超越人类的、有自我意识的AGI出来之后,人类会面临着失控的巨大风险吗?
李开复:存在,但概率不会很高。如果我们越来越依赖Reward model完全让AI自己找路径的话,发生的概率或许会增高。
当前大模型的训练方法还不至于让大家担忧过度。技术是中性的,每个科技时代有技术带来的“电车难题”,最后人类都用了有效的方法解决了。所以,我对此是持谨慎乐观的态度,短期最担忧是坏人用它去做坏事。中长期看,我仍然建议尝试用“以子之矛攻子之盾”——用更好的技术解决技术带来的挑战,让“AI for Good”,真正造福全人类。
张亚勤:随着AI的能力不断扩大,风险也在不断扩大,考虑未来的风险很重要。我不担心所谓的AGI会出现意识,会掌控人类。
如果现在不重视AI的治理,当AGI达到一定的能力并被大规模部署,那么可能会有失控风险。目前AI仍存在可解释性问题,未来机器人数量可能会比人多,当大模型被用到基础物理设施、金融系统,包括国家安全,军事系统等方面,就可能会有失控的风险。
我主张现在就要开始重视AI治理,但我对技术发永远持乐观态度,人类有两种智慧,一种是发明技术的智慧,一种是引导技术走向的智慧。我们会达到平衡,但前提是现在要采取行动。