界面新闻记者 |
界面新闻编辑 | 宋佳楠
“所有的产品都值得用AI重做一遍。”微软CEO萨提亚·纳德拉一句展望时代的话,成为了AI硬件行业的创业圣经。一群消费电子行业的创业者正试图用AI闯出一条新路。
耳机成为首选赛道之一,越来越多植入AI功能的耳机在市场涌现。苹果刚刚推送的Apple Intelligence中就首次加入了通话录音功能,小米近期发布的Xiaomi Buds5也同样支持通话录音,这被视为语音智能交互的第一步。
初创公司中,未来智能推出的iFLYBUDS系列、时空壶翻译耳机,WISHEE强调聊天陪伴功能的Ai Ear,以及主打“AI+音频”的塞那,都在近几年连续推出新品。
今年5月,字节跳动收购开放式耳机品牌Oladance,也被认为是布局AI硬件赛道的一种准备。锤子科技创始人罗永浩以及前魅族CMO李楠成立的怒喵科技,同样将推出智能耳机产品。
在AI耳机领域,未来智能是很难绕过的一家厂商。2023年,科大讯飞耳机团队独立,成立主攻AI硬件赛道的未来智能。这家公司主要瞄准会议及办公场景,陆续推出iFLYBUDS Pro、iFLYBUDS Air、iFLYBUDS Nano+等多款会议,支持录音转写、智能转译、会议整理等功能。
未来智能CTO王松在接受界面新闻专访时表示,所有布局AI耳机或智能硬件赛道的公司,本质上还是在押注下一代人机交互变革的机会。一种观点是,语音是未来人机交互的入口,而耳机则是天然与语音挂钩的设备,它并不容易被手机完全替代掉。
但耳机值得被AI重做一遍吗?王松的答案是两面的。在他看来,如果加上时间维度,的确所有的产品都值得被AI重做一遍,但现阶段这句话并不适用。
原因在于,由于耳机本身算力有限,大部分AI能力也只能寄居在手机上,依赖于手机的算力和网络能力。以现有的芯片与电池续航水平来看,耳机还很难成为一个独立的计算产品。
IDC曾预测,2024年,中国市场上搭载AI功能的终端设备将超70%,AI终端占比将达55%。但仅搭载生成式AI功能,与AI真正成为核心驱动力,仍然是两件完全不同的事。
媒体曝光的OpenAI AGI路线图显示,OpenAI将AI划分为5个等级。其中,L1为聊天机器人,是具有对话能力的AI;L2为推理者,像人类一样能够解决问题的AI;L3为智能体,指不仅能思考,还可以采取行动的AI系统;L4为创新者,能够协助发明创造的AI;L5为组织者,可以完成组织工作的AI。
OpenAI认为其AI模型正处于L1,但很快就会达到L2(推理者)。而根据该公司前研究员预测,L5级AGI最快将在2027年实现。
王松预计,要等到L3,也就是智能体阶段落地后,才能谈真正的AI耳机。目前包括未来智能在内,所有耳机厂商的探索都还处于非常原始的雏形阶段。
“真正的智能耳机有一个重要的先决条件,它必须是一个可独立联网、独立运算的设备,即便脱离了手机也能够使用。”王松指出,有了这两项能力,耳机就能不依赖屏幕,独立执行一些操作,例如叫外卖、打车,打电话、听音乐等等,大约可以占日常手机操作的10%。
即便如此,也需要技术的突破。相比其它硬件设备,耳机的体积偏小,这就限制了芯片和电池的体积,进而限制了算力与续航。事实上,这也是当前所有可穿戴设备面临的挑战。最典型的例子是,算力强大如Vision Pro也仍离不开外挂电池。
软件同样需要革新。手机和PC的交互遵循菜单层级结构,但耳机无法遵循这套交互逻辑,因为它无法像手机那样,一层一层地去用语音打开新的菜单。它需要把所有的功能平铺开来,通过语音一步直达,这则需要软件的改造和产品设计的更新。
未来智能在耳机独立运算层面进行了一些探索。例如,iFLYBUDS主打的录音功能可以做到单独运行,而不依赖手机。但想要实现更复杂的功能并不容易。
一个行业共识是,在电池和芯片出现突破性进展之前,手机仍然会是最重要的计算平台。但手机也有无法实现的功能,这是留给AI硬件的机会。
据王松透露,公司内部在做一些研究,例如能够实时侦测周围环境的功能,包括处于什么地方、周围有哪些人。如果用手机只能通过举起摄像头来实现,但这很怪异的,也无法每时每刻都举着摄像头。但一副耳机或者眼镜,就能够利用传感器来监测。
未来智能内部有许多类似的探索,但由于目前大模型能力有限,很难做到100%的准确率,也无法把类似功能快速推上线。他们担心当有偏差或幻觉时,会对用户造成非常大的影响。倘若大模型的能力达到某种阈值,则可以马上上线类似的功能。
自从苹果在2016年推动TWS (True Wireless Stereo,真无线)耳机爆发之后,耳机行业已经许久未现突破性的技术革新。在AIGC行业苦于寻找落地场景的当下,耳机厂商试图证明耳机承载的音频创新是最理想的应用之一。他们正在摸索,等待智能硬件迎来一场新的爆发。