界面新闻记者 |
界面新闻编辑 | 文姝琪
美东时间6月17日,Runway发布新一代视频生成模型Gen-3Alpha,视频生成赛道上再添“大将”。
Runway是一家视频、媒体和艺术的生成式AI公司,在美国纽约于2018年成立,为电影和视频制作中的内容生成构建基础多模式AI模型。目前该公司已经完成C轮融资,累计融资金额达2.36亿美元,估值达15亿美元,投资者包括谷歌、Nvidia和Salesforce。
2023年2月,该公司连续发布生成式AI系统Gen-1以及多模态AI系统Gen-2,该模型能够通过图像或文本提示生成视频。
该公司表示,Gen-3Alpha是对此前Gen-2模型在保真度、一致性和运动性有了重大改进。
在细粒度时间控制上,Gen-3Alpha具有高度描述性、时间密集的字幕,能够实现丰富的过渡和场景中元素的精确关键帧。Gen-3Alpha擅长通过各种动作、手势和情感产生富有表现力的人类角色。
Runway在官网表示,Gen-3Alpha在视频和图像方面接受联合训练,将为Runway的文本到视频、图像到视频和文本到图像工具、运动刷、高级相机控制、导演模式等现有控制模式以及即将推出的工具提供动力,以更精细地控制结构、风格和运动。
另一方面,该公司称Gen-3Alpha将发布一套新的保障措施,包括内部视觉审核系统和C2PA来源标准。
该公司创始人Germanidis接受TechCrunch采访时表示:“Gen-3Alpha模型在处理复杂的角色和物体交互时可能会遇到困难,生成过程并不总是严格遵循物理定律。首次推出的版本将支持5秒和10秒的高分辨率生成,生成时间明显快于Gen-2。生成一段5秒的视频需要45秒,生成一段10秒的视频则需要90秒。”
值得一提的是,Runway并未在相关消息及采访中透露训练数据来源。而这也是目前生成式模型最容易遭遇挑战的部分——版权问题。此前,360创始人、董事长兼CEO周鸿祎发布该公司新产品——360AI时,被艺术家创作者指责窃取其作品,双方“隔空喊话”,版权争议一直是行业顽疾。
“我们正在与艺术家密切合作,找出解决这一问题的最佳方法,”Germanidis告诉TechCrunch,“我们正在探索各种数据合作伙伴关系,以便进一步发展和构建下一代模型。”
Germanidis还声称,其全新改进的内部视觉和文本审核系统采用自动监督来过滤掉不适当或有害的内容。C2PA身份验证可验证使用所有Gen-3模型创建的媒体的出处和真实性。随着模型功能和生成高保真内容的能力不断提高,公司将继续在协调和安全工作上投入大量资金。
当前,生成式模型赛道上挤满了对手,包括Sora、pika、Vidu、Luma AI等,竞争愈发激烈。
Runway在博客上表示,Gen-3Alpha也是朝着构建通用世界模型迈出的一步。这与中国公司的同行们判断一致。
近日,生数科技CTO鲍凡在智源大会的视觉大模型论坛上表示,从Vidu4D的工作里面看到,这种视频大模型有作为世界模型的潜力,把世界上各种物理规律都给模拟出来,后续再结合3D或者4D的技术进行开发。
他认为,要通往世界模型有两条路。一是通过大语言模型,先把抽象的知识构建好,再拓展成世界模型。第二条是把物理规律构建好,拓展成世界模型,这两条道路目前都是探索状态。
与此同时,生成视频的成本问题也备受关注。爱诗科技创始人王长虎在智源大会上透露,现在生成一个三五秒钟的视频需要耗时几十秒。如果采用RTX 4090芯片,用时40秒钟,或者60秒钟的成本大概1、2美元左右,未来成本还会进一步下降。
他指出,AI视频生成产品能用的也就是3秒-5秒,生成视频越长,误差随之会更大,这是接下来行业要解决的问题。
王长虎表示,目前生成视频还存在以下三个问题。第一,生成视频往往是单镜头的,真正的视频是由多个镜头组合,多镜头的内容是未来AI视频生成要解决的问题。其次,当前等待时长比较长,普通用户很难玩起来。第三,推理成本高,也是行业亟待解决的问题。