刚刚过去的国庆假期,将视频生成领域的技术竞赛推向全新高度。
OpenAI率先抛出重磅炸弹,旗舰视频生成模型Sora 2,直言其正“直奔视频领域的GPT-3.5时刻”,并随之推出Sora应用程序。凭“Cameo(引用角色功能)”首周下载量超ChatGPT;随后,马斯克xAI亮出Imagine v0.9,以20秒内快速生成、全用户免费开放的优势予以回应;本月底,国内AI视频创业公司生数科技的Vidu Q2参考生功能也即将重磅亮相……
在这一系列密集的行业动向中,其中尤为突出的是Sora应用的Cameo和Vidu的参考生功能,我们可以窥探到视频生成赛道的新共识,“引用角色形象”正成为技术探索与应用落地的关键方向。
相比于OpenAI,生数科技在参考生视频领域的布局更早。作为全球“参考生视频”概念的首个提出者和开创者,早在2024年9月Vidu就已提出了参考生视频功能。而随着Sora应用程序的落地,中美在AI视频领域的技术与产品较量,也正式进入正面PK的关键阶段。
本月底,Vidu Q2参考生视频即将登场,不仅对于To C小白用户友好,使用门槛大幅降低,而且作为生产力工具,其对于专业、半专业创作者也非常能打,同时对于一致性、精准性、性价比要求较高的广告电商、影视动漫等To B领域的要求也能满足。
下面是创作者陈畅率先借助Vidu Q2参考生功能生成的高燃大片,已经让我们提前感受了Vidu Q2参考生的技术实力。
一、直击视频生成核心痛点,“角色引用”成主流解法,Vidu早有布局
不同于文字、图像生成技术已实现高稳定性、高可控性的生成效果,当前视频生成技术虽正在快速迭代,却仍受多个核心痛点制约,尚未迎来大规模商业化落地的爆发时刻。
首先,文字之间的连接可通过语法、上下文,图像只需明确单一场景的核心信息,而视频的核心价值在于通过连续画面传递完整叙事,往往视频时长增加,就会出现情节割裂、角色行为矛盾、空间错位等问题。
其次,可控性缺失。若视频生成包含元素过多,会受限于模型的理解能力和记忆能力等,再加上普通用户难以通过提示词传达准确的专业术语,会进一步导致生成内容出现偏差。
从当下主流视频生成模型企业的布局来看,引用角色形象这一核心思路,成为解决上述痛点的有效路径,也就是Sora App中的Cameo以及Vidu的参考生功能。
其共同点是支持上传参考图生成视频,能在一定程度上使得最后视频生成都围绕这一元素展开,避免中间出现较大的情节偏差。再加上其有固定的角色特征作为参照,用户可以以画面中内容为核心结合提示词生成同一角色不同的视频画面。
但不同之处在于,Vidu的参考生功能范畴覆盖更为广泛。
Sora App中的Cameo功能,允许用户在应用中进行一次简短的音视频录制,即可以将自己或者授权的其他人直接带入任何Sora生成的场景中。一定程度上可以认为,Cameo的功能是使生成视频中的主体角色与上传图片的主体保持一致,也就是“角色参考”。