从“无到有”走向“有到优” 国产视频生成大模型渐入佳境-深圳市田鑫科技有限公司

从“无到有”走向“有到优” 国产视频生成大模型渐入佳境

发布日期：2024-08-08　　浏览次数：次

文生视频大模型Sora诞生半年后，它的中国“挑战者”列队登场，争夺下一张AI杀手级应用的“船票”。过去一个月，4款国产视频生成模型陆续上线、走向大众。

与Sora仅释放小样、未开放使用不同，中国的视频生成大模型发布即上线，便于使用者“拿来就用”。眼下，在应用端，一批内容创作者已初尝“会打字就会生视频”“生视频不求人”的乐趣；在技术侧，还有一批孵化中的视频生成模型正在路上。尽管国产工具还不具备一次性“分钟级”的生成能力、无法实现比肩实拍的“无缝”“丝滑”，但视频生成已解决了“有”的问题，逐步向“优”进化。

想象力“动”起来

最近，文生视频赛道挤满了强有力的中国选手。7月下旬，我国人工智能独角兽智谱AI推出视频生成模型“清影”、爱诗科技发布视频生成产品PixVerse V2、生数科技上线视频生成模型Vidu的同时，快手6月发布的“可灵AI”已积累百万用户。

Sora的中国“挑战者”有何本领？

进入“奥运时间”，不少刷屏朋友圈的、可衔接不同场景和运镜的短片，也同样出自国产视频生成大模型之手。

“视频生成，简言之是通过生成式AI技术，将文本、图片等多模态输入，转化为视频信号。”快手视觉生成和互动中心负责人万鹏飞说，“与过去我们常见的相机拍摄、图形渲染获得视频的方式不同，视频生成的本质是从目标分布中采样计算得到像素。这种方式能以更低的成本，达到更高的内容自由度。”

进入Vidu的视频生成页面，记者体验了“一键生成”的自由。上传一张照片设置为“起始帧”或作为“参考的人物角色”，在对话框里输入想要生成场景的文字描绘，点击“生成”键，一条栩栩如生的短视频就自动生成了。从进入页面到下载完毕，不足1分钟。

一名技术负责人告诉记者一个“生成秘籍”：“试试‘镜头语言+建立场景+细节描述’的提示词公式，不出5次就能获得想要的视频内容。”

视频生成技术的快速迭代，建立在对生成内容效果的精准评价之上。如何区分视频生成模型性能的优劣？“一看可控性，即生成内容与输入文本的对应程度；二看稳定性、一致性；三看合理性，即生成内容是否合乎物理规律；四看风格、审美、创意；最后一点，看生成的实时性。”香港大学计算机系教授、欧洲科学院外籍院士徐东这样归纳。

成本降下去速度提上来

国外网友已经用行动表达了对中国自研视频生成模型的赞许，不少Twitter账号发布的文字已经配上了可灵AI、清影AI生成的视频。

“坦白说，现在技术还没有到成熟的阶段，视频生成模型的技术天花板高，可以提升的空间大。但是，我们看到了影视、动画、广告、游戏行业的痛点：制作周期长、制作成本高，而这是技术可以努力解决的。”生数科技联合创始人、首席执行官唐家渝告诉记者。

一项技术想要成为“刚需”，须在增强可用性、可控性的前提下降低成本。作为直接拉低创作与制作门槛的技术，视频生成模型的出现，让影视动画从业者看到了“小团队制作动画”“小成本内容创作”的春天。

然而，更低的成本、更高的效率，已让传统的影视、动画、游戏从业者感受到技术颠覆前夜的凛冽。“‘人人成为设计师’‘人人成为导演’的时代将会到来，就像当年进入‘人人拥有麦克风’的时代。”智谱AI首席执行官张鹏说。

技术固然带来了性价比更高的工具，但也凸显了创意的关键作用。“当影视、动画、游戏的制作环节投入占比大幅降低后，比拼的就更加是创意。”陈刘芳说。

“炼”一个杀手级应用

大语言模型敲开生成式AI的大门后，视频作为图像模态的再扩展，将AIGC的技术推向高潮，也让AIGC的应用离大众越来越近。

当前，全球视频生成的技术路线主要有两种：一种是扩散模型，这其中又分为两类，一类是基于卷积神经网络的扩散模型，如Meta的Emu Video、腾讯等推出的VideoCrafter；另一类是基于Transformer架构的扩散模型，如生数科技的Vidu、OpenAI的Sora、快手的可灵AI等。第二种是自回归路线，如谷歌的VideoPoet、Phenaki等。

“国内视频生成的主流选择是基于Transformer架构的扩散模型，这一架构能使模型在处理语言、计算机视觉、图像生成等领域表现出扩展能力，遵从‘规模定律’。”徐东说。

这一选择也意味着，更大的算力、更高的质量与更大规模的数据，以及复杂的算法。

“首先的是算法。视频在图像的基础上增加了时间维度，算法的复杂程度会指数级增长。”徐东说，数据、算力一定的条件下，模型性能关键在于算法的能力，取决于算法人才水平的高低。

其次，最为缺乏的是数据。“视频生成强依赖于数据。与文本数据相比，视频数据的积累难度更大。数据的质量提升，不仅包括视频的解析度、风格、分镜、组合、连续性等，还包括数据的清洗、筛选、处理。”张鹏说。

视频生成模型更是“吞卡巨兽”。从Sora的实践来看，持续提高模型的数据量、参数规模，迄今依然是AIGC进化的核心。中信证券测算，一个60帧的视频（约6至8秒）大约需要6万个Patches（补片），如果去噪步数是20的话，相当于生成120万个Tokens（词元）。考虑到扩散模型在实际使用中需多次生成，实际计算量会远超120万个Tokens（词元）。

“大模型参数正以每年十倍的速度增长。不论对科技企业还是研究机构而言，如何持续训练高性能的模型，依然是巨大挑战。但与此同时，C端的‘杀手级应用’让人充满期待。从创意的生成，到图片、音乐、视频的制作，AI都将有大施拳脚之地。未来，视频制作也许就像今天做PPT一样简单便捷。”北京智源人工智能研究院院长王仲远说。

田鑫，专业的企业组网服务商，致力于为企业提供企业组网（SD-WAN、MPLS、云互联）、数据中心、网络安全、系统集成服务、ICT解决方案、行业IT解决方案等相关服务。

更多相关内容推荐：
智算需求与技术革新
 2024中国绿色算力（人工智能）大会新闻发布会在呼和浩特召开
 数能共振绿算领航，数据中心全生命周期绿色算力指数论坛在京举行
 合盈数据杨惜琳：算电互锁为新质生产力筑基
 当我们谈绿色算力时，我们谈些什么？
2024中国绿色算力（人工智能）大会：和林格尔数据中心集群的崛起与展望
 北京加快迈向人工智能之城
城地香江携手华为，共启人工智能算力新篇章
 提高人工智能时代口述史研究水平
 AI大模型最火应用场景？1个月11个融资项目
 未来五年，中国AI大模型最有潜力的5大场景

标签：

上一篇：不仅仅是能源的消耗者——数据中心的双重身份
下一篇：鼓励制造业“智改数转网联”

行业资讯

从“无到有”走向“有到优” 国产视频生成大模型渐入佳境

400-613-6156