潮声丨AI视频，影像革命还是泡沫？

0次浏览发布时间：2025-06-29 07:13:00

潮新闻客户端执笔谢丹颖

人工智能（AI）推动视频生成技术又迈出新的一步。一条发布在社交媒体平台X上的AI视频里，角色集体开口戏谑道：“我们不过是0和1的排列组合？醒醒吧，伙计。”

Veo 3生成的视频（图源谷歌官网）

让他们“开口说话”的是美国搜索引擎公司谷歌在今年5月发布的视频生成模型Veo 3，其最大的特点是在视频中融合音频，直接生成话语流畅、口型自然的人物，且自带符合场景特征的音效。而此之前，AI视频一直是默片，需要后期配音，再借助工具让角色嘴唇动作看起来合理。

2022年以来，以ChatGPT聊天机器人程序为代表的生成式人工智能引发关注，行业像被按下了快进键，几乎每个月都有AI热点出现。相比之下，视频生成技术在最初一段时间里不温不火。不过，历经近3年的发展，AI视频已逐渐从最初类似PPT、动图的形态，进化至直接产出主体和场景一致的视频。基座模型能力迭代，带来了画质、流畅度、真实感的提升，影响面不断扩展、渗透性不断增强。

快手旗下视频生成AI产品可灵打造的全球首支用户共创AI创意短片，亮相香港铜锣湾SOGO（受访者供图）

如今，学界、业界已在眺望AI视频迎来“技术奇点”的时刻。我们该如何理解视频生成模型的核心突破意义？它又会给生产生活带来什么影响？

一场由大模型孕育出的演进

2023年初，AI生成视频与生成图像，几乎在同一时期进入公众视野——英国人工智能公司Stability.ai的“稳定扩散”模型（Stable Diffusion）带火了“文生图”，美国人工智能公司Runway的视频生成模型“Gen-1”则是激起了“人人都能制作电影大片”的无限遐想。

彼时，“稳定扩散”模型用时数月，让AI生成的图像几近照片级真实。Runway创始人不由兴奋：“我们已经看到了图像生成模型的爆发，相信2023年将会是视频之年。”

然而，图像生成模型的成功并没能引发AI生成视频技术的同步成熟。

第27届上海国际电影节，快手旗下视频生成产品可灵展示AI生成的动画作品（受访者供图）

起初，AI视频主要分为两条技术路径：或是与“文生图”的技术一脉相承，着重“还原呈现”，打上扩散模型（Diffusion Model）的烙印；或是沿用ChatGPT的技术脉络，采用自回归模型（Autoregressive model）方法，讲究“逻辑推理”，靠大参数、大数据，从零开始构建模型体系。

“走纯粹的自回归路径，至今尚未出现很好的产品。”浙江大学艺术与考古学院副教授沈华清说。同时，他认为更普遍的扩散模型“缺陷也明显”。

这位自称“无门无派、兴趣广泛的教书先生”，2006年起接触AI，生成图片、创作视频，19年间从“好奇尝鲜”变成“深度沉迷”。沈华清类比帧动画原理，向记者解释扩散模型的技术难点：“按最低的24fps（帧/秒）算，5秒的视频需要120张图。每张图间都要保持相互的人物一致、动作连贯，连光影的斑驳细节都不能穿帮——这相当于让120位画家同时画同一幅画，每一幅每一笔都要严丝合缝。”

的确，静态图像生成只需解决“是什么”的问题。视频却要在此基础上，在回答“如何变化”命题的同时，保证主体是统一的、运动是符合常识的。人们发现，2023年底美国人工智能初创公司“米德朱尼”（Midjourney）同名的“文生图”工具已经能生成以假乱真的图像，同期美国AI初创公司Pika labs发布的AI视频产品Pika 1.0还局限在风格特定的3秒片段上。

沈华清回忆起那段使用经历，即便先用“文生图”模型生成了不错的分镜图，再通过“图生视频”模型拼接成片，但在最终呈现的几秒视频里，人物总是畸形、画面常有畸变，“这哪是人在动，分明是算法在抽搐，看得人脊背发凉”。

生成视频技术始终“小步快走”，没有根本性的突破。就在大家快失去耐心时，时间来到2024年2月：美国开放人工智能研究中心（OpenAI）继ChatGPT后，再发布“文生视频”模型Sora。

Sora生成的宣传视频（图源Sora)

这一全新模型用ChatGPT背后的神经网络架构（Transformer）替换传统扩散模型中的卷积U-Net网络，迭代出一条新的DiT（Diffusion Transformer）路径，如此，Sora可以精准根据文本指令，生成最长为1分钟的高清视频，画面逼真、丝滑连贯。

业内直言：“AI视频的‘GPT时刻’，来了。”

忽如一夜春风来。眼下，腾讯“混元”、华为“诺亚”......各家厂商谋局落子，可谓“神仙打架”。其中，又以拥有海量视频数据的字节跳动、快手增势最为迅猛，其分别在2024年3月、6月推出的即梦和可灵，迅速跻身AI视频产品的第一梯队。

一位技术人员笑称，这条DiT新路径似乎达成了一个“成年”模型的“既要又要”——用大语言模型里学到的世界知识来帮助生成视觉世界。“视频就这样成了从大模型根上生长出来的一项功能，上升轨迹飞快。”

历经发展，AI创作者罗翀用可灵AI等工具制作的AI非遗文化主题片《瓷韵》人物逼真（受访者供图）

但即便是Sora问世一年后的今天，一键“文生视频”仍难有良品。“毕竟，语言是高度压缩的信息。”沈华清说，一千个读者眼中尚且有一千个哈姆雷特，将抽象文字直接转为具体的时空连续体，这对算力和工程化的要求实在太高，“不是谁都能做的，也不是在短时间内就能做好的。”

我负责想象，AI负责展现

AI技术的革新令人振奋，但技术终归要落地产业，才能产生价值。

一位技术人员告诉记者，不同于此前大模型简单直接的“文本输入-文本输出”交互逻辑，视频生成技术因视觉模态的复杂性，用起来要棘手得多。而“能用”与“好用”之间，又横亘着训练数据、算力、成本控制等多重障碍。

眼下，单个的AI视频生成工具还处在“宣传视频都很好，但实际一点都不好用”的阶段。

“套用多种工具很有必要。”中国传媒大学导演系科班出身的罗翀，拍过豆瓣8.3分传记式宣传片、拿过中国纪录片学院奖……今年年初，他从杭州某大厂离开，转型自由AI导演。在制作多个商片的过程中，他迅速摸到了生成视频的一条路子。

AI创作者罗翀用可灵AI等工具制作的AI非遗文化主题片《瓷韵》，瓷器上的花纹细腻（受访者供图）

罗翀介绍，不同视频生成模型有不同的优缺点，比如快手的可灵强于对多镜头、物理规律的理解；美国人工智能公司Runway的模型性价比更高，生成速度更快。

但毕竟AI生成如同“抽卡”，他告诉记者，即便套用了多个AI视频产品不断打磨、筛选，得到了比较满意的结果，还是需要借助PS等编辑软件再进行微调。“不过，最后成品完全可以和传统商片掰掰手腕。”

“虽然缺少故事线，但未来，意识流的赛博视频或将成为一个门类。”罗翀说，自己仿佛遇见了共创者，“我负责想象、尝试，AI负责调整、展现，降本增效的同时，极大地拓宽创作的自由度。”

AI创作者罗翀用可灵AI等工具，制作了国漫风诗词文化片《诗韵》（受访者供图）

院线影视讲究起承转合、质量要求更高。AI离这个目标仿佛还远，但在浙江，AI好像又很近。一家老牌影视企业，便提供了可供分析的落地样本。

第27届上海国际电影节启幕前夕，浙江博采传媒有限公司一条3分钟创意短片《两代悟空对战》，在B站传播量近百万。网友纷纷赞叹所用技术之精妙——无论是六小龄童饰演的86版美猴王，还是网游《黑神话：悟空》的天命人，“大圣风采依旧”。

记者也去凑了个热闹。湖州市德清县博采AI虚拟影视基地，导演的监视器中，两代悟空对战正酣，远处宫殿群光影流动。但现场，只有两位动捕老师，拿着特殊棍棒，在一块“空地”“打”得激烈，无论是角色样貌、服饰，还是建筑、云雾，都是LED显示屏“附上”的画面。工作人员用鼠标一点，上天入地，切换只在分秒间，演员置身其中，画面真假难辨。

博采AI虚拟影视基地影棚内，虚实结合拍摄（受访者供图）

“单靠AI，肯定跑不出这样的片子。”博采传媒研发中心总监王伟东告诉记者，《两代悟空对战》融合了影视行业所用的4D扫描、Holo身体扫描、LED拍摄等技术，“我们称之为‘虚拟制片’。”据他介绍，团队专门开发了一套虚拟制片管理软件Kmoke，融合各类AI工具，“效率直接提高了3倍、成本起码节省了三分之一。”

博采传媒总裁办项目统筹牛聪说，在电影创作中，相比导演和制片，AI其实是做好了一份助理的工作——通过AI实时预演，让创意的好坏“尽在眼前”；传统影视的各个环节也从“线性等待”转为“动态协同”，无论是调整剧本还是场景，在AI的“协同”下，都更加高效。

湖州市德清县博采AI虚拟影视基地，LED虚拟拍摄大屏（受访者供图）

“今年，我们引入AI大模型，继续迭代一整套AI创作系统‘墨客’，实现连贯性的剧本创作，并产出精准可控的视频。”牛聪坦言，针对现在AI视频像素细节不够的问题，“通过改进的AI增分技术，也实现从720p跃升为5K，直接达到电影放映级画面质量。”

在拉平的起始点上重新竞争

美国开放人工智能研究中心（OpenAI）在一份技术报告中，对AI视频的定义是“世界模拟器”。这个远景表明，AI视频有潜力成为一种通用人工智能，理解世界、改变世界。

不可否认，这种颠覆性在技术细节中确有显露。有从业者根据Sora产品表现出的不错的“3D一致性”，推测它或许能通过参数的再叠加，冲破智能阈值，触摸到对世界完整理解和创造的边界。

“大力出奇迹”真能无往不利？学界对此的质疑声也不少。

北京通用人工智能研究院院长朱松纯曾明确：过去，“大数据+大算力+大模型”的思维定式，过度简化了通用人工智能的复杂性。美国互联网公司Meta（原Facebook）人工智能研究负责人杨乐昆更是直言：“生成式模型是建立世界模型的死胡同，通过生成像素来模拟世界的动作，既浪费又注定失败。”

实践也证明，AI视频实现如此“暴力美学”的代价极高：运行一个动辄超百亿参数规模的视频生成模型，尖端显卡要“跑”数十秒甚至数分钟，才能制作一个一分钟、分辨率高达1080p的视频，算力成本高昂得惊人。

不可忽视的还有生成式人工智能的固有症结——“幻觉”。从“0.8＜0.09”的数学对答，到四条腿的蚂蚁图，再到在跑步机上倒着跑的人，AI擅长计算却拙于纠错，因为它没有自主意识，对现实世界“知之甚少”。北京大学新闻与传播学院教授胡泳坦言，幻觉或许会在技术的迭代中减少，但永远无法彻底修复，失败风险始终存在。

国内众多AI服务亮相（图源视觉中国）

技术障碍外，高质量训练数据又从何而来？一如ChatGPT问世引发的深度造假、版权侵权、隐藏偏见等法律伦理争议，AI视频同样绕不开这些熟悉而严重的“老问题”。

但不可否认，AI视频正加速被市场接纳，其价值与影响力持续攀升。《2025中国广告主营销趋势调查报告》显示：今年4月，超50%的广告主已将生成式AI纳入创意生产，AI营销内容占比超过10%。

也是在4月，美国电影艺术与科学学院宣布，2026年第98届奥斯卡金像奖将正式允许AI参与创作的电影参评，这标志着AI正式进入主流评价体系。但评审标准中，“将综合考虑人类创作者在创意创作过程中所发挥的核心作用，来决定最终的获奖者”的微妙表述，也暗示着人类艺术本质的不可替代性。

AI视频正处落地的“中场哨”阶段。热潮过后，玩家纷纷沉下心来，打磨产品的基础能力、拓宽模型的适应边界、重构与用户的长期关系。

其中，可以确定的是，AI正成为创作的基底。正如快手联合创始人程一笑将可灵定位为“更多行业创作的新基础设施”，AI将拉平所有人的起始点。

采AI虚拟影视基地影棚内，如今已能通过技术快速呈现之前需要花重金制作的特效（受访者供图）

“我们不要放大AI的影响，也不要低估AI的长期影响。”5年前，沈华清选择将AI带入课堂，鼓励学生借助工具尝试不同风格的拓展、延伸、融合，从中吸取灵感。他认为，在这个技术愈发平权的时代，竞争已转向快速捕捉创意并落地的原创能力，考验的是使用者的积累——“拥有审美、分析、判断能力，成为跨领域、跨学科的融合通才，是AI时代的新要求”。

技术在逼近极限，创意却仍是无边的疆域。正如那句在X上被反复转发的AI台词：“我们不过是0和1的排列组合？醒醒吧，伙计。”但如果能以这串“0与1”为笔，谁又说人类不能写出更广阔、更深刻的未来图景？

“转载请注明出处”