首页 家电百科 实时讯息 常识
首页> 实时讯息>

潮声丨AI视频,影像革命还是泡沫?

0次浏览     发布时间:2025-06-29 07:13:00    

潮新闻客户端 执笔 谢丹颖

人工智能(AI)推动视频生成技术又迈出新的一步。一条发布在社交媒体平台X上的AI视频里,角色集体开口戏谑道:“我们不过是0和1的排列组合?醒醒吧,伙计。”

Veo 3生成的视频(图源谷歌官网)

让他们“开口说话”的是美国搜索引擎公司谷歌在今年5月发布的视频生成模型Veo 3,其最大的特点是在视频中融合音频,直接生成话语流畅、口型自然的人物,且自带符合场景特征的音效。而此之前,AI视频一直是默片,需要后期配音,再借助工具让角色嘴唇动作看起来合理。

2022年以来,以ChatGPT聊天机器人程序为代表的生成式人工智能引发关注,行业像被按下了快进键,几乎每个月都有AI热点出现。相比之下,视频生成技术在最初一段时间里不温不火。不过,历经近3年的发展,AI视频已逐渐从最初类似PPT、动图的形态,进化至直接产出主体和场景一致的视频。基座模型能力迭代,带来了画质、流畅度、真实感的提升,影响面不断扩展、渗透性不断增强。

快手旗下视频生成AI产品可灵打造的全球首支用户共创AI创意短片,亮相香港铜锣湾SOGO(受访者供图)

如今,学界、业界已在眺望AI视频迎来“技术奇点”的时刻。我们该如何理解视频生成模型的核心突破意义?它又会给生产生活带来什么影响?

一场由大模型孕育出的演进

2023年初,AI生成视频与生成图像,几乎在同一时期进入公众视野——英国人工智能公司Stability.ai的“稳定扩散”模型(Stable Diffusion)带火了“文生图”,美国人工智能公司Runway的视频生成模型“Gen-1”则是激起了“人人都能制作电影大片”的无限遐想。

彼时,“稳定扩散”模型用时数月,让AI生成的图像几近照片级真实。Runway创始人不由兴奋:“我们已经看到了图像生成模型的爆发,相信2023年将会是视频之年。”

然而,图像生成模型的成功并没能引发AI生成视频技术的同步成熟。

第27届上海国际电影节,快手旗下视频生成产品可灵展示AI生成的动画作品(受访者供图)

起初,AI视频主要分为两条技术路径:或是与“文生图”的技术一脉相承,着重“还原呈现”,打上扩散模型(Diffusion Model)的烙印;或是沿用ChatGPT的技术脉络,采用自回归模型(Autoregressive model)方法,讲究“逻辑推理”,靠大参数、大数据,从零开始构建模型体系。

“走纯粹的自回归路径,至今尚未出现很好的产品。”浙江大学艺术与考古学院副教授沈华清说。同时,他认为更普遍的扩散模型“缺陷也明显”。

这位自称“无门无派、兴趣广泛的教书先生”,2006年起接触AI,生成图片、创作视频,19年间从“好奇尝鲜”变成“深度沉迷”。沈华清类比帧动画原理,向记者解释扩散模型的技术难点:“按最低的24fps(帧/秒)算,5秒的视频需要120张图。每张图间都要保持相互的人物一致、动作连贯,连光影的斑驳细节都不能穿帮——这相当于让120位画家同时画同一幅画,每一幅每一笔都要严丝合缝。”

的确,静态图像生成只需解决“是什么”的问题。视频却要在此基础上,在回答“如何变化”命题的同时,保证主体是统一的、运动是符合常识的。人们发现,2023年底美国人工智能初创公司“米德朱尼”(Midjourney)同名的“文生图”工具已经能生成以假乱真的图像,同期美国AI初创公司Pika labs发布的AI视频产品Pika 1.0还局限在风格特定的3秒片段上。

沈华清回忆起那段使用经历,即便先用“文生图”模型生成了不错的分镜图,再通过“图生视频”模型拼接成片,但在最终呈现的几秒视频里,人物总是畸形、画面常有畸变,“这哪是人在动,分明是算法在抽搐,看得人脊背发凉”。

生成视频技术始终“小步快走”,没有根本性的突破。就在大家快失去耐心时,时间来到2024年2月:美国开放人工智能研究中心(OpenAI)继ChatGPT后,再发布“文生视频”模型Sora。

Sora生成的宣传视频(图源Sora)

这一全新模型用ChatGPT背后的神经网络架构(Transformer)替换传统扩散模型中的卷积U-Net网络,迭代出一条新的DiT(Diffusion Transformer)路径,如此,Sora可以精准根据文本指令,生成最长为1分钟的高清视频,画面逼真、丝滑连贯。

业内直言:“AI视频的‘GPT时刻’,来了。”

忽如一夜春风来。眼下,腾讯“混元”、华为“诺亚”......各家厂商谋局落子,可谓“神仙打架”。其中,又以拥有海量视频数据的字节跳动、快手增势最为迅猛,其分别在2024年3月、6月推出的即梦和可灵,迅速跻身AI视频产品的第一梯队。

一位技术人员笑称,这条DiT新路径似乎达成了一个“成年”模型的“既要又要”——用大语言模型里学到的世界知识来帮助生成视觉世界。“视频就这样成了从大模型根上生长出来的一项功能,上升轨迹飞快。”

历经发展,AI创作者罗翀用可灵AI等工具制作的AI非遗文化主题片《瓷韵》人物逼真(受访者供图)

但即便是Sora问世一年后的今天,一键“文生视频”仍难有良品。“毕竟,语言是高度压缩的信息。”沈华清说,一千个读者眼中尚且有一千个哈姆雷特,将抽象文字直接转为具体的时空连续体,这对算力和工程化的要求实在太高,“不是谁都能做的,也不是在短时间内就能做好的。”

我负责想象,AI负责展现

AI技术的革新令人振奋,但技术终归要落地产业,才能产生价值。

一位技术人员告诉记者,不同于此前大模型简单直接的“文本输入-文本输出”交互逻辑,视频生成技术因视觉模态的复杂性,用起来要棘手得多。而“能用”与“好用”之间,又横亘着训练数据、算力、成本控制等多重障碍。

眼下,单个的AI视频生成工具还处在“宣传视频都很好,但实际一点都不好用”的阶段。

“套用多种工具很有必要。”中国传媒大学导演系科班出身的罗翀,拍过豆瓣8.3分传记式宣传片、拿过中国纪录片学院奖……今年年初,他从杭州某大厂离开,转型自由AI导演。在制作多个商片的过程中,他迅速摸到了生成视频的一条路子。

AI创作者罗翀用可灵AI等工具制作的AI非遗文化主题片《瓷韵》,瓷器上的花纹细腻(受访者供图)

罗翀介绍,不同视频生成模型有不同的优缺点,比如快手的可灵强于对多镜头、物理规律的理解;美国人工智能公司Runway的模型性价比更高,生成速度更快。

但毕竟AI生成如同“抽卡”,他告诉记者,即便套用了多个AI视频产品不断打磨、筛选,得到了比较满意的结果,还是需要借助PS等编辑软件再进行微调。“不过,最后成品完全可以和传统商片掰掰手腕。”

“虽然缺少故事线,但未来,意识流的赛博视频或将成为一个门类。”罗翀说,自己仿佛遇见了共创者,“我负责想象、尝试,AI负责调整、展现,降本增效的同时,极大地拓宽创作的自由度。”

AI创作者罗翀用可灵AI等工具,制作了国漫风诗词文化片《诗韵》(受访者供图)

院线影视讲究起承转合、质量要求更高。AI离这个目标仿佛还远,但在浙江,AI好像又很近。一家老牌影视企业,便提供了可供分析的落地样本。

第27届上海国际电影节启幕前夕,浙江博采传媒有限公司一条3分钟创意短片《两代悟空对战》,在B站传播量近百万。网友纷纷赞叹所用技术之精妙——无论是六小龄童饰演的86版美猴王,还是网游《黑神话:悟空》的天命人,“大圣风采依旧”。

记者也去凑了个热闹。湖州市德清县博采AI虚拟影视基地,导演的监视器中,两代悟空对战正酣,远处宫殿群光影流动。但现场,只有两位动捕老师,拿着特殊棍棒,在一块“空地”“打”得激烈,无论是角色样貌、服饰,还是建筑、云雾,都是LED显示屏“附上”的画面。工作人员用鼠标一点,上天入地,切换只在分秒间,演员置身其中,画面真假难辨。

博采AI虚拟影视基地影棚内,虚实结合拍摄(受访者供图)

“单靠AI,肯定跑不出这样的片子。”博采传媒研发中心总监王伟东告诉记者,《两代悟空对战》融合了影视行业所用的4D扫描、Holo身体扫描、LED拍摄等技术,“我们称之为‘虚拟制片’。”据他介绍,团队专门开发了一套虚拟制片管理软件Kmoke,融合各类AI工具,“效率直接提高了3倍、成本起码节省了三分之一。”

博采传媒总裁办项目统筹牛聪说,在电影创作中,相比导演和制片,AI其实是做好了一份助理的工作——通过AI实时预演,让创意的好坏“尽在眼前”;传统影视的各个环节也从“线性等待”转为“动态协同”,无论是调整剧本还是场景,在AI的“协同”下,都更加高效。

湖州市德清县博采AI虚拟影视基地,LED虚拟拍摄大屏(受访者供图)

“今年,我们引入AI大模型,继续迭代一整套AI创作系统‘墨客’,实现连贯性的剧本创作,并产出精准可控的视频。”牛聪坦言,针对现在AI视频像素细节不够的问题,“通过改进的AI增分技术,也实现从720p跃升为5K,直接达到电影放映级画面质量。”

在拉平的起始点上重新竞争

美国开放人工智能研究中心(OpenAI)在一份技术报告中,对AI视频的定义是“世界模拟器”。这个远景表明,AI视频有潜力成为一种通用人工智能,理解世界、改变世界。

不可否认,这种颠覆性在技术细节中确有显露。有从业者根据Sora产品表现出的不错的“3D一致性”,推测它或许能通过参数的再叠加,冲破智能阈值,触摸到对世界完整理解和创造的边界。

“大力出奇迹”真能无往不利?学界对此的质疑声也不少。

北京通用人工智能研究院院长朱松纯曾明确:过去,“大数据+大算力+大模型”的思维定式,过度简化了通用人工智能的复杂性。美国互联网公司Meta(原Facebook)人工智能研究负责人杨乐昆更是直言:“生成式模型是建立世界模型的死胡同,通过生成像素来模拟世界的动作,既浪费又注定失败。”

实践也证明,AI视频实现如此“暴力美学”的代价极高:运行一个动辄超百亿参数规模的视频生成模型,尖端显卡要“跑”数十秒甚至数分钟,才能制作一个一分钟、分辨率高达1080p的视频,算力成本高昂得惊人。

不可忽视的还有生成式人工智能的固有症结——“幻觉”。从“0.8<0.09”的数学对答,到四条腿的蚂蚁图,再到在跑步机上倒着跑的人,AI擅长计算却拙于纠错,因为它没有自主意识,对现实世界“知之甚少”。北京大学新闻与传播学院教授胡泳坦言,幻觉或许会在技术的迭代中减少,但永远无法彻底修复,失败风险始终存在。

国内众多AI服务亮相(图源视觉中国)

技术障碍外,高质量训练数据又从何而来?一如ChatGPT问世引发的深度造假、版权侵权、隐藏偏见等法律伦理争议,AI视频同样绕不开这些熟悉而严重的“老问题”。

但不可否认,AI视频正加速被市场接纳,其价值与影响力持续攀升。《2025中国广告主营销趋势调查报告》显示:今年4月,超50%的广告主已将生成式AI纳入创意生产,AI营销内容占比超过10%。

也是在4月,美国电影艺术与科学学院宣布,2026年第98届奥斯卡金像奖将正式允许AI参与创作的电影参评,这标志着AI正式进入主流评价体系。但评审标准中,“将综合考虑人类创作者在创意创作过程中所发挥的核心作用,来决定最终的获奖者”的微妙表述,也暗示着人类艺术本质的不可替代性。

AI视频正处落地的“中场哨”阶段。热潮过后,玩家纷纷沉下心来,打磨产品的基础能力、拓宽模型的适应边界、重构与用户的长期关系。

其中,可以确定的是,AI正成为创作的基底。正如快手联合创始人程一笑将可灵定位为“更多行业创作的新基础设施”,AI将拉平所有人的起始点。

采AI虚拟影视基地影棚内,如今已能通过技术快速呈现之前需要花重金制作的特效(受访者供图)

“我们不要放大AI的影响,也不要低估AI的长期影响。”5年前,沈华清选择将AI带入课堂,鼓励学生借助工具尝试不同风格的拓展、延伸、融合,从中吸取灵感。他认为,在这个技术愈发平权的时代,竞争已转向快速捕捉创意并落地的原创能力,考验的是使用者的积累——“拥有审美、分析、判断能力,成为跨领域、跨学科的融合通才,是AI时代的新要求”。

技术在逼近极限,创意却仍是无边的疆域。正如那句在X上被反复转发的AI台词:“我们不过是0和1的排列组合?醒醒吧,伙计。”但如果能以这串“0与1”为笔,谁又说人类不能写出更广阔、更深刻的未来图景?

“转载请注明出处”

相关文章:

潮声丨AI视频,影像革命还是泡沫?06-29

潮评丨“人间我来过,足矣”06-27

深刻把握新质生产力的科技价值和创新意蕴 杨丽珍 段成明06-27

从数字孪生到物理世界交互:蘑菇车联MogoMind大模型获评行业标杆06-26

济南二中学子斩获多项大奖06-25

白宫新闻秘书:美国确信伊朗核设施已被彻底摧毁06-23

美防长:美国摧毁了伊朗核计划06-22

伊朗外交部称美国好战且无法无天06-22