前有《我们一起摇太阳》《红毯先生》等四部影片宣布撤档,让春节档开启“撤档元年”,后有人工智能(AI)巨头OpenAI发布首个文生视频模型Sora,迎来AI视频的“GPT时刻”。这个龙年春节,奏响了独属于影视从业者的“冰与火之歌”。
通过Sora生成的视频,能看到主角、背景人物,都展现了极强的一致性,可以支持60秒一镜到底,并包含高细致背景、多角度镜头,以及富有情感的多个角色……即意味着,只需输入一段文字描述,或许每个使用Sora技术的普通人,不用亲身上阵痛苦减肥也能当上如贾玲这样的“大导演”。
上一次能如此快速引爆网络关注的还是在2022年11月推出的ChatGPT,而如今,ChatGPT不仅引领了全球大模型的蓬勃发展,也开始在文本等相关行业展现其强大的生产力。作为今年的开年“王炸”,Sora自然被外界广泛期待着可以承接起ChatGPT的衣钵,改写视频等产业的发展。
不过,目前60秒的生成视频还撑不起一部电影,真想实现自己的“导演梦”,还得让技术“再飞一会儿”。
震撼全球的“60秒”
“OpenAI发布文生视频模型Sora,AI视频进入大规模应用前夜。”
“从相关受益细分行业来看,下游应用侧包括但不限于视频美化、广告营销、短剧、游戏、办公软件等。”
“Sora三大亮点突出,实现AIGC领域的里程碑式进展。”
“AI视频生成等多模态模型有望在影视、动画、游戏、音乐等IP开发中发挥更大作用,继续推动IP开发降本增效,带来增量变现空间,并拉动算力需求。”
……
自16日凌晨发布以来,不过短短几天时间就有超过14家券商发布逾19份相关研报,均对Sora给予了极高评价。
同样对Sora的出现饱含惊叹的还有不少科技圈名人。
针对网友“贝夫・杰索斯”在社交平台上转发的一段Sora演示视频,配文声称“gg Pixar”,马斯克在这条推文下方表示,“gg humans”(gg是网络游戏的用语之一,原指游戏结束时玩家互相致意,后引申为“游戏结束”),并借此盛赞,“在未来的几年里,人类借助 AI 的力量,将创造出卓越的作品。”
360公司董事长周鸿祎在朋友圈发文称,“一旦AI能够接上摄像头,观看并理解世界上所有的电影,它对世界的理解能力将远远超过仅仅通过文字学习所能达到的水平。在这种情况下,实现通用人工智能不再是遥不可及的梦想。”
前阿里巴巴副总裁,Lepton AI公司创始人贾扬清则直接评价Sora“真的非常牛”,他表示,“Sora的问世可能会给对作OpenAI的公司带来一波被大厂FOMO(害怕错过机会而导致的收购)收购的机会。”
关键是,Sora为什么会被业界广泛视作影视行业的领航技术?
其实在Sora出现之前,类似的AI视频模型也有:谷歌在去年12月21日发布一个全新的视频生成模型VideoPoet,能够执行包括文本到视频、图像到视频、视频风格化等操作;Meta发布的Emu Video,能够基于文本和图像输入生成视频剪辑;Runway的Gen2具有Motion Brush动态笔刷功能,只需要在图像中的任意位置一刷,就能使图像中静止的物体动起来;Stable AI推出Stable Video Diffusion,可以根据图像自动生成高品质的视频剪辑;此前一夜爆红的文生视频软件Pika,更是掀起了AI视频的应用热潮。
但就像OpenAI的技术报告所说的那样,“Sora能够深刻地理解运动中的物理世界,堪称为真正的「世界模型」”。
图片来源:Sora技术报告
Sora有别于上述AI视频模型的优势在于,既能准确呈现细节,又能理解物体在物理世界中的存在,并生成具有丰富情感的角色,甚至该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
新京报的实测对比结果显示,在相同的提示词下,Pika仅能生成3秒的视频,Gen-2video则可以生成4秒的视频,Sora生成的视频时间最多可达1分钟。在内容方面,无论是Pika还是Gen-2video都难以始终保持同一人物的连贯性,而Sora不仅体现了提示词中的全部细节,而且还很好地保持了人物的连贯性,使得该视频几乎可以“以假乱真”。
新王上位,谁在蠢蠢欲动
眼看Sora“高开疯走”的势头如此明显,其竞争对手也坐不住了。
在Sora出现之前,AI生成视频的默认选择是Runway,尤其是自去年11月推出第二代模型Gen-2以来,不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果,因此还被称为“AI视频界的MidJourney”。
但在Sora发布后,Runway的CEO克里斯托瓦尔·巴伦苏埃拉只在X平台上给出了一个简短的宣言:“Game On(比赛开始了)。”
国内针对AI视频相关研发和布局多模态大模型的企业,追赶前沿技术的脚步同样不曾停歇。
据不完全统计,包括万兴科技、博汇科技、当虹科技、易点天下、数码视讯、汉王科技、神思电子、东方国信、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。
其中,易点天下在2月4日在投资者互动平台表示,公司旗下AIGC创作平台KreadoAI可以帮助企业实现从脚本撰写、语音克隆、个性化数字人选择到输出口播视频的内容生产AI化全链路闭环。
万兴科技2月2日在互动平台表示,其视频创意产品万兴喵影/Filmora可用于各类视频的创作和剪辑,“天幕”大模型是以视频创意类AI技术为核心的多媒体大模型涵盖音频、图像、视频等多模态能力。
当虹科技1月5日在互动平台表示,公司拥有自研的AIGC工具集,发布了以静态照片生成三维体积视频的方案,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。
更甚至于,自2023年下半年以来,国内科技巨头在多模态AI上投入的不少资源已经取得了实质性进展,如阿里巴巴的Animate Anyone和字节跳动的Magic Animate,都是图片转视频技术的落地应用。
阿里巴巴的Animate Anyone技术
可见,得益于全球生成式AI技术的持续发展,不仅是来自视频生成模型领域的企业在积极“备战”,包括文生图、视频、音乐、代码等多方面应用的迭代更新,还有望长期给更多相关行业带来“革命”发展的机会——以全球视角来看,算力产业链从上游硬件、中游服务器/交换机、下游应用侧闭环现愈发清晰,从云侧到端侧、从硬件到软件均呈现生机勃勃之景。
这也意味着,从全球算力产业链核心厂商,到端侧AI相关企业,再到国产化算力公司(包括AI服务器零部件、服务器整机、算力租赁、数据中心等环节)的整个辐射范围,均是以Sora的出现为契机,开启属于自己的爆发式更新,更为实现普通人的“导演梦”打下了坚实的技术基础。
下个春节档,也许人人皆导演
“人人都能当导演的日子临近了。”正如一位网友的发言,客户的期待永远比技术落地的脚步更快一些。
尽管Sora发布的视频中时间最长的只有一分钟,但业内人士预测,按照OpenAI的迭代速度,生产出几十分钟的AI视频也不远了,“未来数年内,将对整个影视制作和短视频行业带来颠覆性冲击,元宇宙的高光时刻也会越来越近。”
不过Sora所生成的视频内容在网络上爆火的同时,也有不少人发现了其中的不足之处:虽然在视频画质、细节、光影和色彩等方面表现出色,但在涉及镜头运动角度和更精细内容调控方面仍稍逊一筹,如一分钟的东京街头女郎漫步场景中,女郎走路过程中存在腿部变形、腿部交叉换位时错乱等错误。
有媒体通过Sora进行测试“找茬”
对此,Perplexity AI的首席执行官表示,“Sora虽然令人惊叹,但还没有准备好对物理进行准确的建模。并且Sora的作者非常机智,在博客的技术报告部分提到了这一点,比如打碎的玻璃无法很好地建模。”
而针对目前Sora存在的不成熟之处,OpenAI方面也表示承认并正在积极改进,还称其将继续努力提升Sora的性能和精度,以期在未来为影视行业带来更多创新和突破。
实际上,基于目前Sora已经展现出来的技术特点,不少影视从业者认为,要应用到影视行业制作上,AI生成视频技术至少要做到能对细节之处随时调整,并且生成的视频具有一定稳定性,不能有变化,显然Sora目前的精细度还达不到这样的要求,但将其用于前期开发(尤其是概念设计)已经够用,甚至基于当下高昂的人工制作成本,如果未来Sora的技术迭代能达到投入影视行业商业应用阶段,其发展空间之大也是可以预见的。
Sora距离客户期待的样子似乎只需经过一段时间的等待,但需要注意的是,从实际情况来看,AI视频技术落地还充满了不确定性,尤其是从技术的复杂性到伦理及版权问题上。
中国社会科学院法学研究所副研究员唐林垚认为,AI生成视频带来的挑战包括但不限于如何有效区分真实和虚假内容,以及如何确保人工智能作品不被用于误导公众或其他非法目的;更进一步的法治挑战在于,如何平衡强监管与行业发展之间的张力。
对于视频生成技术的滥用以及AI模型的透明度和可解释性,业界仍在寻求答案和解决方案。而当下,我们能做的也只是让技术“再飞一会儿”。
撰文/ 孟会缘
编辑/ 黎文婕
排版/ Annalee
来源/锌刻度
随着sora的兴起,通过sora创作视频也越来越火爆了,成为了下一个风口。