有一说一,哥们是真不知道这个月什么情况。
这些个厂商们就像扎堆看了同一本黄历一样,都赶着这个月搞事情。
12 号好几家连着开发布会咱就不多说了,上周又是参加了一堆大会,看了各种大模型纷纷上新,给哥们都逛累了。
结果到了今天,您猜怎么着,字节又官宣了他家的新 AI ,也就是他家豆包这次支持可以视频生成了,而且效果极其强横。
也就是说,憋了这么久,这个月底出场的字节开始上菜了,而且一来就是硬菜。
口说无凭,直接来给大家看效果:
比如这个官方演示的 “ 红尘做伴活的潇潇洒洒 ” 场景,这视频里多人、复杂表情的表现力可以说相当自然了,虽然是马丁老爷子的老粉丝,我也只能说这段权游味是相当重。
也就是这玩意只有 10 秒而且慢的一匹,不然真就给它骗过去当成影视片段了。
还有这段,骑火箭的男人冲向世界最高城礼堂引发大爆炸,这段分镜,前后镜头的画风一致性都很连贯;中间那个男人紧闭双眼紧张赴死的镜头也特灵魂,画面感拉满了。。。
不过这玩意你要光看官方视频吧,好像感受不到它特别牛的地方,有时候这些AI的宣传资料就跟方便面外包装一样,看上去是一回事,拆开以后又是另一回事。
而且视频生成这个上面, p 图微调的事也不是没有过,还有的视频大模型光放宣传片,到现在也不让大家上手用,跟扇贝似的都玩成期货了。
所以尽管看完这些演示视频以后,我们觉得豆包可能真有两下子,但到底货对不对板,咱还是得上手试一试才知道。
这不,那边发布会一结束,世超第一时间就薅来了这个 PixelDance (像素跳动)模型的内测,先安排上咱们 AI 测评的传统保留项目,有请我司老员工火锅给大伙儿亮个相。
喂给模型一张火锅的照片,再输入提示词 “ 狗狗站起,叼起身边的娃娃离开画面 ” 。
按照我们以往用火锅测评一些视频模型的经验,不出 2 秒,锅哥的身体和脸就会开始变形,之前甚至还有过把火锅变成拉布拉多的案例。。
但你猜怎么着?
这次 10s 的视频,几乎没有出现太多画面抖动、掉帧和闪烁变形的情况。
火锅起身的动作一气呵成,仔细看它把兔子玩偶拽过来的瞬间,玩偶耳朵的抖动,脚往下踩的时候垫子上的凹陷,这些细节大伙儿品品,火锅来了都得直呼:稳啊老哥!
如果不是后面几秒火锅的毛发纹理露出了破绽,这视频能打个 9 分吧。
接着,我们又试了让不少视频生成模型屡战屡败的光影效果。
提示词 “ 摩托车飞速行驶在道路上,街景迅速后退 ”
街景变化流畅,光线的明暗变化也没啥违和感,特别是大楼灯光和地板上的倒影都一一对应上了。
非要挑毛病的话,就是从对向开过来的车,画面没太控制好。
再整个经典的吃播,这回的提示词是 “ 正对镜头的男人张嘴吃下筷子上的食物 ” 。描述相对比较精确,基本就是让模型指哪打哪。
而 PixelDance 模型也确实没让我们失望,拿筷子的动作很熟练,食物是真吃进了嘴里,面部也没有因为咀嚼的动作而变形。即使提示词里没有 cue 到后面的一群人,但模型还是让大伙儿都动了起来。
就是吧,这嚼东西的动作是不是有点忒刻意了。。。
其实测到这里,我们对 PixelDance 模型的水平已经有点底了。但为了让测试更全面些,咱还是多试几次。
来看这张世超随手拍下的晚霞,提示词是 “ 远处的天空,飞来一条黑色的龙,距离镜头越来越近 ” ,稍微复杂了那么一丢丢。
后面的天空、一排房子、往镜头飞来的黑龙,要素基本齐全,镜头还会慢慢仰拍跟随。
不过原本照片左下角应该是桥边的栅栏,不知道是不是因为太黑,导致模型没识别出来,小小变形了一下。
还有这个编辑部同事下班整点小麦果汁的视频,最让世超震惊的,就是杯子里 8+1 的效果。
因为碰杯导致的晃动、还有手部动作让液体往右边倾斜,好家伙,哥们好像真找到一个理解物理规律的模型了。。
而且手臂的屈伸、关节的活动,似乎也是符合人体生理构造的。
不过瑕疵也不是没有,比如手里的酒喝着喝着,突然就喂到了隔壁同事嘴里,桌面的杯垫不知道咋回事就变成一张纸了。
相信看到这,大伙儿心里对豆包这个 PixelDance 模型已经有了基本的评判。
虽说还达不到炸裂的程度,但也肯定算得上是第一梯队了,而且 PixelDance 模型在画面稳定性、一致性上,也确实堪称独步。
不过对世超来说,其实并不是非常出乎意料。
主要其实不仅是我们,很多人对豆包在视频能力上的预期都挺高的。
虽然慢了一丢丢,但背靠视频行业出身的抖音,再加上对基础大模型的投入,豆包想依靠这些优势来追迎头赶上,实际也是符合大家认知的。
换句话说,豆包做出这个本身就意料之中,更别说人家掏出来的东西还明显是第一档。
不过嘛,字节在这个时候掏出豆包视频模型,其实挺及时的,刚好踩在视频大模型发展的节点上。
光是今年, 6 月份即梦 AI 就在 AIGC 短剧《 三星堆:未来启示录 》中亮相了, 7 月 13 日快手也上线了 AIGC 短剧《 山海奇镜 》;
而在影视圈, AI 制作的声量也被喊的越来越响,前有 AI 还原 27 岁成龙的《 传说 》,后有暑期档的漫改电影《 异人之下 》,这也意味着视频生成大模型和影视行业某种意义上算双向奔赴。
东吴证券测算,国内 AI 视频潜在的行业空间可能达到 5800 亿元人民币以上,而在全 AI 模式下,影视剧的制作成本相较于传统模式,成本能降低超过 95% 。
但这种趋势也会带来新的问题,比如模型训练需要的素材得更真实,那这些视频素材可能会有版权和隐私安全的问题。
另一方面,影视级视频生成模型也需要 AI 厂商本身有影视相关的经验,比如这次的豆包,就综合了剪映等专业剪辑和调色软件的经验,来做出更接近影视的光影、色彩效果。
其他视频生成模型如果要在这方面继续进步,可能也需要和影视行业联系更加紧密才行。
总之,豆包这波交出的卷子值得一个高分,但对于视频模型来说这还远远不是终点,期待国产大模型接下来的表现。
顺便, Sora 怎么还不出来吱个声啊?再不给用黄花菜都要凉了。
撰文:纳西 & 西西
编辑:江江 & 大饼 & 面线
美编:焕妍
图片、资料来源:知危,澎拜新闻,新华网,东吴证券等,图源网络