在《阿法狗之后,它再次彻底颠覆人类认知》中,我们曾经介绍过图像生成应用 DALL·E。曾有人用它制作出的图像去和人类艺术家 PK并最终取胜。
现在我们看到的 Make-A-Video 可以说是一个视频版本的 DALL·E(初级版)——它就像 18 个月前的 DALL·E,有巨大突破,但现在的效果不一定能让人满意。
甚至可以说,它就是站在巨人 DALL·E 肩膀上做出成就的产品。相较于文字生成图片,Make-A-Video 并没有在后端进行太多全新变革。
研究人员在论文中也表示:「我们看到描述文本生成图片的模型在生成短视频方面也惊人地有效。」
目前 Make-A-Video 制作的视频有 3 个优点:
- 加速了 T2V 模型(文字转视频)的训练;
- 不需要成对的文本转视频数据;
- 转化的视频继承了原有图像/视频的风格。
这些图像当然有缺点,前面提到的不自然都是真实存在的。而且它们不像这个年代诞生的视频,画质模糊,动作僵硬,不支持声音匹配,一段视频长度不超过 5 秒,解析度 64 x 64px 都是硬伤,它们的清晰度远远不够。
这个视频狗狗舌头和手有几帧非常怪异
几个月前清华大学和智源研究院(BAAI)研究团队发布的第一个能根据文本直接合成视频的 CogVideo 模型也有这样的问题。它基于大规模预训练的 Transformer 架构,提出了一种多帧率分层训练策略,可以高效的对齐文本和视频片段,只是也经不起细看。
但谁能说 18 个月后,Make-A-Video 和 CogVideo 制作的视频不会比大部分人更好呢?
目前已经发布的文字转视频工具虽然不多,但在路上的却有不少。在 Make-A-Video 发布后,初创企业 StabilityAI 的开发者就公开表示:「我们的(文字转视频应用)会更快更好,适用于更多人。」
有竞争才会更好,越来越逼真的文字转图像功能就是最好的证明。
作者:冷思真
来源公众号:爱范儿(ID:ifanr);连接热爱,创造不同。
本文由人人都是产品经理合作媒体 @爱范儿 授权发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。