CogVideo“一脉相承”于文本-图像生成模型CogView2,这个系列的AI模型只支持中文输入,外国朋友们想玩还得借助谷歌翻译:
看完视频的网友直呼“这进展也太快了,要知道文本-图像生成模型DALL-E2和Imagen才刚出”
还有网友想象:照这个速度发展下去,马上就能看到AI一句话生成VR头显里的3D视频效果了:
所以,这只名叫CogVideo的AI模型究竟是什么来头?
生成低帧视频后再插帧团队表示,CogVideo应该是当前最大的、也是首个开源的文本生成视频模型。
在设计模型上,模型一共有90亿参数,基于预训练文本-图像模型CogView2打造,一共分为两个模块。
第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;
第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。