很快,Netflix就可以快速、大量地,对海量内容自动生成预告,质量还非常高哦。
在降低剪辑师人工成本的同时,这千人千面的预告片,又会增加影片点击率和观看时长。
其实,在2016年时,21世纪福克斯和IBM就推出了Watson系统给自家的惊悚片Morgan自动生成预告片了,只不过不能像Netflix这大批量搞。
这背后的原理其实都类似,一共分两步。
第一步,就是识别并理解内容。
把剪辑好的全片直接倒入,系统首先就会开始对内容进行识别。
比如,进行复杂环境下的人脸识别,认出演员是谁,还能知道谁是主角,谁是群演。
除了人,还会对景色、物体识别,贴上各种标签,比如“公园里”,“家里近景”等等。
另外,还会对台词和配乐分析,识别各个片段的情感,是惊悚还是温情,一目了然。
这一过程想要做到详细,是很耗费时间的,因为要跟其他来源的数据对比。比如IBM的Watson,就需要24小时来完成。
第二步,就是根据既定工业化套路生成预告。
比如,同样是30秒的预告,可以有各种风格,和各种模版音乐,按照相关标准生产即可,再根据用户喜好投放。
假设,让你用AI剪辑沈腾的喜剧电影合集,那可以想象出来,这最起码可以有“感人风格”和“爆笑风格”两种模版。
上面这两步里,第一步的“识别”是基础,第二步的“生成”则是应用。
当然,第一步最为重要也是必须,而且同一部影片,系统理解一次之后,结果可以重复利用,赋能更多应用。
第一步的“识别”还真是“基础武功”。正因如此重要,各大流媒体巨头都在重点投入研发。
国内方面,老大哥爱奇艺在研究识别这件事上下了大功夫。比如爱奇艺计算机视觉的研究成果多次被包含ICCV在内的学术会议收录,多次在挑战赛获奖。
爱奇艺还曾直接联合了国内外顶级视觉和多媒体会议,如PRCV2018和ACMMM,首次发起“多模态视频人物识别挑战赛”,还公布了全球最大的明星视频数据集(iQIYI-VID),联手产学研,取得突破。