图 14 自动生成封面图问题约束
图 13、图 14 都来自于优酷和达摩院在 NeurIPS 2018 Workshop of Video Understanding in Youku 的分享,封面图的生成来源于对内容的准确分析和解构。
3 对未来的展望优酷未来在多模态方面的规划
视频内容的理解对于采、制、宣、发、播这五个核心业务环节,视频的搜索交互形态也会呈现出多元化的模态,且视频本身的元素化结构将会极大的助力内容再次创作,赋能给 PGC 生态。我们将在如下几个方向上持续加大投入:
- 视频解构分析与智能生产
- 交互式动态视频技术
- 端到端的多模态视频理解与分发算法
- 基于视频理解的内容评估技术
- 多模态对话式搜索技术
多模态技术未来发展
好的视频内容是能够激发观众的情感共鸣的,而很多用户追剧、看电影的动力之一就是分享感动和快乐,如何能够在移动时代抓住用户的碎片化时间和整块娱乐时间是各个视频网站争夺的焦点之一。近年来深度学习在多媒体数据上的突破性进展给多模态内容理解带来了新的机会,如何能够让机器“看懂“视频内容将会是视频网站核心技术的制高点之一。
- 多模态搜索推荐会成为视频信息获取的重要趋势,而向单一的文字模态做降维仅仅是开始,探索更为通用的端到端检索模型仍是需要解决的难题
- 随着互联网电视走入越来越多的家庭,围绕电视这个共享屏幕,更自然的多媒*互方式将会极大的促进跨模态信息检索的研究
- 基于多模态内容分析解构技术的智能媒资库逐渐会成为视频网站、电视台、甚至企业内部平台的标配,这将会是一个很大的 to B 市场空间
- 目前短视频网站中占比较高的 PGC 二创视频生产逐渐会被 AI 取代,甚至智能算法可以生产出类似鬼畜类这样的视频,极大地提高生产效率
多模态内容理解作为一项逐渐走出学术象牙塔的技术,未来会在视频业务中扮演着越来越重要的角色。
,作者介绍
王晓博,阿里大文娱集团资深算法专家,优酷算法中心负责人。2010 年博士毕业于北京航空航天大学计算机学院数据挖掘方向,先后在百度、搜狗商务搜索部门从事算法策略研发工作。2015 年加入阿里组建猜你喜欢算法团队,将猜你喜欢打造为手淘第一大导购场景,成为淘宝平台导购流量分发的核心入口。2018 年起负责优酷算法中心,组建认知实验室,推出了多模态搜索推荐引擎、视频理解与智能生成平台等系列产品。主要研究方向为大规模分布式机器学习算法、多模态交互搜索推荐系统、算法博弈论。