​


引言:6.14日“腾讯创新日:科技年技术盛宴”代表腾讯各个事业群技术实力的四级专家、腾讯微创新2016年度创意获奖团队欢聚一堂,一起畅谈AI、系统安全、架构设计、社交传播、推荐模式、游戏引擎等前沿科技和腾讯应用创新的台前幕后。来自TEG的AI Lab 计算机视觉中心的总监、专家工程师刘威,就深度学习重构视觉计算,给大家进行了分享。


近年来,计算机视觉已经成为人工智能的研究热点。而计算机视觉的研究也不断从图像AI转到多媒体(视频)AI上。视频AI不仅需要建模图像的空间域信息,还需要建模视频帧之间的时间域信息。视频AI技术可以对视频进行编辑,还可以提供视频更丰富的语义信息,进而应用于腾讯的多个产品中,譬如:腾讯视频,天天快报等。


在这次报告中,主要介绍我们在视频AI上面研究和应用的探索。首先,以视频滤镜为例,介绍一下视频的编辑和生成;其次,针对视频分析和理解,介绍一下我们在视频分类(Youtube8M Challenge),视频缩略,视频明星人脸跟踪识别,和人脸检测的探索和工作。



以下为刘威演讲实录


我今天的题目是“深度学习重构视觉计算”,很高兴来到腾讯这么大的创新日活动。我之前在公司分享的内容多偏业务。今天分享的内容可能更偏前沿的研究一点。


首先讲一下我的组,也就是“计算机视觉中心”,迄今为止的研究成果。我们有9项专利申请,论文全部发表于2017年。我是2016年6月份加入腾讯的,这是我们一年的研究成果。我们在计算机视觉顶级会议CVPR上发表5篇论文,在机器学习的顶级会议ICML上发表2篇论文,在信息检索顶级会议SIGIR上发表2篇论文,还有PAMI、TKDE、TIP分别发表了1、1、2篇。这也符合了我加盟腾讯的预期。



因为前面也有一些活动,我也做了一些演讲。今天的分享主要介绍一下我们最近几个月投入的研究工作。


首先讲视频编辑与生成,二是视频分析与理解,第三部分的3D&AR部分,因为时间的原因,今天主要分享前两个部分的工作。


今天的主题是“计算机视觉被深度学习重构”。为什么有重构?重构肯定有摧毁,这也是我的一个疑问,在深度学习时代,深度学习是否已经摧毁了计算机视觉?我随便看了看一些论坛,这个命题早就存在.在其他的研究领域,例如自然语言处理与语音识别。这两个领域都被深度学习入侵。研究员们在社交媒体上有一些公开论战。我们是坚持传统还是拥抱深度学习呢?这个问题是我抛出来的,自己也没有明确的答案。我的解读是,任何一个学科存在一定有它的价值,它被别的思想或者别的模型改造一下是非常正常的。从哲学上讲,任何在历史兴起的事物一定会在历史中消亡。


但是这是好事,说明我们的技术进步了。至少深度学习很大程度上重构了计算机视觉或者视觉计算。为什么讲重构?因为迄今为止,我们不能完全丢开传统的计算机视觉的算法、模型。一旦使用到了滤波器,就还是在使用以前的东西,但是重要性明显大打折扣。十几年前,大家还纠结于如何设计滤波器。深度学习起来之后,我们没有必要设计特殊的滤波器,都是按照端对端的方式自动学出来的。这就是重构,我们希望把传统的技术和现代思想结合在一起,这就是我所倡导的重构。



我们就以最著名的图像识别比赛ImageNet为例,上图是千类物体识别的top-5的错误率。大家看出来在2015年ResNet已经将错误率降到3.57%,低于人类识别的错误率了。针对这个数据集合,现在大家都能做好,已经变成一个玩具数据集合了。在语音识别方面,从2011年到2012年性能上也有一个很大的提升,但是没有图像识别提升那么大。物体识别这些年的巨大进展都归功于伟大的Hinton在2012年设计的8层卷积神经网络。这也是很多科学技术发展的规律。一个非常伟大的人把一个很难的东西革新到一个新的水准,将物体识别的错误率从20%以上降到20%以内。后面很多优秀的学者,尤其是很多年轻的学者一起努力,把这个结果无限逼近。


现在物体识别的错误率已经逼近2%左右了。所以摧毁与重建就在这个趋势里面。重建的是我们基于这个思想,基于这个模型,基于端到端的训练模型,全世界做这个模型都用这个套路,这是一个非常大的进步。所以说现在翻开任何一篇做图像的论文,都会引用到Hinton的工作。而且做法大同小异,涉及到卷积神经网络,现在越来越深,设计一个足够好的神经网络,就可以解决特定问题。这不算特别激动的东西,因为这个东西真正提出是2012年,后面是把这个事情做得更加具体化一点,更加任务驱动一点。



这是卷积神经网络的突破一,还有卷积神经网络的突破二。这个二我所指的是视频分类,不再是图像分类。我也画了一个链条图,从2014年开始起,大家也都是在用卷积神经网。但是针对视频,大家使用的都是多道卷经神经网络。相对于图像来说,视频更加的困难,不仅需要考虑图像空间域上的信息,还需要考虑视频时间域上的信息。直到2014年初的时候,两道卷积神经网络分类才第一次应用到视频分类上。从2013年到2014年,UCF101的数据库上的视频分类top-1的错误率降低不到2个百分点。2015年,谷歌综合了前人的研究,提出卷积神经网络加上LSTM,将视频分类的错误率又降低了一点点。到了2016年,视频分类的错误率能降低到5%左右。说一下我们AI Lab的结果,我们原创的神经网络是PBnet,在UCF 101上的错误率是4.6%。



我的组,也就是腾讯AI Lab计算机视觉研究中心希望能够做一些前瞻性的研究需要从图象的AI进阶到多媒体AI。我们以前处理多是静态、无结构的图像大数据,而现在的多是动态、半结构/结构化的多媒体大数据。这非常符合我们的社交多媒体网络的概念。这个社交多媒体网络指的是在我们社交平台上有图像,有视频,有用户的点击,有用户的推荐,有用户的评论,还有和朋友之间的互动转发等等,这就形成了一个非常强大的多媒体社交网络。我们希望把以前处理图像AI的研究经验进阶到处理多媒体的AI研究,这需要新的多媒体算法。对于图像来说,主要是依需求而计算。对于多媒体AI来说,我们需要能够做到渗透性,无时无刻不在计算。我们希望能够构建一些新的benchmark数据集,在这个上面测试,包括邀请全世界,国内外的各路学者专家一起在这样的数据集上进行算法研究。


这三部分是我们最近的部分研究成果。第一是视频编辑与生成。第二是图像/视频分析与理解。第三是3D&AR,这里面使用了手机里面的传感器和陀螺仪等。



首先讲视频的编辑与生成。以视频滤镜为例,给定输入的一段视频和一副风格图像(如线条画、抽象画等),产生风格变换后的视频。这项技术正计划在公司很多产品上线。



现在主要讲视频的风格转换。左边的例子是《英雄》片断,风格图像是线条画,我们渲染的视频效果还是很不错的。右边的例子也是《英雄》那部电影,风格图像变成了金黄色的抽象画,体现在它的几何形状与色彩等等。值得骄傲的是这项技术我们去年就做出来了,相关的论文也已经被CVPR2017接收,并且申请了专利。这在工业界中是比较少见的。在论文正式发表之前产品就已经做出来了。  接下来讨论的是视频分类。我们构建了自己的深度学习网络。因为视频的内容比较丰富,所有的视频片段都经过前向网络计算,但是在反向传播的过程中,仅仅选择有代表性的片段进行。这里有一个正向传播后向反馈,一直在筛选,筛选哪些片段对于最终的视频分类是有用的。第二是构建不同时间长度的片断,进行多帧率的融合。我们用多尺度采样的方法构建视频片段,然后再丢到神经网络里面。以这种方式构建的视频片段,可以更详细的捕捉视频中的各种运动信息,进而提升视频分类的精确度。。目前我们构建的网络PBnet在UCF101的数据库上取得了领先的分类结果。


讨论一个更加有挑战性的工作,Youtube8M的视频分类任务。这个数据集合大约包含800万的视频数据,共四千多个类别标签,每个视频下的视觉标签数是1-31个,平均每个视频3.4个标签。。对于这个视频分类任务来说,因为它的数据量非常大,所以我们现在按照谷歌提供的技术文档,基于视频已经提取完成的帧级别和视频级别的特征进行相应分类。。在我们的实验结果中,我们发现帧级别的复杂模型比视频级别的模型性能高一些,但不是特别的显著。也就是说,在非常复杂的有结构的视觉信息--视频上,深度学习的潜力还没有完全开发出来,还需要我们一起努力。鉴于帧级别模型与视频级别模型的性能非常接近,我们目前对腾讯视频平台上的游戏视频使用视频级别模型进行分类。做了9个热门游戏的分类,top1的分类正确率高达94%。


视频缩略,也是我们最近重点研究的一个问题。任务是什么?从长视频(电影/电视剧)中提取部分片断,生成一段短视频。需要保留主要情节,保持剧情的流畅,在减少观看时间的同时尽量不影响观影体验。与视频分类完全不一样,视频缩略面临的挑战有三条,第一是定义很难,缺乏客观的评价标准,都是主观的。第二是训练数据少,三是理解难,长视频的情节和视觉场景复杂,对现有模型是很大的挑战。我们现在还不知道到底怎么做好,就是因为情节场景复杂,而且电视剧人物非常多,算法弄清楚人物之间的关系都是一个新的有挑战的问题。



这是我们的解决方案,右边就是概念图。左边是结合业务数据。首先看如果我们不用任何业务数据怎么办?需要一个端到端的深度学习直接生成缩略的视频。腾讯视频存有用户观看的历史。我们找很多腾讯上大热的IP电视剧,将用户观看热力图拿出来,在这个曲线进行相应的视频缩略。曲线值越高代表观看人数越多,就应该保留。这一帧是否保留就是一个目标变量。视频缩略是限制条件的。第一选取视频帧需要满足我预先设的比例,例如你最多只能取得30%、50%、10%。第二是选取的视频帧要足够的连贯。深色就是我们选出来的帧,其他就是没有选出来的帧。后续我们需要用两个东西,一个是明星人脸,一个是弹幕。但是弹幕的滞后性很强,往往高达三四秒。如何融合到视频缩略中也是比较挑战的。另外我们要保证用户最喜欢的那些明星在缩略的视频里足够多的出现,并且他/她的主力剧情连贯。最后我们希望结合热力图和明星人脸,来做端到端的深度学习。



这里秀了两个视频,是南加州大学的数据集,都是短视频的缩略。左边是一个跑酷的成员跳来跳去,动作都是比较连贯的。右边也是自拍的,一个人在做食物的场景。我们希望主要的情节可以保留,而且还比较连贯。这是长视频缩略,是一集《青云志》,我们缩略以后得到的30%时长的视频是比较流畅的。


最后讲一下视频明星人脸跟踪识别。在这里我们主要是跟踪识别视频中的明星人脸,进而后续可以将明星的片段截取出来,构建一个只包含明星镜头的短视频。




最后讲一下我们最近的一个重要研究成果:人脸检测。我们提出了一个非常原创的模型,叫做FaceR-CNN。Center  Loss:引入它作为监督函数。目前我们在最难的人脸检测测评库WIDER FACE上排名第一,超过了CMU开发的模型。尤其在最难的子集,我们在验证集和测试集上都比所有其他方法要高。这个难是指人脸在图象中的面积非常小。我们专门对于很小的人脸做了深入的训练。下图是在另一个人脸检测测评库FDDB上的人脸检测的结果:我们的方法超过了一些没有公布技术文档的方法,包括一些初创公司做的,也包括百度的结果。