产品服务
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
数据智能
知识图谱
硬件产品与服务
定制化训练平台
深度学习开放平台
硬件产品
官方认证的硬件产品与百度AI协同应用
百度推出的软硬一体化服务机器人
硬件与软件开源的机器人视觉产品方案
软硬一体化的人脸识别开发套件
软硬一体化的远场语音开发套件
硬件赋能
快速赋能移动设备及智能手机
零代码生成高性能端计算模型
高性能计算卡参考方案&软件工具包
EdgeCloud端云协同平台
为抓拍机厂商提供端云对接协议及产品推广
可视化配置,实现抓拍机管理与业务系统集成
硬件合作
开放评测认证让您的产品加入AI生态
开放与芯片合作,让AI深度走入终端设备
可视化训练模型服务平台,获取高精度定制图像识别、声音识别、文本分类服务
自助定制专属模板,实现海量单据卡证的结构化识别
智能对话系统开发平台,让产品快速拥有对话交互能力
自助训练专属模型,提升业务场景语音识别效果
集合代码环境、算法算力和数据集的线上一站式开发平台
提供深度学习系列公开课与商业案例
源于产业实践的开源深度学习平台
零代码生成高性能端计算模型
基于真实样本的超大规模的开放数据集
AI加速器
AI市场
资讯
社区
DeepMind竞赛,百度IDL获第一
发布日期:2017-08-22 09:56:45浏览量:2100次
相关标签 百度大脑 深度学习

 

 

文章来源:sohu.com/a/166314723_99901730 

原标题:DeepMind视频行为分类竞赛,百度IDL获第一,新算法披露

作为重要的内容载体,视频已经成为信息获取的重要来之一。

与文章不同,视频通常需要预先标注出关键字才能被用户检索到,进而决定是否打开。但大量的视频因缺乏内容标签,一方面无法被检索,另一方面用户也很难快速知道视频内容。如何分析视频内容并进行有效分类,成为业界关注的核心问题之一。

目前视频理解的难点在于,理解视频需要在图像的基础上获得更多场景信息,例如不仅仅需要知道短视频的画面里面有人,还要知道这个人是在做什么动作。此外,在算法层面上视频理解也需要用到多帧的信息,而且视频理解天然是一个多模态的问题,除了图像,还有语音数据,运动信息等。因此,如何合理提取多帧多模态特征中的有效信息是视频理解问题的重点。

常见的视频分类方法主要分为两部分,一是从视频中抽取特征,更好地建模图像、语音以及光流等多模态信息,另一部分则是对多帧的信息进行更好的时序建模。此前,在特征的时序建模上,并没有很好的处理方法。有人使用LSTM模型, 但浅层的LSTM容易导致过拟合,而深层的LSTM会遇到优化问题难以收敛。此外,由于视频包含了图像连续的时间和空间域,怎样构建一个端到端的框架,将这些图像的时空特点表示出来,也是研究的难点。

ActivityNet:视频界行为分类界的ImageNet

ActivityNet数据集和竞赛专为促进视频理解而推出。与ImageNet类似,研究人员可以在这个数据集的基础上提出更好的视频分类方案,也可以得到很好的预训练视频模型,能够迁移到其他垂直领域。

ActivityNet竞赛是目前视频动作分析领域影响力最大的赛事,被誉为视频界的ImageNet竞赛。虽然刚刚推出2年,但每年都吸引到MSR、CUHK、CMU、UTS等众多高校和科研机构积极参加。

其中,Kinetics是ActivityNet今年最新推出的一个大规模视频分类任务,本次Kinetics视频行为分类比赛由DeepMind主办,有400个动作类别,24万训练语料,每个视频长10秒左右,一个视频就是一个完整的类别,是迄今为止开放视频内容的最大视频分类数据集。

获胜技术关键:如何学到更好的特征、基于这些特征时序建模,以及融合多模态数据

根据ActivityNet竞赛规则,参赛者需要预测每一个视频的5个可能类别,系统依据预测类别Top1和Top5的平均准确率来排序。值得一提,每支参赛队伍只能提交4次结果,组织方也是在比赛结束前一个多月才将数据集放出来,都是为了防止参赛者拟合数据集

百度IDL视频分析团队Genome此次获得ActivityNet Kinetics竞赛第一名,获胜的关键主要有三点:如何学到更好的多模态特征表达,基于这些特征建立时序关系,最终将各种不同模态信息融合到一起。

1. 如何通过训练学到更好的特征获奖方案主要使用了3种类型特征:RGB特征、光流特征和语音特征。团队使用基于双路卷积神经网络的方法学习RGB特征和光流模型,并将RGB模型迁移到语音特征上去,都得到很好的结果。提取更好的特征表示是视频理解的基础。

2. 如何基于这些特征建立更好的时序关系时序关系建模有基于CNN和基于LSTM/GRU两种思路,Genome团队都做了尝试。在基于LSTM/GRU思路探索序列模型时,他们提出了Fast Forward处理视频时序建模的框架,使用一个深度达到7层的双向LSTM/GRU网络(一共14层)建模深层次的时序关系,堪称视频界的ResNet。通过引入 Fast Forward 连接,不仅能有效防止过拟合,还能加速模型的收敛,提升模型的性能。该模型是本次比赛中单模型性能最佳的时间序列模型。

在本次比赛中,单模型性能排名第二的快速传导网络(FFLSTM),也是性能最好的时间序列模型

经过不断实验,团队在建模时序特征时发现单独使用Attention机制非常有效,于是他们就尝试移除LSTM/GRU,引入更多Attention组合参数来捕获更多的时序模式,提出了一个名叫Multi-Group Shifting Attention Network的模型,这也是本次比赛表现最好的单模型。这种架构的设计跟前人的工作也有异曲同工之处。在此前谷歌云联合Kaggle举办的YouTube-8M大规模视频理解竞赛(Genome团队也在其中取得了第三名的成绩),冠军团队使用的是VLADNET算法,这是一种优化过的传统视频分类算法。本次Genome团队在ActivityNet中使用的Multi-Group Shifting Attention Network,可以看作是对VLADNET算法的一次创新,将沿着每一帧的特征去做卷积改为沿着序列去做卷积,由此实现了性能的提升。

在这次比赛中,单模型成绩最好的Multi-group Shifting Attention Networks架构

3. 如何让多模态更好地融合在一起传统的多模态数据融合只是将不同特征拼接在一起去学习,而难以学习得到不同模态的特征的有效组合。Genome团队在本次竞赛过程中也针对这个问题提出了相应的优化方案。

团队提出的4种新视频行为分类方法(也即最后4种单模型)的性能数据。

该项技术已经应用到视频个性化推荐和视频自动化打标签等百度产品中,解决了视频推荐的冷启动和视频关键词缺乏等实际问题。

——————————————————————————————————————————————

了解百度视频相关技术,请访问:ai.baidu.com   或  ai.baidu.com/tech/video/vca