引言:近期,上海交通大学电子信息与电气工程学院计算机系卢策吾团队在《自然》机器智能杂志子刊上发表了关于高维度视觉序列理解上的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。《自然》机器智能子刊主要发表人工智能基础研究成果。上海交通大学是该论文的唯一单位,也是我校第一篇入选该期刊的论文。与此同时,该团队将该论文代码与近两年在视频理解领域的先进成果开源为基于PyTorch框架的视频理解工具箱AlphaVideo。其在MOT跟踪数据和AVA行为理解上都达到了最高的准确率。其中,AlphAction在AVA上相比SlowFast[4]有12.6%的相对提高,15类常见行为模型达到约70 mAP。
图1 动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。
图2 AlphaVideo中的行为理解(Alphaction)
人类视觉理解机理:在现实世界中,人类的视觉感知存在两个概念,一个是理解物体长相(appearance)的空间概念,另一个是物体场景变化的时空变换概念。在我们的视觉认知过程中这两个概念相互耦合,完成对世界的整体视觉理解。 神经科学领域的研究发现也在人类的记忆形成过程中,时间信息与空间上下文信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆[1]。
新技能:自主学习时空概念
我们是否能模仿人类的认知机制从中自动发掘(awareness)时间-空间概念,并将其分别表征,同时又让他们耦合协作提高机器视觉时序理解的准确率。这种能力代表着机器学习模型自主掌握了时空的概念,向着更高的智能迈出了一步。更进一步,时空信息概念的分离也让机器智能向着“概念编辑”迈出了重要的一步。
本文提出了应用于高维度信息的半耦合结构模型(SCS),使得机器学习模型点亮新的技能树:自主学习并分离出时间和空间信息概念。SCS推动了序列模型在高维视频数据上的应用,时空信息概念的分离也让机器智能向着“概念编辑”迈出了重要的一步。
半耦合结构模型
半耦合结构的中心思想是先解耦时空信息(模仿人脑中的两条信息通路),分别处理时间和空间信息之后再将二者耦合(模仿海马体)。该过程可以形式化地表示为:
深度学习的理论要求我们堆叠这种半耦合的元结构以形成更深的模型:
在整个深度模型中,时空信息始终以先解耦在融合的模式向后流动。这种模式使得模型在所有层中都可以接触到完整的信息。
为了让hs和ht可以各司其职,研究者们将他们设计为不对称的结构,hs使用更关注空间信息的结构,如卷积网络;ht则采用更关注空间信息的结构,如递归神经网络。同时,研究者们使用两个特殊的监督目标rs,rt来进一步约束二者关注自己的工作。两个目标满足:
通过将rs,rt分别设置为空间和时间的监督信号,如关键点检测损失作为rs,光流估计损失作为rt,可以做到分别监督hs和ht关注自己各自的信息。
研究者们同时提出了一种训练的注意力机制。这种注意力机制控制着模型在优化过程中先学习哪种信息。在视频信息中,研究者们认为时间信息必须基于较为稳定的空间信息。因此模型应该优先将注意力集中在空间信息上,待空间信息有效且稳定时,逐步将模型训练的注意力转换到时间信息上。这种注意力机制是通过按照一定概率截断或者的梯度来实现的。
通过控制q的值,完成在时间和空间信息之间的转换。
SCS的表现如何?
任务性能对比与传统LSTM比较
SCS在视频动作分类,自动驾驶,天气预报等4个任务上的性能都超越了传统的序列模型。
概念编辑
有了时空分离的能力,SCS将可以初步做到“概念编辑”。试想这样一个场景,我们训练一个模型可以准确地预测狗的运动轨迹,如果我们突然需要预测猫的轨迹(假设现实中猫的运动趋势与狗相同,仅外观不同),为了获得良好的性能,我们需要重新训练模型。但是有了“概念编辑”,我们可以把物体的空间信息从狗编辑为猫,而保留模型学到的时间信息不变,这样将以比较小的代价实现模型的泛化,同时也扩宽模型的使用场景与部署难度。如图3。
图3 概念编辑demo
我们让计算机看Flappy Bird的视频,然后看一张静态的Mario图片(外观形象)。在这个过程中,模型并没有接触到任何mario在管道中穿梭的运动信息。通过“概念编辑”,测试时SCS也可以准确地预测mario的运动轨迹。
视频理解工具箱AlphaVideo
为了整合MVIG团队在视频理解领域近两年的成果,同时作为一个平台进一步容纳今后的研究结果,我们开源了视频理解工具箱AlphaVideo。目前在该工具箱中,除了上述SCS时空概念分解,我们也提供了单阶段端对端训练的多目标跟踪模型TubeTK和视频动作检测模型AlphAction。目前,研究团队已将代码及训练好的模型全部开源, 工具箱已发布为 pip 包,只需 python 中加一行代码,即可调用预训好的各类模型。
AlphAction
AlphAction是面向行为理解的开源系统,目前基于MVIG提出的交互理解与异步训练策略[5],比起SlowFast相对提高12.6% ,速度达到10FPS(下一版本将达到实时)。并且开源了15常见行为基本模型mAP达到约70%,接近可以商用的水平。
TubeTK
TubeTK是第一个单阶段可以端对端训练的多目标跟踪模型, 也是第一个开源的在MOT-16数据集上达到了66.9MOTA精度的模型,这是目前online模型仅在MOT训练数据下达到的最高精度[3]。
图4 TubeTK 可视化结果
TubeTK模型,是基于上海交大MVIG组提出的基于Bounding-Tube开发的单阶段训练模型(CVPR2020-oral),该方法无需额外的目标检测器,仅依靠一个全卷积网络完成多目标跟踪任务,其精度比DeepSort相对提高9%。通过Bounding-tube,TubeTK面对遮挡和密集人群有着更高的鲁棒性。
图5 Bounding-Tube示意图。使用bounding-tube可以轻松跟踪到bounding-box无法检测到的被遮挡目标(图中黄色框)
参考文献
[1] Kitamura, T. etal. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).
[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).
[3] https://motchallenge.net/tracker/3184&chl=5
[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).
[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv:2004.07485.
作者简介:
庞博 上海交通大学电院计算机系在读博士生,上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习,尤其是视频理解算法包括动作理解,多目标跟踪,视频关键点估计等。
Homepage: https://bopang1996.github.io
汤佳俊 上海交通大学电院计算机系在读硕士生,上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习,尤其是视频动作理解算法。
卢策吾 上海交通大学电院计算机系长聘教轨副教授。在他加入交大之前,他是斯坦福大学人工智能实验室研究员。他的研究兴趣主要集中在机器人、人工智能和机器人计算机视觉。他担任CVPR 2020的领域和《自然》杂志的评论员。他还入选了MITTR35-MIT技术评论提名的35个35岁以下的创新者(中国)。Homepage: http://mvig.sjtu.edu.cn/