近日,计算机视觉顶会ICCV 2023公布录用名单,上海交通大学电子信息与电气工程学院计算机系马利庄教授团队共有10篇论文录用。团队提出了融合LiDAR点云和相机特征的全景分割网络、高保真单视图三维内容创作方法、物理概念推理网络、全新的手物交互基准模型等,在三维场景感知、三维重建和具身智能方向取得了重大突破。
马利庄教授团队主要研究方向包括数字媒体、计算机视觉、机器智能及虚拟现实等。团队由马利庄教授领导,成员包括卢策吾教授、盛斌教授、易冉助理教授、李永露助理教授、陈玉珑博士后、院旺博士后等。
ICCV(计算机视觉国际大会, International Conference on Computer Vision),是计算机领域世界顶级的学术会议之一,每两年举办一届。其评选出的最佳论文(马尔奖)被看作是计算机视觉研究方面的最高荣誉之一。
1. 标题:LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and Semantic-Aware Alignment
作者:张志伟,余谦,张志忠,谢源,易冉,马利庄
摘要:激光点云(LiDAR)全景分割任务是一项具有挑战性的三维场景感知任务,其要求相关方法同时具备语义分割和实例分割的能力。在此任务中,我们注意到图像模态可以提供丰富的纹理、颜色等判别性信息,从而补充 LiDAR 数据,显著提高深度网络的性能。但是,如何在行车场景下有效融合两种模态仍是一个具有挑战性的问题。 现有其他多传感器融合方法面临传感器间时序不同步,图像特征利用率低,相机视野外点云无法参与模态融合等问题。由此,我们提出了首个基于激光雷达-相机的全景分割网络(LCPS)。在此方法中,我们分三个阶段进行激光雷达-相机特征融合:1)基于异步补偿的像素对齐模块(ACPA),用于校准传感器之间工作频率不同引起的坐标不同步问题; 2)基于语义感知的区域对齐模块(SARA),通过弱监督类激活图(CAM)方法将一对一的“点-像素”映射关系扩展到一对多的映射关系,并保持语义一致性; 3)点到体素的特征传播模块(PVP),集成相机视野内外的点云全场景信息。我们的多模态融合策略在NuScenes 数据集和SemanticKITTI数据集上比LiDAR单模态基线提高了约 6.9% 和3.3% PQ 性能。广泛的定量和定性实验进一步证明了我们新颖框架的有效性。
2. 标题:Remembering Normality: Memory-guided Knowledge Distillation for Unsupervised Anomaly Detection
作者:顾智浩,刘亮,陈旭,易冉,张江宁,王亚彪,汪铖杰,束岸楠,江冠南,马利庄
摘要:本文提出了一种新的无监督异常检测方法,称为记忆力机制扩充的知识蒸馏 (Memory-guided Knowledge Distillation, 简称MemKD)。传统基于知识蒸馏的异常检测方法在学习过程中会出现“正常性遗忘”问题,即在仅使用正常数据训练前提下,学生模型却会重构异常特征,且对正常数据中包含的纹理细节很敏感。为了解决这个问题,MemKD引入了一种新的记忆机制,即正常知识召回模块 (Normality Recall Memory, 简称NRM),通过存储正常数据的信息来加强学生模型生成的特征的正常性。同时,MemKD还采用了正常性表示学习策略,构建了一个正常样本集,使NRM能够记住无异常数据的先验知识,并在后续的查询中进行回忆。实验结果表明,MemKD在MVTec AD、VisA、MPDD、MVTec 3D-AD和Eyecandies等五个数据集上取得了良好的效果。
3. 标题:Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior
作者:唐俊姝,王腾飞,张博,张婷,易冉,马利庄,陈栋
摘要: Make-It-3D探讨了仅使用单张图像创建高保真度3D内容的问题。通过使用2D扩散模型作为3D-aware先验,从单个图像中创建高保真度的3D物体。该框架不需要多视图图像进行训练,并可应用于任何输入图像。详细来说,方法采用两阶段优化的框架:第一阶段通过在前景视图中结合参考图像的约束和新视图中的扩散先验来优化神经辐射场;第二阶段将粗略模型转化为纹理点云,并利用参考图像的高质量纹理,结合扩散先验进一步提高逼真度。
大量实验证明,Make-It-3D在结果上显著优于先前的方法,实现了预期的重建效果和令人印象深刻的视觉质量。通过两个阶段的创建方案,该方法为首个实现单视图高保真3D生成的工作。生成的3D模型展现出精细的几何结构和逼真的纹理,并与参考图像相符。除了图像到三维几何创建之外,该方法还能实现高质量由文本创建三维几何和纹理编辑等多种应用。
项目链接:https://make-it-3d.github.io/
论文链接:https://arxiv.org/abs/2303.14184
代码链接:https://github.com/junshutang/Make-It-3D
4. 标题:Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption
作者:胡腾,张江宁,刘亮,易冉,寇思麒,祝昊焜,陈旭,王亚彪,汪铖杰,马利庄
摘要:在有限样本下训练生成模型是一项具有挑战性的任务,现有的方法主要利用小样本模型领域自适应来训练网络。然而,在数据极度稀缺的场景下(少于10个样本),生成模型很容易出现过拟合与内容退化的现象。为了解决这些问题,我们提出了一种新颖的基于分段内容融合的小样本扩散模型,并提出有向分布一致性损失,使得扩散模型在不同训练阶段学习到不同的目标域信息。具体而言,我们设计了一种分段训练策略,通过分段的内容融合帮助模型在加噪步数较大时保持源域的内容并学习目标域的风格信息,在加噪步数较小时学习目标域的局部细节信息,从而提高模型对内容、风格和局部细节的把控能力。此外,我们引入了一种新的有向分布一致性损失,能够高效、稳定地保证生成域分布和源域分布的一致性,避免模型过拟合。最后,我们还提出了一种跨域结构引导策略,在域适应过程中增强生成图像与原图像结构的一致性。我们从理论分析、定性和定量的实验三个方面,有效地证明了所提出方法相较于以往小样本模型自适应方法的优越性。
5. 标题:Contrastive Pseudo Learning for Open-world Deepfake Attribution
作者:孙智敏,陈燊,姚太平,尹邦杰,易冉,丁守鸿,马利庄
摘要:随着生成技术的快速发展,对于深度伪造人脸的攻击类型溯源问题已经引起了广泛关注。现有的诸多研究在GAN溯源任务上有了一些进展,但忽略了更具威胁性的人脸替换或表情驱动等攻击类型。此外,开放场景下存在着大量没有攻击类型标注的伪造人脸数据,这部分数据也尚未被充分利用起来。为了应对这些挑战,本文构建了一个名为“开放场景下深度伪造溯源”(OpenWorld-DeepFake Attribution,OW-DFA)的新基准,涵盖了人脸替换、表情驱动、属性编辑、人脸替换等20多种主流伪造技术,以评估开放场景下不同伪造人脸类型的溯源性能。
同时,本文针对OW-DFA任务提出了一个对比式伪标签学习(Contrastive Pseudo Learning,CPL)算法,包括以下两个部分:1)引入全局-局部投票模块,以修正不同攻击类型产生的伪造区域大小差异;2)设计基于概率的伪标签策略,以缓解在利用无标签数据时相似攻击方法所引起的噪声。此外,本文还将CPL算法进一步与目前广泛使用的预训练和迭代学习技术结合在一起,进一步提高了溯源性能。本文通过大量的实验证明了所提出的CPL方法在OW-DFA基准测试上的优越性,有效促进了深度伪造溯源任务的可解释性和安全性,并对深度伪造检测领域有着积极影响。
6. 标题:Beyond Object Recognition: A New Benchmark towards Object Concept Learning
作者:李永露,许越,徐昕宇,毛潇涵,姚远,刘思柒,卢策吾
摘要:对物体的理解是人工智能的核心基石之一,尤其是对于具身智能来说。尽管目前的深度学习在物体识别方面表现出色,目前的机器在学习更高层次的物体知识方面仍然面临困难,例如物体的视觉属性和可供性。本研究提出了一个具有挑战性的物体概念学习(Object Concept Learning,OCL)任务,以推动物体理解的发展。该任务要求机器推理出物体的视觉属性、可供性,并同时给出原因:“是什么属性使得一个物体具备这些功能”。为此,我们构建了一个密集标注的知识库,包括三个层次的物体概念(类别、属性、可供性)的标注,以及三个层次之间的因果关系。通过分析OCL的因果结构,我们提出了一个基准模型“物体概念推理网络”(Object Concept Reasoning Network,OCRN)。它利用概念实例化和因果干预来推断这三个层次的物体知识。实验表明OCRN能有效地推断物体的属性和可供性,并且能很好地遵循了因果关系。
论文链接:https://arxiv.org/abs/2212.02710
7. 标题:A New Framework for Egocentric Hand-Object Interaction Understanding
作者:许越,李永露,黄喆敏,刘栩,卢策吾,戴宇榮,鄧智強
摘要:随着对第一视角手-物交互(Ego-HOI)的关注日益增长,一些大规模数据集应运而生。然而目前的大部分Ego-HOI研究沿用了第三人称视频识别任务的模型、训练技巧和预训练权重,忽略了第一人称和第三人称动作视频之间较大的领域差异,导致当前的Ego-HOI研究效果不尽如人意。因此,本文重新分析了Ego-HOI任务,并提出了一个全新的学习框架:基于Ego-HOI视频数据的特点,我们设计了一种平衡的分析和采样策略,并得到了更全面的预训练集以及更平衡的测试集;进一步,我们设计了一个新的Ego-HOI基准模型,并设计了针对特定任务的微调训练策略。基于这个新的框架,我们在现有的基准测试和平衡的测试集上均取得了最好性能。
8. 标题:CHORD: Category-level Hand-held Object Reconstruction via Shape Deformation
作者:李恺林*,杨理欣*,甄昊宇,林泽楠,詹欣宇,钟李骋,徐健,吴克艰,卢策吾(*共同作者)
摘要:在日常生活中,人类往往用手来操作各种物体。为了让AI理解人类日常任务并学习操作技能,重建手持物体的形状是十分必要的。然而,由于缺乏形状的先验知识,加之用于训练的数据不足,以前的方法在重建手持物体的精确形状方面往往效果不佳。我们发现,对于特定类型的工具,如杯子,尽管其在形状和材质上的变化是无穷的,但人类对其操作姿势却是有限的。这可以归因于人类已经掌握了“杯子”类别的形状先验,能够理解不同杯子实例与形状先验之间的对应关系,比如杯口和手柄的位置。鉴于此,我们提出了一种新的方法:CHORD,通过形状变形进行类别级的手持物体重建。CHORD通过变形一个类别的形状先验来重建类内的物体。为了提高重建精度,CHORD利用了三种知识:2D图像,形状先验和手物交互姿势。此外,我们为了类别级手持物体重建任务,还构建了一个新的数据集:COMIC。其包含了丰富的物体实例、物体材质、手物交互姿态和不同的视角。大量的评估显示,CHORD在定量和定性的测量中均优于先前方法。
项目链接:https://chord-comic.github.io
9. 标题:ClothesNet: An Information-Rich 3D Garment Model Repository with Simulated Clothes Environment
作者:周秉旸,周淏宇,梁天海,俞巧君,赵思衡,曾毓薇,吕峻,罗思源,王前才,于昕元,陈浩楠,卢策吾,邵林
摘要:本文提出了ClothesNet:一个大规模的3D衣物数据集以及对应的丰富的标注信息。该数据集有大约4500个模型,囊括了11个类别,并包含了大量的标注信息,比如衣物特征、边缘信息、关键点等。ClothesNet可以被用于各式各样的计算机视觉与机器人任务。基于该数据集,我们建立了一系列针对衣物感知的基准任务,比如分类、边缘分割、关键点检测等,针对机器人交互任务建立了衣物仿真环境,比如整理、叠衣、挂衣和穿衣等。我们还在真实环境实验中展示了ClothesNet的效果。
项目链接:https://sites.google.com/view/clothesnet/home
10. 标题:ClothPose: A Real-world Benchmark for Visual Analysis of Garment Pose via An Indirect Recording Solution
作者:徐文强, 杜文昕, 薛寒, 厉宇桐 , 叶若琳, 王延峰, 卢策吾
摘要:服装在日常生活中随处可见且具有重要作用。然而,从视觉分析、估计服装姿态却十分困难,因为在现实世界中仅依靠人工标注几乎不可能完全恢复服装的完整状态。在这项工作中,我们提出了一种录制系统,GarmentTwin,其可以在动态环境中(例如操作衣服时)追踪服装姿态。GarmentTwin首先从现实世界中收集服装模型和RGB-D操作视频,然后使用基于物理的动画仿真重现操纵过程。这样,我们可以获得与现实数据粗略对齐的变形服装姿态。最后,我们采用基于优化的方法将姿态与现实中采集的点云结果进行拟合。我们定量和定性验证了拟合结果。借助GarmentTwin,我们构建了一个大规模的数据集,名为ClothPose,该数据集包含来自600多种服装的操作视频。我们在ClothPose上进行了两项任务的基准测试:非刚性重建和姿态估计。实验证明,先前的基准方法难以估计服装在大规模非刚性变形下的姿态。因此,我们希望这个录制系统和数据集能够促进对非刚性物体姿态估计任务的研究。数据集、模型和代码将公开提供。