近年来,人工智能(AI)技术突飞猛进,随之也带来了AI技术可能被滥用的问题。当前AI图像合成技术可以创造逼真的虚拟人物,引发“眼见不一定为实”的普遍担忧。如果不法分子利用合成人脸进行诈骗、诽谤以及盗取机密信息等活动,将会给社会安全与稳定造成严重的负面影响。
近日,学院概况人工智能研究院杨小康教授团队的“End-to-End Reconstruction-Classification Learning for Face Forgery Detection” “Exploring Frequency Adversarial Attacks for Face Forgery Detection”两篇论文已被人工智能国际顶级会议CVPR 2022收录。杨小康教授带领的数字人研究团队致力于从机器学习角度去鉴别人脸图像和视频的真假,推动可信人工智能的发展。由杨小康教授、马超副教授联合指导的这两篇相关论文在伪造人脸鉴别的准确性和鲁棒性两方面取得了系统性突破,在国际上率先为人脸认证、虚拟数字人等产业健康发展锻造了AI执剑人。
CVPR(计算机视觉与模式识别会议,IEEE Conference on Computer Vision and Pattern Recognition)是计算机视觉和模式识别领域的顶级会议,被中国计算机学会推荐为A类会议。根据谷歌学术公布的2021年最新学术期刊和会议影响力排名,CVPR在所有学术刊物和会议中位居第4,仅次于《Nature》、《NEJM》和《Science》。
当前鉴别人脸图像是否伪造存在两方面技术难题:一是如何鉴别未知方法伪造的人脸图像。当前主流鉴别方法都是针对特定的几种人脸伪造方法所设计的,鉴别未知方法伪造的人脸图像则效果不佳。二是人脸伪造本质上是利用深度学习对人脸图像进行信息篡改,当前的鉴别方法没有考虑利用深度学习对鉴别方法自身的攻击。为此,杨小康教授团队提出名为RECCE(中文释义:侦查)的鉴别方法,利用图像重建技术放大伪造痕迹,即使是方法未知的伪造人脸图像,也能十分容易地准确识别伪造区域。同时,该研究团队设计了针对伪造人脸鉴别方法的抗攻击测试,提出名为Hybrid Attack的攻击方法,对伪造人脸图像进行人眼不可见的微量修改成功欺骗了鉴别算法,使其判断为真实人脸图像。抗攻击测试大幅提升了伪造人脸检测算法的鲁棒性。
图像重建让伪造无所遁形(RECCE)
现有伪造人脸检测方法大多通过分析输入图像所采用的特定合成模式来辨别是否伪造人脸,比如微软亚洲研究院提出的Face X-Ray算法将图像融合的边界作为合成模式来判定是否伪造,该算法认为每张合成人脸图像至少由两张图像叠加而成,即面部中间来源于一张图像,而面部周围来源于另一张图像。然而,随着伪造技术的发展,过度关注特定的已知合成模式容易造成无法识别全新合成方法生成的伪造样本。同时,图像传输过程中的压缩、模糊、饱和度失调等噪声也可能破坏已知的合成模式,从而影响伪造人脸检测算法的准确度。
研究团队从一个新的视角来探索伪造人脸检测任务,设计了一个名为RECCE的“重建—分类”学习框架,通过重建人脸图像来学习真实人脸的共性特征,并根据分类任务来挖掘真实人脸与伪造人脸的本质差异。简单来说,利用真实人脸图像训练了一个重建网络,并利用重建网络的隐层特征来对真实与伪造人脸进行分类。由于伪造人脸与真实人脸在数据分布上存在不一致,因此伪造人脸的重建误差更明显,且能更准确地反映伪造区域。
“重建-分类”研究方法RECCE结构示意图
上图分别展示了输入为真实人脸和对嘴部区域进行合成的伪造人脸。该团队设计的重建方法可以有效区分真实与伪造人脸,并且能准确显示伪造区域(嘴部红色掩码),为智能鉴别技术提供了较好的可解释性
研究人员在伪造人脸检测常用数据集如FaceForensics++ (FF++) 和WildDeepfake上进行了大量实验,实验结果表明基于图像重建的检测方法取得了当前最优的伪造人脸检测精度。尤其在FF++数据集c40(即低分辨率)设置下,所提出的方法比当前最好的算法F3-Net提升了1.72%AUC。为了验证本算法在复杂场景下的伪造检测性能,研究人员还将所提出算法在当前最大规模的数据集DFDC上进行实验,结果展示于下图表中。
表中可以看出,所提出算法依然取得了最佳性能,并在AUC上领先次优方法1.01%。以上实验结果充分说明了本算法相较于现有方法的优越性
伪造人脸检测抗攻击测试(Hybrid Attack)
AI合成的伪造人脸主要是欺骗人眼的判断,同时,AI能通过人眼不可见的像素修改欺骗伪造人脸鉴别算法。因此,对伪造人脸检测算法开展抗攻击测试变得十分重要。
对于伪造人脸检测任务,现有的对抗攻击方法通常是在像素上增加微弱的扰动使得检测方法做出错误的判断,比如在伪造人脸图像上添加人眼不可见的像素改变可以蒙蔽检测方法,使其识别为真实人脸。麻省理工大学团队提出的PGD算法,将神经网络反传的梯度变化不断添加到原始图像上,得到最终的对抗样本,容易引起训练过拟合而迁移性较差。此外,添加扰动的方法也破坏了原始图像的质量,无法得到高质量的攻击样本。
该团队研究人员观察到,现有检测方法往往利用频率信息来鉴别人脸真伪,于是有针对性地设计了一种基于频率的对抗攻击方法作为测试。具体来说,通过对输入人脸图像应用离散余弦变换(DCT),在频域中引入适应性的对抗噪声,再将结果转化到空间域,得到最后的对抗攻击样本。此外,受元学习思想的启发,还提出了一种融合空间域和频域的对抗攻击方法Hybrid Attack,在保证已知鉴别模型条件下的攻击成功率的同时,进一步加强了未知鉴别模型条件下攻击的跨模型迁移性。
基于伪造人脸检测的频率对抗攻击示意图
不同对抗样本对比图:该团队提出的Hybrid Attack方法生成的对抗样本视觉变化最小、攻击能力最强
与此前麻省理工大学提出的对抗攻击方法PGD相比,在频域添加对抗信息,从而更不易被人眼察觉,同时也不会降低人脸图像的视觉质量。该方法不仅可以有效地欺骗基于人脸图像空间域变换设计的鉴别方法,还可以有效地欺骗基于人脸图像频域变换设计的鉴别方法。大量实验结果表明,所提出的新方法在多个大规模数据集上取得当前最好的对抗攻击效果,为伪造人脸检测算法提供了最强的对抗攻击样本作为测试。
以上两项成果由电院人工智能研究院杨小康教授团队与腾讯优图实验室紧密合作产出,算法成果可应用于远程身份认证、图像和视频鉴伪等多种场景,充分保障人脸作为身份验证的安全性需求。
电院人工智能研究院硕士生曹隽逸、博士生贾率分别为以上两篇论文的第一作者,人工智能研究院副教授马超为两篇论文的通讯作者;合作者包括腾讯优图实验室研究员姚太平、陈燊、尹邦杰、丁守鸿博士等。
来源 | 人工智能研究院
文稿 | 马超、黄蕾宇