计算机系智能交互与认知工程上海高校重点实验室赵海教授及其合作者的论文被评为ICLR2020满分论文。International Conference on Learning Representations(ICLR)(国际学习表征会议)是深度学习的顶级会议。ICLR 2020将于2020年 4 月 26 日在埃塞俄比亚首都亚的斯亚贝巴举行。ICLR 2020共收到2594篇论文,有687篇被接收,其中48篇orals,108篇spotlights和531篇poster。在这687篇被录用的文章中有34篇是满分论文。
赵海教授及其合作者的论文题目是:“Data-dependent Gaussian Prior Objective for Language Generation”,论文的第一作者是赵海教授指导的博士研究生李祖超同学,赵海教授是共同通讯作者。下面是该论文的简介。
语言理解是人工智能的最高明珠。正如理查德·费曼(Richard Feynman)众所周知的格言,“我不能创造的东西,我就不能理解它”。语言生成反映了语言理解的发展水平。近年来,语言生成模型取得了显着进步,尤其是在深度神经网络(DNN)的快速发展下。有几种典型的语言生成模型,例如序列到序列(seq2seq)模型,生成对抗网络(GAN),变分自编码器(VAE)和自回归网络。
语言生成通常被建模为序列预测任务,该序列采用最大似然估计(MLE)作为标准训练准则(即目标)。 MLE由于其直观性和灵活性而获得了很大的成功。 但是,由于MLE,序列预测存在下列几个问题:
·曝光偏差:模型在训练过程中没有暴露到所有误差下;
·损失失配:在训练过程中,我们最大化对数似然,而在推理过程中,模型是通过不同指标(例如BLEU或ROUGE)进行评估的;
·多样性缺乏:生成的文本无聊,普通,重复性和短视等;
·负多样性无知:MLE无法为不同的错误模型输出分配适当的分数,这意味着在训练过程中所有错误输出均得到同等对待。
除了负多样性无知之外,已经有各种各样的工作可以缓解上述MLE作为训练目标的不足。 负多样性无知是不公平地低估了目标集单元的内部关联,由于语言生成的目标单元存在近义,相似表达等情形,这使得语言生成任务中特殊于一般的序列预测任务。当MLE目标比较其预测序列和真实序列时,它采取了一次全部匹配的策略。预测的序列将被赋予正确或不正确的二进制标签。但是,这些不正确的训练预测可能会千差万别,让模型知道哪个错误的预测比其他错误的预测更正确或更不正确,可能会更有效地指导模型训练。
例如,以句子“the little boy sits on the armchair”生成为例(图1),在生成“armchair”的时候,可能会误生成为“sofas”,但通常不应误认为“mushroom”。
为了缓解负多样性无知的问题,我们添加了一个额外的高斯先验目标,以增加一个额外的Kullback-Leibler(KL)偏离损失项来增强当前的MLE训练。 通过比较两个概率分布来计算额外损失,第一个概率分布来自详细的模型训练预测,第二个概率分布来自于真实的单元空间分布,被定义为一种与数据相关的高斯先验分布。 然后通过KL散度项将建议的数据相关高斯先验目标(D2GPo)注入到最终损失中。 D2GPo与常用的与数据无关的高斯先验(L2正则化)相距甚远,L2正则化的目的是简化MLE的训练,这也直接加到了MLE损失中。
实验结果表明,该方法可以有效地利用数据中更详细的先验信息,并可以显着提高典型语言生成任务的性能,包括有监督和无监督的机器翻译,文本摘要,讲故事和图像摘要(图2)。
图1:D2GPo生成示例
图2:图像摘要例子
图2:我们提出的D2GPo与基线模型在图像摘要任务中的例子。从上面的例子可以看出使用SCST训练的模型返回更精确和更详细的图像摘要;而使用D2GPo训练的模型返回一个语法更完整的句子,这说明D2GPo在语言生成任务中的有效性。