电院要闻
电院计算机系卢宏涛教授团队在数据挖掘领域顶会SIGKDD 2024发表2篇研究成果
作者:丁玥 供稿:计算机科学与工程系 日期:2024-06-18 阅读:399

近日,上海交通大学电子信息与电气工程学院计算机科学与工程系系卢宏涛教授团队,联合腾讯互娱社交算法团队,共同在数据挖掘领域顶级会议SIGKDD 2024发表两篇论文。

SIGKDD被广泛认为是知识发现和数据挖掘研究最具影响力的学术会议,是数据挖掘领域中h5 index 排名最高的学术会议/期刊,并被中国计算机学会(CCF)评为推荐CCF-A类会议。SIGKDD 2024的录用率为20%。


DAG:一种无需社群数目先验的属性图社群检测算法

第一作者:上海交大计算机系博士研究生刘畅(导师为卢宏涛教授);

其他作者:上海交大计算机系博士生杨昱文,上海交大计算机系教授卢宏涛,腾讯吴梓明、毕文东;

通讯作者:上海交大计算机系助理研究员丁玥,腾讯专家研究员林文清。

研究背景

在腾讯互娱的工业场景中,社交网络具有规模大、语义丰富的特点,除了承载用户之间的关系链,社交网络也会反映用户的语义属性和对每种玩法的偏好程度等等。社群检测(community detection)将社交网络划分为一个个具有紧密连接和语义特性的子结构,可以更加了解用户偏好。目前,基于深度图聚类(DGC)的社群检测的方法无法自适应寻找社群数目,这使得其在真实场景中无法落地。

内容摘要

image1.png

图 1 DAG算法框架图


本研究首次针对属性图上无需先验的社群检测问题提出了一套针对性的图神经网络学习框架DAG,它基于图神经网络的生成式自监督学习,以及基于社群隶属网络和组稀疏技术来进行自适应的社群数目搜索以及社群检测。该方法首次使得图神经网络模型克服了社群检测中社群数目未知的问题,并已部署于腾讯多款游戏中,相较于目前最先进算法提高了7.35%的新增好友数目。


BBP:一种超越二元偏好的点击率预测模型训练框架

第一作者:上海交大计算机系博士研究生刘畅(导师为卢宏涛教授);

其他作者:腾讯汪琪炜,上海交大计算机系教授卢宏涛;

通讯作者:上海交大计算机系助理研究员丁玥,腾讯专家研究员林文清。

研究背景

点击率(CTR)预测任务在推荐系统中至关重要,旨在预测用户点击某个item的概率值。

研究团队将预测的概率值运用到各类推荐系统的下游任务中。在工业场景中点击率预测模型主要有两个场景:

-排序:根据预测出的点击率生成一个排序的列表,为用户推荐点击概率更高的item。

-校准:使得预测出的点击概率和用户的真实点击率一致,这有助于更广泛的下游任务的建模,比如估算推荐的预期收益等。

在现实的推荐场景,比如在社交网络的好友推荐中,点击率预测的训练数据集由大量二元的点击标签组成,这使得在训练排序模型的过程中会出现大量的平局情况,制约排序模型的性能。此外,点击的标签占比总是十分稀疏,这导致在实际的训练中,浪费了绝大部分理论上可比较的样本。如果只有10%的样本是正样本,那么将有80%以上的比较情况将被浪费,而现实中这个比例只会比10%更小。

内容摘要

image2.png

图 2 BBP框架中点击行为的概率图模型


为了解决这一问题,研究团队提出了超越二元偏好 (Beyond Binary Preference, 简称 BBP) 训练框架。核心思路是将训练集的标签从二元取值范围增广为连续的取值范围,这样可以保证几乎所有的样本对之间都可以训练,以成倍地扩展可用的训练集规模。这种标签增广方案基于贝叶斯方法,根据研究团队对业务数据的洞察,将历史数据视为伯努利实验序列,并通过贝叶斯平滑为每一个训练集的用户和item学习各自的后验概率分数。这样,在优化排序损失时就可以综合考虑点击标签以及后验概率分数。

在大量的离线实验和在线 A/B Test中验证了研究团队的方法,BBP在排序和校准能力上均显著(p值<0.05)优于目前的所有SOTA方法。在两个腾讯互娱产品的在线部署上,BBP都相对提升了至少10.28%的新增好友数目。

第一作者刘畅介绍

image3.jpeg

两篇论文的第一作者为上海交通大学在读博士生刘畅,师从计算机系卢宏涛教授。刘畅的主要研究方向为数据挖掘、图神经网络、推荐系统等,曾于SIGKDD,WSDM,DASFAA等知名学术会议发表论文。刘畅于2023年入选腾讯犀牛鸟精英人才计划,并曾在腾讯IEG社交算法团队进行研究访学。

卢宏涛教授简介

image4.jpeg

卢宏涛,上海交通大学计算机系长聘教授,博士生导师。研究兴趣为机器学习、深度学习、计算机视觉、模式识别。在国际知名学术期刊和国际顶级学术会议上发表论文100余篇,其中63篇被SCI收录,SCI他引超过1360次;Google Scholar引用超过4000次,H-index 37。先后主持国家863、国家自然科学基金、教育部博士点基金、上海市科委和上海市曙光计划等10多项项目。连续入选2014-2018年Elsevier计算机科学中国高被引学者榜单。入选2005年度教育部新世纪优秀人才计划,2003年获上海市曙光学者称号,2010年获上海市自然科学二等奖,2015年获河南省科技进步二等奖。

Baidu
map