电院要闻
电院学子荣获2021DIGIX精英算法大赛冠军
日期:2021-10-08 阅读:1116

近日,2021 DIGIX全球校园AI算法精英大赛在华为南京研究所圆满收官。经过100多天的激烈角逐,学院概况电子工程系教授孙卫强指导的博士生石可钦,赢得“用户留存周期预测”赛道冠军,并捧回三万美元奖金。祝贺石可钦和孙卫强老师!


1-1.png

1-2.png


赛事介绍

DIGIX全球校园AI算法精英大赛已连续举办三届。本次大赛由江苏省人工智能学会、华为终端云服务、华为南京研究所共同举办。大赛历时100余天,覆盖了全球45个国家和地区,吸引了来自世界各地532所高校的3600多支队伍参赛。本届赛事围绕人工智能技术展开,结合实际应用场景及数据,聚焦机器学习、CV及NLP等相关领域,共设置了用户留存周期预测、文章质量判别、视频推荐、搜索排序及小样本菜单识别五大赛题。


冠军方案:基于多目标多视图的用户留存周期预测

方案背景:移动平台上的数字音乐APP是众多移动APP中常用且重要的应用。预测数字音乐APP的用户留存情况,涉及到对用户关注的音频、歌词、歌名和评论文本,以及用户APP侧信息等的数据多模态表征,是一个典型的数据分析难题。研究并解决这一难题对探索下一代机器学习模型与多模态向量化有非常深远的价值。赛题提供数百万用户连续60天的行为日志,用户信息,歌曲信息,歌手信息,要求预测未来30天内用户的留存情况。

解决方案:赛题的任务是利用用户历史的行为数据来预测未来的留存情况,可以抽象为多步时间序列的问题。难点在于如何有效地利用众多不同维度的历史数据来预测用户长期的留存表现。针对这一问题,石可钦把原始数据分为三大类:用户每天的静态数据、用户每天的行为序列数据以及用户的基本信息。他提出利用循环神经网络和图嵌入算法对用户每天的行为序列进行建模,将序列特征与静态数据、基本信息相结合输入到并行的Encoder-Decoder,并通过attention的方式进行聚合。这个方法高效地利用了几乎所有原始数据所蕴含的信息,从而有效地提升了模型对于多目标留存预测的效果。石可钦的方案在初赛和复赛中都取得了第一名的成绩。


1-3.png

1-4.png


冠军故事:去年惜败今年再战,愈挫愈勇终夺冠

石可钦今年6月以“lighting”为名报名参赛。经过初赛、复赛和决赛三个阶段,赛程持续了一百余天。在这当中,石可钦总共提交了120余次方案。每一次修改都是对之前方案的精进和打磨。比赛高手如云,竞争激烈。每次提交方案后系统自动评分,各个队伍之间的排名变化频繁。石可钦一次次被超越,再一次次绝地反超。石可钦说这个过程备受煎熬,但是也正因为一次次被超越,激励他一次次深入思考改进方案。

去年石可钦也参加了比赛,但是由于缺乏机器学习领域的理论知识及实践经验没能进入复赛。今年能取得好成绩与在交大日常科研训练的累积密不可分。作为孙卫强教授课题组成员,孙老师带领大家研究膳食管理与推荐、个体深层次的健康行为习惯挖掘,以及基于社交网络的群体运动坚持。在平日的科研生活中,团队时常动手开发应用采集数据,学习和讨论前沿的数据挖掘算法,并结合数据特点进一步地创新和改进。石可钦说,正是这样的积累,让他在实践和理论方面都获得了长足的进步。同时,比赛中与孙老师的讨论也让他对赛题有了更深入的认识。这次大赛让他对大数据所蕴含的价值有了新的体会,对他日后的发展有很大的帮助。


1-5.jpg

孙卫强教授: 

在数字化转型的洪流中,数据的分析和价值挖掘无疑是大家都关心的话题。这其中蕴含了很多机会,也存在很多美丽的陷阱。新手上路,甚至包括一些有经验的研究者,容易低估困难而高估算法的能力。我一直告诫学生,作为数字化转型洪流中的一名研究者,一定要时刻保持客观冷静的头脑,理解数据生产中的逻辑,正视数据中存在的缺陷,才能在价值创造的道路上走得更远。这几年交大健康团队与多家企业和机构合作,在膳食、运动、中医药、社区发展等多维度数据记录和分析上积累了丰富的经验。我们相信,经过无数科研人员脚踏实地的努力,数据和算法一定可以在更多领域创造更多价值,为建设社会主义现代化强国提供推动力。


Baidu
map