近日,上海交通大学电子信息与电气工程学院计算机系EPCC团队(新兴并行计算研究中心)在计算机体系结构领域国际顶尖学术会议ISCA(IEEE/ACM International Symposium on Computer Architecture)和网络与服务质量领域国际旗舰会议IWQoS(IEEE/ACM International Symposium on Quality of Service)上斩获佳绩。
团队助理研究员侯小凤老师与硕士研究生许同樵共同撰写的论文“A Tale of Two Domains: Exploring Efficient Architecture Design for Truly Autonomous Things”获得了2024 ISCA最佳论文提名奖。该论文从“开源(拓宽供电来源)”角度探讨了新一代智能自主计算设备的高能效架构设计,为本年度国内唯一入选成果。
同时,侯小凤老师与硕士研究生唐鹏完成的论文“CPM: A Cross-layer Power Management Facility to Enable Highly-efficient Real-time AIoT Systems”获得了2024 IWQoS最佳论文优胜奖。该论文从“节流(降低推理浪费)”角度优化了边缘人工智能推理的能耗管理系统。
以上两篇论文由EPCC团队负责人过敏意教授指导,计算机系李超教授为两篇论文的通讯作者。
论文1:A Tale of Two Domains: Exploring Efficient Architecture Design for Truly Autonomous Things
研究背景:随着人工智能技术的不断发展,人工智能物联网(Artificial Intelligence of Things, AIoT)正构建一种新兴的生产力,AIoT设备正协助人类在各个场景中安全且高效地完成复杂任务。传统AIoT架构设计高度依赖外部的能量和计算资源,阻碍了其广泛普及和部署。在这一现状下,自主计算(Autonomous Things,AuT)架构被认为是下一代有潜力的AIoT范式。AuT架构通过能量收集实现能量自主(Energy Autonomy, EA)、通过本地计算实现推理自主(Inference Autonomy, IA),实现了高可持续性和低维护成本。然而,现存的AuT设计方法缺乏对能量自主与推理自主的协同设计,导致最终设计的能效低、延迟高、体积大。
CHRYSALIS架构示意图
内容摘要:为了弥补现有设计方法的不足,作者提出了CHRYSALIS,这是一种面向AuT的综合且全面的设计框架,旨在实现能量自主与推理自主的协同设计。CHRYSALIS引入了针对AuT的描述、评估、搜索方法,以生成适用于特定场景的理想AuT设计。首先,本文提出了基于组件的软硬件设备描述,保证能够以可扩展的形式支持对各类异构设备进行建模;其次,本文通过逐步仿真和多场景配置对设计全面评估;最后,本文通过双层搜索方法分离硬件和软件的设计空间提高设计效率。通过在多个场景下进行实验分析,本文说明了CHRYSALIS在进行快速AuT原型优化和专用硬件预先设计方面能够显著提升架构效率,其中在原型优化方面能够在最终系统上实现优于基线79.7%的效率提升。CHRYSALIS在能量自主和推理自主的协同设计方面开创了新的方法,为未来高效的自主计算设备的发展提供了重要的工具和技术支持。
许同樵同学作为代表在ISCA最佳论文报告环节做大会演讲
论文2:CPM: A Cross-layer Power Management Facility to Enable Highly-efficient Real-time AIoT Systems
研究背景:随着人工智能技术的快速进步和广泛应用,将强大的深度神经网络(DNN)模型部署到靠近用户的AIoT(人工智能物联网)设备中变得越来越具有吸引力。然而,实现DNN工作负载在能量受限的AIoT环境中的严格服务质量(QoS)标准,尤其是在实时延迟方面,仍是一个巨大的挑战。为了解决这个问题,先前的研究主要集中在逐层的电源管理技术上,这些技术利用了每层DNN的独特能量和性能关系,通过细粒度的层级动态电压频率调整(DVFS)技术来设置每层网络对应的硬件频率,从而优化推理的功耗和延迟。然而,以前的研究忽略了DVFS本身的控制开销以及其带来的巨大的搜索空间,因此需要新的方案。
CPM系统示意图
内容摘要:为了解决以前工作的不足,作者提出了一种跨层电源管理系统CPM(Cross-layer Power Management),以平衡实时AIoT系统中的延迟和能耗。CPM设计了不同的模块来控制DNN模型的推理过程,并设置合适的硬件频率。首先,CMP根据DVFS和DNN模型网络层的时间关系将DNN模型划分成不同的网络块,以减少搜索空间和DVFS的控制开销。其次,CPM通过高效的编码网络将巨大的搜索空间编码到低纬度空间,并通过贝叶斯优化算法进行搜索得到最佳的频率配置。最后,CPM通过监控DNN模型的执行过程来设置得到的频率配置。通过在现有的AIoT设备上进行实验,结果表明,相比于以前的工作,CPM可以更好地平衡DVFS控制带来的开销和受益,将执行延迟减少多达45.76%,同时将能效提高多达31.58%。
IWQoS获奖证书
ISCA是国际公认的计算机体系结构领域顶级学术会议(CCF-A),IWQoS则是国际公认的网络与服务质量领域旗舰会议(CCF-B)。EPCC团队成员在这两个重要会议上的突出表现,充分展示了团队在边缘人工智能计算领域的前沿研究水平。这些成果不仅为学术界带来新的研究视角,也为边缘人工智能技术的产业落地提供了重要支撑。