近日,第60届电子设计自动化领域顶级会议DAC(Design Automation Conference,CCF-A类)在美国旧金山顺利召开,上海交通大学电子信息与电气工程学院微纳电子学系毛志刚教授、贺光辉教授团队成员与辉羲智能合作发表的两篇论文成功入选,其中一篇Transformer推理加速架构成果“COSA: Co-Operative Systolic Arrays for Multi-head Attention Mechanism in Neural Network using Hybrid Data Reuse and Fusion Methodologies”荣获最佳论文提名奖。今年DAC会议总共接收1156篇论文,录用263篇,接收率为23%。其中仅有5篇文章被提名为最佳论文,该论文为今年中国内地唯一一篇入选。
研究成果
1. COSA: 探索Transformer固有计算特征,利用混合数据复用和多种融合技术,设计高能效高利用率低延迟的加速器——最佳论文提名奖
论文标题:《COSA: Co-Operative Systolic Arrays for Multi-head Attention Mechanism in Neural Network using Hybrid Data Reuse and Fusion Methodologies》
近年来,Transformer神经网络在计算机视觉、自然语言处理方面的表现出超过传统CNN、RNN神经网络的优越的性能,但其巨大的参数量和计算量对硬件平台的支持提出了新的挑战。许多学者从软硬件协同的角度出发,试图通过剪枝、模型压缩等方法稀疏化网络,并设计相应的硬件加速器。然而稀疏化的方法需要繁琐的调参和重训练过程以达到精度要求,研究团队首先指出,从新的维度出发,分析并利用Transformer网络固有的数据流特征的是设计Transformer加速器的另一个关键技术,此工作也是这方面最早的研究之一。研究团队挖掘了Transformer的核心算子,多头注意力机制中的密集矩阵乘、密集部分积、丰富并行度、非线性算子夹杂等计算特征,从固有数据流角度出发设计了COSA (Co-Operative Systolic Arrays) 加速器。其计算单元可配置,可动态支持权重/输入固定的数据复用方式,并通过头融合(fused head),部分积融合(fused product),深度融合(deep fusion)技术以及先进的softmax单元设计,进一步提高PE单元的利用率和吞吐率,降低延迟和访存。相较于以往的设计,COSA可达到2.95-28.82的加速比,实现高达97.4%的PE利用率。
论文的第一作者为微纳电子学系博士生王之灿,通讯作者为其导师贺光辉教授,姜红兰副教授为论文合作者。
2. FLNA: 通过数据流解耦方法最大化利用点云空间稀疏性降低计算复杂度和存储需求,大幅度降低定制化加速器硬件资源需求
论文标题:《FLNA: An Energy-Efficient Point Cloud Feature Learning Accelerator with Dataflow Decoupling》
激光雷达是近年来快速发展的智能驾驶系统中不可获取的重要传感器,其采集到点云(Point Cloud)为感知网络提供了细致的空间物体信息。由于点云数据具有空间稀疏性和不规则分布的特性,普遍选择点云特征学习网络(Feature Learning Network)将其转换为规则化的三维体素(voxel)来提取特征。然而特征学习网络需要庞大的内存和计算开销,对终端部署造成巨大的挑战。
针对上述问题,研究团队提出了一种数据流解耦方法,在不影响计算精度的情况下,将体素内逐点和整体特征运算解耦,深入利用空间稀疏性来消除冗余计算量,实现了超过95%的存储开销降低。基于以上方法,研究团队设计了一款全流水的特征学习网络加速器(FLNA)。FLNA通过计算单元复用实现了对多种常用的特征学习网络类型的支持,同时可对点云数据参数进行灵活配置。针对不规则存储读写问题,团队提出了特殊的片上数据排布策略,最大化提高片上SRAM带宽利用率。实验表明,与当前近似工作相比,FLNA第一次支持了更加复杂的基于体素的特征学习网络,并且可以在更高的能效下实现2.1倍的加速比。
论文的第一作者为微纳电子学系博士生吕东旭,通讯作者为其导师贺光辉教授。
关于DAC
DAC是电子设计自动化领域的顶会,专注于相关领域的最新方法和技术。会议接收的论文涵盖了电子设计自动化、嵌入式系统及软件、AI系统及架构、存内计算等主题,受到全世界相关领域研究者的广泛关注。近年来,上海诚聘英才微纳电子学系立足国家战略需求,以尖端芯片设计技术探索为己任,在高能效神经网络处理单元不断突破创新。同时积极推动“产学研一体化”发展,加强校企合作,致力于将前沿研究落地于产业实际场景之中,本次两篇论文也是团队与辉羲智能在高能效人工智能芯片方向共研的重要成果。
王之灿在DAC2023现场作报告
吕东旭在DAC2023现场作报告
高能效数字芯片设计团队的部分成员
(左起:贺光辉,毛志刚,吕东旭,王之灿,姜红兰)