近期,电子设计自动化(EDA)领域顶级会议Design Automation Conference(DAC 2024)揭晓论文录用榜单,上海交通大学电子信息与电气工程学院计算机科学与工程系先进体系结构实验室5篇论文被该会议收录。
DAC会议介绍
DAC会议被誉为EDA界的“奥斯卡”,同时也是CCF-A类会议,由美国电子协会(Electronic Design Automation Consortium)主办,目前已经举办超60届,每年提供近300多场的技术演讲,是EDA领域规模宏大、影响深远、历史悠久的顶级会议之一。
论文1: 基于莫顿码的点云神经网络量化技术
第一作者:计算机系博士研究生刘学渊
通讯作者:计算机系助理研究员宋卓然
点云是3维空间中一组无序点的集合,常被用于捕捉真实世界中物体的几何和属性等信息,在自动驾驶、虚拟现实等场景中扮演着十分重要的角色。然而,点云具有数据规模大、无序、特征维度高等特点,给点云处理应用的开发和部署带来了巨大挑战,其中不乏涉及高实时性、安全攸关的场景,而由此带来的运算和存储开销显然难以满足这些场景的需求。为了解决上述挑战,本文提出一套基于莫顿编码的细粒度混合精度量化算法及加速器架构。论文首次尝试对3D空间中的点云数据进行两级混合精度量化,使用莫顿编码捕获点的空间局部性,从而消除了点云无序性带来的弊端。此外,论文还设计了一个加速器架构,它不仅硬化了上述算法设计,还有效地将莫顿编码通路和关键路径上的操作并行起来,从而掩盖了新增操作的执行时间,显著提升了点云神经网络的执行性能。论文在7个具有代表性的点云神经网络模型、4个被广泛使用的点云数据集上进行实验,取得了对比此前最新研究最高3.8倍的加速和高达5.2倍的能效提升。
论文2: 面向视频Transformer模型的专用加速器
第一作者:计算机系博士研究生王旭航
通讯作者:计算机系助理研究员宋卓然
目前,基于注意力机制的模型在视频理解任务中取得了非凡的结果,然而面向视频的模型展现出高精度的性能是以大量的计算开销为代价。为了提高模型的性能,本文从算法,数据流以及硬件架构三个方面切入。首先,在算法层面,基于同一视频不同帧的输入特征之间具有大量相似性这一观察,论文设计了一套稀疏算法发掘并且去除特征间的冗余计算;在数据流方面,本文通过将关键特征和稀疏的非关键特征沿时域维度拼接,将稀疏计算转化稠密张量计算,避免了设计硬件架构时为支持稀疏计算而引入的额外开销;在硬件架构方面,论文对传统的空间硬件架构的计算引擎进行修改使其支持数据流中需要的向量-标量运算,并建立专用硬件以较低的开销实时执行稀疏算法和拼接关键特征和非关键特征。从实验结果看,与CPU、GPU、以及两个先进的Transformer加速器相比,本文可取得高达81倍的性能收益。
论文3: 基于时空相似性的LLM大语言模型加速技术
第一作者:计算机系助理研究员宋卓然
通讯作者:计算机系教授梁晓峣
近年来,大语言模型取得了显著的效果,包括ChatGPT在内的多种应用应运而生,但将模型在端侧部署时模型的计算开销通常难以接受。为了提高模型性能,本文提出了一套基于时域-空域相似性的Attention加速框架。该框架观察到同批次输入的多句话之间可能存在较强的关联性,因此试图挖掘句子与句子之间的优化机会。本文通过在线+离线的预测机制,动态地识别模型运行过程中的重复计算,并通过复制-粘贴的轻量级恢复机制获得该词语的特征结果,从而在保证算法精度的前提下取得性能收益;另外该论文在架构层面以分块方法保证预测与模型执行的过程可以流水化起来,从而掩盖预测的开销。经过大量实验表明,与多个大语言模型专用加速器相比,本文可取得高达8.5倍的加速。
论文4:通过硬件友好的索引对编码加速深度神经网络
第一作者:计算机系助理研究员刘方鑫、博士研究生杨宁
通讯作者:计算机系副教授蒋力
深度神经网络推理消耗了大量的计算和存储资源,而数据量化是一种有效减少神经网络计算和内存开销的技术。然而,现有的量化方法大多依赖于固定长度的数据格式,使得需要更多位宽来维持模型的准确度,且异常值的存在使得现有的量化方法难以同时对激活(动态)和权重(静态)有效,尤其是在Transformer类模型种。相比之下,可变长度量化同时考虑了异常值需求的高精度和对正常值的低精度,提供了算法上的优势。但由于变长编码和解码引入了显著的硬件开销,实际收益无法难以达到理论收益。本文提出了一种算法/架构协同设计的解决方案,通过引入索引对量化,并以低硬件开销和高性能增益处理全局异常值。该方案的核心在于识别与重要值相关的数据特征,将它们编码为索引,并预先计算相应的结果,以便在查找表中存储。而在推理过程中,计算结果可以直接根据索引从表中检索,从而消除了此过程复杂的计算开销。此外,我们设计了一个统一的处理单元架构,使得它与可以现有神经网络加速器架构无缝集成。实验结果表明,本方案的加速器在模型精度近乎无损的同时,可以实现9.31倍加速和81.3%的能量减少。
论文5:耗能驱动的脉冲神经网络攻击框架
第一作者:计算机系助理研究员刘方鑫、博士研究生杨宁
通讯作者:计算机系副教授蒋力
脉冲神经网络(SNNs)作为传统人工神经网络的高能效替代方案正在崭露头角。SNN的事件驱动信息处理方案显著降低了计算需求,同时保持了竞争性能。 然而,随着SNNs在边缘设备上的部署越来越多,各种安全问题也逐渐浮现。虽然已经有如大量的研究工作致力于解决源自恶意输入的安全漏洞,但SNN参数的安全性仍亟待探索。本文观察到SNN实现中的能量消耗与脉冲活动密切相关,因此设计了一种针对SNNs的新型攻击方法,称为能量导向的SNN攻击框架,旨在通过恶意操纵存储了神经元信息的DRAM中的二进制位来增加其能耗。该框架采用了嵌入式攻击中主流的行锤攻击(Row Hammer)来翻转二进制位。为了减少被发觉的可能性,通过识别SNN中基于脉冲活动的最强大神经元,并尽可能减少比特翻转来实现此目标。进一步,该采用了脉冲活动分析和渐进搜索策略的组合来确定位翻转攻击的目标神经元,其主要目标是在确保准确性不受影响的情况下逐步增加SNN的能耗。经过实验,通过本文攻击框架的实施成功对SNNs的攻击可能导致平均能耗增加43%,而准确性不会受到影响。