近日,电子设计自动化领域顶会DAC 2022放榜,上海交通大学电子信息与电气工程学院计算机系师生表现卓越,共有7篇高质量论文获得接收,体现了电院计算机系在芯片电子设计自动化领域的研究正在结出丰硕果实。
DAC(国际设计自动化会议,Design Automation Conference)是电子设计自动化领域的CCF-A类会议,专注于相关领域的最新方法和技术。会议接收的论文涵盖了电子设计自动化、嵌入式系统及软件、AI系统及架构、存内计算等主题,受到全世界相关领域研究者的广泛关注。该会议近年的论文接收率在20%左右,具有很高的含金量。
下面对录用论文的研究内容和方法进行简单的介绍:
论文1: SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention Mechanisms for Long Sequences
作者: 沈贯、赵杰茹、陈全、冷静文、李超、过敏意
工作简介:基于Transformer的深度神经网络模型如今被广泛应用在各个领域的任务中,取得了优异的结果。Transformer中的自注意力机制在序列的特征提取中起到了关键的作用。然而,自注意力机制的复杂度与序列的长度成平方关系,在长序列任务下将对处理器的计算能力和内存构成巨大的挑战。文章对现在被广泛应用的稀疏自注意力机制进行了总结,归纳了三种基本的稀疏自注意力机制:滑动窗口注意力,空洞窗口注意力,全局注意力。文章提出了名为SALO的空间加速器架构,支持了这三种注意力机制以及它们的组合。SALO的设计基于脉动阵列,改进其计算单元间的互联方式,并提出了数据分割和数据重排技术,对三种注意力机制的计算实现了灵活的支持,在长序列任务中的能效比取得了显著的提高。
论文2: E2SR: An End-to-End Video CODEC Assisted System for Super Resolution Acceleration
作者: 宋卓然、于钟凯、景乃锋、梁晓峣
工作简介:为了获得更好的观看体验,高分辨率视频已经成为一种流行的选择。最近的研究表明,视频超分辨率算法可以通过对每个低分辨率帧应用深度神经网络来提供优质的高分辨率视频。显然,这种逐帧神经网络的处理模式是计算密集型的,阻碍了算法的实时部署。尽管出现了不少神经网络加速器相关的解决方案,但它们仅关注移动端的性能优化。不同的是,我们注意到高分辨率视频最初存储在云服务器中,可以用于获取高清画质与性能提升。基于这一观察,本文提出了一个端到端的耦合视频编解码器的加速框架,它将云服务器和移动设备端紧密结合起来,以提供流畅的、实时的视频观看体验,为“元宇宙”打开了一扇小窗。
论文3: EBSP: Evolving Bit Sparsity Patterns for Hardware-Friendly Inference of Quantized Deep Neural Networks
作者:刘方鑫、赵文博、汪宗武、唐启栋、陈勇彪、何哲陟、景乃峰、梁晓峣、蒋力
工作简介:为了弥合计算平台所能够提供的计算效率与神经网络所需要的计算量之间的差距,模型压缩被广泛研究以支持边缘计算平台上的神经网络推理。尽管模型压缩取得了重大进展,但现有的方法仍然面临的三个挑战:1)利用超低精度提高模型压缩率的网络量化,会导致显著的准确度下降;2)为了保证模型准确度和压缩率,压缩方法在电路或架构设计中引入辅助开销,这对硬件实现不友好;3) 大多数压缩方法都是单一的应用或简单的串联使用,缺乏一个系统的方法将他们整合在一起。为了克服上述挑战,文章从比特级稀疏性的角度重新审视量化过程,通过考虑模型参数中的比特分布,引入了比特稀疏范式,以在量化网络中构建固有规则的比特分布实现极简乘法器的设计。
论文4:SATO: Spiking Neural Network Acceleration via Temporal-Oriented Dataflow and Architecture
作者:刘方鑫、赵文博、汪宗武、陈勇彪、杨涛、何哲陟、杨小康、蒋力
工作简介:脉冲神经网络(SNN)通过事件驱动的模型来模拟生物神经元,以最小能耗提供高准确度的预测。脉冲神经元是SNN中主要的计算和存储单元,通过1)接收脉冲信号,2)积累神经元的膜电压,3)在膜电压超过阈值电压时激发脉冲信号,实现计算的过程。然而,在同步执行机制下,现有的SNN加速器必须按照时间先后顺序串行进行这种“累加比较”操作,使得SNN的实际收益大打折扣。文章通过解耦神经元计算过程中对时间的依赖,以克服多个时间步长的计算瓶颈,通过设计了一个时间并行的数据流架构,并行累积神经元在各个时间步长接收到的脉冲信号,快速锁定激发输出脉冲的时间步长。同事,解决了SNN固有的高度稀疏特性导致处理单元(PEs)之间工作负载不均衡的问题。
论文5:PIM-DH: ReRAM-based Processing-in-Memory Architecture for Deep Hashing Acceleration
作者:刘方鑫、赵文博、陈勇彪、汪宗武、何哲陟、杨睿、唐启栋、杨涛、卓成、蒋力
工作简介:大规模图像检索因在推荐系统、搜索引擎等场景中的广泛应用而引起了越来越多的关注。深度哈希方法因其准确度高和泛化性,被广泛用于海量数据的搜索。然而,深度哈希是计算和存储密集型的方法。主要的性能瓶颈来自于特征提取阶段点积计算、检索阶段的搜索以及DRAM和PE之间的数据移动。文章发现存算一体架构(PIM)因高并行计算能力和无需数据搬移的特性,具备显著的潜力加速深度哈希方法。然而,将PIM架构扩展到图像检索领域并非易事。其主要障碍是PIM只能进行两个序列之间的匹配,缺乏支持哈希计算的原语,导致PIM架构中哈希计算的效率受哈希序列长度和搜索机制的限制。为此,文章创新了一种基于 ReRAM的“存算搜”一体方案,以加速深度哈希算法。
论文6:Hierarchical Memory-Constrained Operator Scheduling of Neural Architecture Search Networks
作者:王梓涵、万成城、陈雨亭、林子熠、江贺、乔磊
工作简介:神经架构搜索(NAS)在业界广泛用于搜索满足任务要求的神经网络,然而许多NAS生成的网络在结构上具有一定复杂性,这使得其计算图具有大量的可能调度。对于不同的调度,其内存占用峰值差异较大。为了将这些网络部署到内存受限设备上,需要对其进行内存受限的调度。受NAS网络多层次结构的启发,本文提出了HMCOS——首个对NAS网络进行分层的内存受限调度的方法。给定一网络,HMCOS构建一张分层计算图,并对计算图中的算子进行迭代式的调度。在实验中,本文将HMCOS与主流深度学习框架、编译器中常见的调度方法RPO,以及现有的内存受限调度方法Serenity进行对比。结果表明,HMCOS比现有方法支持更多NAS网络,降低8.7~42.4%的内存占用峰值,并取得了137~283倍的调度速度提升。
论文7:VirTee: A Full Backward-Compatible TEE with Native Live Migration and Secure I/O
作者:王健强、 Pouya Mahmoody、Ferdinand Brasser、Patric Jauernig、喻东徽、潘达汉、张媛媛、Ahmad-Reza Sadeghi
工作简介:VirTEE通过在enclave中添加一个Enclave Monitor从而实现了全软件栈的完全兼容性。Enclave Monitor负责虚拟机物理的物理地址映射,虚拟I/O等操作,它们对于虚拟机都是透明的,虚拟机内核无需做任何修改。Enclave Monitor还提供平台之间的虚拟机热迁移,由于Enclave Monitor同样位于虚拟机enclave中,并且维护了虚拟机的I/O状态,因此我们直接Enclave Monitor中实现了迁移功能并向虚拟机提供接口。由于Enclave Monitor提供了对硬件的虚拟化,因此我们直接在Enclave Monitor中实现了透明的I/O数据安全,比如分页内存必须在加密后才会被写入硬盘。工作组基于RISC-V开发板实现了一个VirTEE原型,并进行了有效性和性能方面的评估。在实验中,VirTEE的性能开销和同样是虚拟机框架的AMD SEV相接近。类似的工作,如AMD SEV,并没有提供热迁移以及安全的I/O。
来源丨计算机系
文稿丨宋卓然、蒋力、陈雨亭、赵杰茹、张媛媛