清华软件定义芯片团队成果入选固态电路顶会ISSCC 2021

  • 时间: 2021-02-25 09:54:01

  允中 发自凹非寺

  量子位编辑公众号 QbitAI

  2021 年 2 月 13 日~22 日,第 68 届国际固态电路会议(ISSCC)通过线上模式顺利召开。清华大学魏少军、刘雷波教授团队作了题为“A 28nm 12.1TOPS/W Dual-Mode CNN Processor Using Effective-Weight-Based Convolution and Error-Compensation-Based Prediction”的学术报告。

  该报告介绍了一款量化卷积神经网络(CNN)加速芯片——QNAP,通过挖掘量化后 CNN 模型权值大量冗余的特征,提出一种能够显著减少冗余权值造成冗余乘操作的优化方法,降低了硬件功耗;同时,提出了一种减少 ReLU 激活函数造成冗余乘加操作的预测方法,显著提升了 CNN 硬件的运行性能;此外,针对广泛使用的残差结构,提出了一种专用的流水结构,减少了残差结构中大量的片外访存操作。基于 TSCM 28 nm 工艺,QNAP 仅消耗 1.9mm2 的面积便实现了高达 12.1 TOPS/W的能效,显著优于已有结果。

  报告人莫汇宇是论文第一作者(如图 1 所示),目前正在清华大学微电子所攻读博士学位。

  △ 图 1 莫汇宇同学报告论文的主要工作

  随着人工智能技术的发展,CNN 模型的计算量呈指数增长。但对于移动设备和物联网边缘端设备等计算资源受限的设备,CNN 模型巨大的计算量是难以接受的。

  为了应对这个挑战,学术界与工业界已开始着手 CNN 模型加速芯片的研究工作。当前,绝大多数 CNN 加速芯片是基于量化模型设计的,但量化后的模型会产生大量的重复权值(如图 2 所示),根据卷积计算的特性以及乘法结合律,将造成大量的冗余乘操作;此外,根据 ReLU 激活函数的特性,卷积结果为负数时(-∞与-0),激活值将为0,因此,如果只通过部分计算能精确预测出卷积结果值为负,则可以省略后续卷积计算操作,来达到提高整体卷积运算的性能。同时,残差结构,作为主流 CNN 模型中广泛采用的架构,由于其存在着跳层结构,会产生大量的高能耗片外访存操作(如图 2 所示)。

  △ 图 2 当前量化后 CNN 模型在硬件执行中存在的挑战

  针对上述难题,魏少军、刘雷波团队提出了基于有效权值卷积方法与误差补偿预测方法,并完成了芯片架构设计,能够同时减少量化后 CNN 模型的冗余计算与硬件资源开销。

  针对 CNN 模型量化后权值大量冗余的情况,提出权值分解方法,将有效权值进一步压缩至可控范围;并设计专有的处理单元,配合编码后的权值,可以在不损失精度前提下,大量减少冗余乘操作,提高了芯片整体能效(如图 3 所示);针对 ReLU 激活函数带来的冗余计算,提出基于误差补偿的方法,通过设置预测表来判断是否需要补偿激活值,从而减少精度损失,并提高模型执行性能(如图 4 所示)。

  针对残差结构中存在大量访存操作,提出逐层流水结构,每个时间段将所有硬件资源分配给某一层网络运算,得到其部分结果,并将此结果输送给下一层网络在下个时间段处理,通过分块迭代计算,从而避免大量的片外访存操作,同时提高硬件利用率(如图 5 所示)。

  基于 TSMC 28 nm 工艺,QNAP 内核面积为 1.9mm2,在电压为 0.6~0.9 V,对应工作频率为 100-470 MHz 条件下,功耗仅为 19.4-131.6 mW(如图 6 所示)。以 8 bit 量化的

  AlexNet/VGGNet/GoogLeNet/ResNet 作为基准网络,QNAP 在 470 MHz, 0.9V 条件下,实现了 12.1 TOPS/W的能效,为当前最优处理器平均性能的 3.56 倍。

  △ 图 3 基于有效权值的卷积操作

  △ 图 4 基于误差补偿的预测方法

  △ 图 5 逐层流水架构

  △ 图 6 QNAP 芯片及其硬件指标

  过去 10 余年,魏少军、刘雷波教授团队在软件定义芯片领域取得了多项技术突破,关键技术在一系列国家重大工程中得到批量应用,曾获国家技术发明奖二等奖、教育部技术发明奖一等奖、电子学会技术发明奖一等奖、中国发明专利金奖、世界互联网大会 15 项世界互联网领先科技成果等多项重要科技奖励。

  关于 ISSCC

  ISSCC(IEEE International Solid-State Circuits Conference,国际固态电路会议),是世界学术界和企业界公认的集成电路设计领域最高级别会议,被认为是集成电路设计领域的“奥林匹克大会”。世界上第一个 TTL 电路、世界上第一个 8 位微处理器、世界上第一个 1Gb 的 DRAM、世界上第一个 GHz 微处理器、世界上第一个多核处理器等众多集成电路历史上里程碑式的发明都在该会议上首次披露。自 1954 年以来,该会议已经成功举办 68 届。

  — 完 —