用于
图像
识别
能效
脉冲
神经网络
加速器
设计
第5 7卷 第1期2 0 2 3年1月西 安 交 通 大 学 学 报J OUR NA LO FX IANJ I AO T ON GUN I V E R S I T YV o l.5 7 N o.1J a n.2 0 2 3.*用于图像识别的高能效脉冲神经网络加速器设计张剑1,刘佳2,万贤杰2,俞宙2,韩传余1,张国和1(1.西安交通大学电子与信息学部,7 1 0 0 4 9,西安;2.中国电子科技集团第二十四研究所,4 0 0 0 6 0,重庆)摘要:针对基于通用处理器解决方案在图像识别应用中速度慢、功耗高的问题,提出了一种高能效的脉冲神经网络加速器设计方案。首先,采用神经形态学计算中的高并行设计思想,设计了多核并行结构来实现硬件加速;然后,根据脉冲数据传输稀疏性的特点,采用基于事件驱动的数据传输与处理方式,设计了一对一的核间传输机制,减小了用于通信的硬件资源并提高了数据传输效率;其次,提出了按行的数据存放方式来加快膜电压数据在存储器的存取效率;最后,设计了结合查找表与异或的电路结构,可以快速的将事件向量转变为地址事件表达(A E R)格式。采用所提加速器设计方案在现场可编程逻辑门阵列(F P G A)开发板上进行优化和部署。实验结果表明:当时钟频率采用1 0 0MH z时,识别单张手写数字图像所需能量为1.0 4m J,仅为2.2GH z通用中央处理器(C P U)上的串行软件程序的1/1 4 5 3.8。该加速器设计方案适用于实时性要求高和能量受限的实际场景。关键词:图像识别;脉冲神经网络;加速器;并行结构中图分类号:TM 3 0 1 文献标志码:AD O I:1 0.7 6 5 2/x j t u x b 2 0 2 3 0 1 0 2 0 文章编号:0 2 5 3-9 8 7 X(2 0 2 3)0 1-0 2 1 1-1 0D e s i g no fH i g hE n e r g yE f f i c i e n tS p i k i n gN e u r a lN e t w o r kA c c e l e r a t o rf o r I m a g eR e c o g n i t i o nZ HANGJ i a n1,L I UJ i a2,WANX i a n j i e2,YUZ h o u2,HANC h u a n y u1,Z HANGG u o h e1(1.F a c u l t yo fE l e c t r o n i ca n dI n f o r m a t i o nE n g i n e e r i n g,X ia nJ i a o t o n gU n i v e r s i t y,X ia n7 1 0 0 4 9,C h i n a;2.N o.2 4I n s t i t u t e,C h i n aE l e c t r o n i c sT e c h n o l o g yG r o u pC o r p o r a t i o n,C h o n g q i n g4 0 0 0 6 0,C h i n a;)A b s t r a c t:Ah i g he n e r g ye f f i c i e n c ys p i k i n gn e u r a l n e t w o r k(S NN)a c c e l e r a t o r i sp r o p o s e d t o s o l v et h ep r o b l e m so f l o w-s p e e da n dh i g h-p o w e r c o n s u m p t i o n i n i m a g e r e c o g n i t i o na p p l i c a t i o nb a s e do nt h eg e n e r a l p r o c e s s o r.F i r s t l y,am u l t i-c o r ep a r a l l e l s t r u c t u r e i sd e s i g n e df o rh a r d w a r ea c c e l e r a-t i o nb ya d o p t i n g t h e c o n c e p t o f h i g hp a r a l l e l d e s i g n i nn e u r o m o r p h i c c o m p u t a t i o n.S e c o n d l y,c o n-s i d e r i n gt h e s p a r s i t yo f s p i k ed a t a t r a n s m i s s i o n,t h eo n e-t o-o n e i n t e r-c o r e t r a n s m i s s i o nm e c h a n i s mi sd e s i g n e db a s e do ne v e n t-d r i v e nd a t at r a n s m i s s i o na n dp r o c e s s i n g,w h i c hr e d u c e st h eh a r d w a r er e s o u r c e su s e df o rc o mm u n i c a t i o na n d i m p r o v e s t h ed a t a t r a n s m i s s i o ne f f i c i e n c y.T h i r d l y,ad a t aa r r a n g e m e n ts c h e m e i sp r o p o s e d t os p e e du p t h e a c c e s s e f f i c i e n c yo fm e m b r a n e i nm e m o r y.F i n a l-l y,ac i r c u i t s t r u c t u r ec o m b i n i n g l o o k u p sa n dX O Ri sd e s i g n e d,w h i c hc a nq u i c k l yt r a n s f o r mt h ee v e n tv e c t o r s i n t oa d d r e s s-e v e n t-r e p r e s e n t(A E R)f o r m a t.T h ep r o p o s e dd e s i g ni so p t i m i z e da n di m p l e m e n t e do n t h e f i e l dp r o g r a mm a b l e l o g i cg a t e a r r a y(F P GA)d e v e l o p m e n t b o a r d.T h e e x p e r i-*收稿日期:2 0 2 2-0 7-2 9。作者简介:张剑(1 9 8 9),男,博士生;张国和(通信作者),男,教授,博士生导师。基金项目:国家自然科学基金资助项目(6 2 1 7 4 1 3 0);国防基础加强项目(2 0 1 9-J C J Q-J J-5 6 6)。网络出版时间:2 0 2 2-0 9-0 6 网络出版地址:h t t p s:/k n s.c n k i.n e t/k c m s/d e t a i l/6 1.1 0 6 9.T.2 0 2 2 0 9 0 5.1 4 2 9.0 0 8.h t m l西 安 交 通 大 学 学 报第5 7卷 h t t p:z k x b.x j t u.e d u.c n m e n t a l r e s u l t ss h o wt h a tw h e n t h e c l o c k f r e q u e n c y i s 1 0 0MH z,t h e e n e r g y r e q u i r e d t o r e c o g n i z e ah a n d w r i t t e nd i g i t a l i m a g e i s1.0 4m J,w h i c h i so n l y1/14 5 3.8o f t h es e r i a l s o f t w a r ep r o g r a mo nt h e2.2GH zu n i v e r s a l c e n t r a l p r o c e s s i n gu n i t(C P U).T h ep r o p o s e da c c e l e r a t o rd e s i g ns c h e m e i ss u i t a b l e f o r t h er e a l s c e n a r i o sw i t hh i g hr e a l-t i m er e q u i r e m e n t sa n d l i m i t e de n e r g y.K e y w o r d s:i m a g er e c o g n i t i o n;s p i k i n gn e u r a ln e t w o r k;a c c e l e r a t o r;p a r a l l e l a r c h i t e c t u r e 随着万物互联的快速发展,在近数据端移动设备上进行高能效的数据分析可以解决数据传输至云端导致的高延时、高传输带宽和低安全性等问题。最流行的深度学习具有较大的计算量和高能耗的缺点,使其不能有效部署至边缘设备上1。因此,高能效的类脑智能计算逐渐受到众多学者的关注,对其的研究不仅可以解决实际问题,比如图像识别2和故障检测3等,还可以以另一种方式来侧面了解生物学大脑。脉冲神经网络(S NN)作为生物学启发的类脑神经网络4,通过模拟大脑神经元和采用生物神经元之间的信息传输方式,具有高能效和硬件友好的优点5。尽管脉冲神经网络的应用比如对图像传感器采集的图像进行识别可以在基于冯诺依曼结构的软件模型中实施,但是软件仿真普遍以串行的方式进行处理,处理速度慢导致不能完成数据的实时分析,并且通用处理器具有体积大、能耗高等缺陷,限制了其在能耗和空间体积受限环境中的使用。为了获得实时低能耗的图像识别解决方案,有必要设计专用的硬件电路来替代基于通用处理器的软件仿真。脉冲神经网络的专用硬件电路设计通常分为模拟电路和数字电路两种实现方式。悉尼大学的S c h a i k和瑞士苏黎世大学的M i t r a分别设计了模拟电路6-7来实现类生物学神经元功能,但是模拟电路具有对电压温度等环境敏感的缺点,针对不同的应用条件需要对参数进行调整。数字电路由于对工艺节点不敏感等原因,更适合大规模的设计集成。数字电路的实现平台包括高灵活性的现场可编程逻辑门 阵 列(F P GA)和 高 性 能 的 专 用 集 成 电 路(A S I C)。I BM公 司 的T r u e N o r t h芯 片8是 基 于A S I C的脉冲神经网络加速器,支持上百万个神经元并行工作。浙江大学的“达尔文”芯片9是一款支持可配置的神经形态学协处理器,专为资源受限的嵌入式应用所设计。曼彻斯特大学的S p i NN a k e r芯片1 0利用A RM核来实现脉冲神经网络的可编程性,支持高并行和高配置性的神经元处理。清华大学团 队 开 发 研 制 的“天 机 芯”1 1支 持S NN和ANN的混合芯片结构,并在自行车上成功进行了无人驾驶的试验。斯坦福大学的设计的N e u r o G r i d芯片1 2,只需要5W的能量即可模拟上百万的神经元实现对哺乳动物大脑皮层工作机制的研究。上述设计优