分享
基于FPGA的卷积神经网络优化压缩技术研究_吴梓宏.pdf
下载文档

ID:2367934

大小:355.05KB

页数:4页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 FPGA 卷积 神经网络 优化 压缩 技术研究 吴梓宏
,研究与设计微型电脑应用 年第 卷第期作者简介:吴梓宏(),男,硕士,研究方向为网络安全技术;梁兆楷(),男,本科,助理工程师,研究方向为数据库技术。文章编号:()基于 的卷积神经网络优化压缩技术研究吴梓宏,梁兆楷(广东电网有限责任公司广州供电局,广东,广州 )摘要:针对现有卷积神经网络()模型计算效率低、内存带宽浪费大等问题,提出了一种基于现场可编程门阵列()优化压缩策略。对预先训练好的 模型进行分层剪枝,采用基于新型的遗传算法进行信道剪枝,同时设计了两步逼近适应度函数,进一步提高了遗传过程的效率。此外,通过对剪枝 模型进行数据量化,使得卷积层和全连接层的权值根据各自的数据结构以完全不同的方式存储,从而减少了存储开销。实验结果表明,在输入 个训练图像进行压缩过程中,该方法所耗压缩时间仅为 。关键词:;卷积神经网络;遗传算法;网络剪枝;数据量化中图分类号:文献标志码:,(,):(),(),:;引言神经网络算法模型在许多人工智能应用中显示出显著的优势,也常用于处理数字图像信息的优化压缩问题。随着技术的不断发展,神经网络算法模型的性能正在迅速提高,但这种精度的提高首先是以更高的计算复杂度为代价,尽管图形处理单元()应用在神经网络方面表现出很强的并行计算性能,但过大的功耗限制了其应用潜力。早期有学者提出了一些神经网络算法模型的压缩方法,文献 研究了深度神经网络中最终加权层的低阶矩阵分解方法以进行声学建模。但是低秩分解方法计算成本高昂,并且需要大量的重新训练来达到收敛。文献 提出了 模型结构,用更小的卷积核代替较大的卷积核,通过减少参数数量进行模型压缩。该方法虽然减少了网络参数,但是卷积计算仍然采用浮点数卷积运算,计算复杂度并没有降低。针对上述问题,文献 公开了一种被称为 的深度学习模型,将卷积映射到矩阵乘法来加速二维和三维 优化压缩,以解决计算资源节约问题。尽管这些软硬件协同设计在加速深度学习方面显示出很大的优势,但对完全连接层与卷积层之间的联系分析还比较少,给算法优化留下了很大的空间。文献 采用了设定阈值来剪枝权值参数,通过结合 聚类和霍夫曼编码进一步压缩神经网络,达到网络稀疏化的目的。然而,该模型压缩算法使计算模式不规则,计算周期和内存带宽浪费巨大。硬件设计本研究在 上定制解码电路来恢复原始稀疏权矩阵,考虑到 对字节对齐数据特别友好,权值和索引按照 格式以位存储。此外,通过在剪枝过程中设置约束,分配给每个处理单元()的非零权重的总数大致相等,以确保 具有足够的并行性和负载平衡。另外,与 算法不同的是,在卷积层和非线性激活函数 之间设置了池层,减少了资源消耗,提高了 模型计算速度。,研究与设计微型电脑应用 年第 卷第期关于系统设计,本研究在 上的硬件实现,其中 表示处理器元件,系统的整体架构如图所示。图系统整体架构从图可以看出,整个硬件集成了四核 处理系统()和 可编程逻辑()。其中,拥有 制造技术和丰富的超级内存,可缓 解 芯片上存储器资源不足的缓冲和存储需求。外部存储器 存储压缩模型参数和输入图像。处理器实现了 与软件 之间指令和卷积结果的数据传输,实现了全连接层和 功能。由直接存储器存取()、控制器、输入缓冲区、输出缓冲区和硬件 组成。硬件 负责卷积层、池层和非线性函数。片内缓冲区包括输入缓冲区和输出缓冲区,为硬件 计算准备数据并存储结果。卷积神经网络压缩的关键技术 基于新型遗传算法的信道剪枝策略为了优化压缩 模型,本研究采用基于新型遗传算法的信道剪枝方法,其新颖点在于设计了两步逼近适应度函数,通过具体的遗传操作保证遗传算法的搜索效率。为了将卷积核编码成遗传算法中的染色体,采用长度等于卷积核中通道数的二进制序列表示。每个通道都用或编码,然后简单地修剪代码为的通道。在 的优化压缩过程中,初始种群是一组最简单的卷积核,是一个二进制级数,即,并且中的每一位服从伯努利分布:(),()式中,指伯努利分布随机变量的期望值,指信道数。将简单地设置为需要保留的信道的比例,有利于遗传算法的快速收敛。然后,采用适应度函数对初始种群中的每个个体进行评估,再根据个体的适应度选择更适合的个体进行遗传操作,从而在整个求解空间中找到恰当结构。基于新型遗传算法的信道剪枝策略二进制编码方法如图所示。图信道剪枝策略二进制编码方法图为卷积核编码的示例,对层卷积核进行了两个信道剪枝,同时删除了层特征映射和滤波器的相关信道,这不给原始网络带来稀疏性。本研究采用新型遗传算法求解,其主要作用在编码区域,算法流程如图所示。图新型的遗传算法程序流程首先,将遗传算法中第代的第个个体定义为,然后分配一个适应度。,被选择的概率是在第代所有个体的适应度和中所占的比例,即个体,的适应度越大,被选择的概率越高。然后,从,产生下一代的每个个体。在进化过程中,最优秀的个体有望得到保存。经过交叉和变异,产生一个新的个体。下一代的每一个个体都以同样的方式产生。其次,在选择操作之前,对遗传算法第代的每个个体分配一个适应度函数来确定其是否能够存活。适应度函数的选择与最终解的质量有很大的关系,一个良好分类性能的紧凑网络需要理想的适应度函数以降低计算复杂度。假设卷积滤波器表示为,是指从输入要素映射采样的体积,通过和产生一个维输出向量,引入适应度函数分层误差函数定义为()()式中,指在执行信道修剪后执行激活功能之前的输出,指遗传算法的总样本数。对于每个,其误差用式()计算,并将误差视为适合度。因此,遗传算法的目标是寻找能够使误差函数最小化的信道。然而,当训练集很大时,遍历每个个体的所有训练样本在计算上仍然是昂贵的。因此通过另一个适应度函数 阶泰勒展开近似式()得到:()()式中,、分别指阶泰勒目标函数和参数的扰动,指 矩阵,指高阶术语,预先训练的网络被认为是局部最小值,为了方便起见,高阶项可以忽略,因此式()可以进一步简化为 ()式()也可被视为参数的灵敏度。将基于遗传算法的信道剪枝转化为寻找一组低灵敏度信道并进行去除。其 ,研究与设计微型电脑应用 年第 卷第期过程如图所示。图 逐层剪枝示意图由图可知,逐层剪枝是通过去除 中冗余的参数和结构来降低 的计算量,可分为非结构化剪枝和结构化剪枝。非结构化剪枝将 中每个独立的连接看作一个可裁剪的对象,可实现很高的裁剪率,但是其剪枝结果必须存储为稀疏矩阵。结构化剪枝关注于相对完整的网络结构裁剪,比如某一特征通道或者整个卷积核。网络剪枝是剪枝低权重连接,删除低于一定阈值的所有连接,对网络的结果贡献很小。逐层剪枝就是将每层的算力降低,将没用的参数删除,以提高数据计算的精度。此外,本研究还提出了峰值剪枝策略,新颖之处在于,峰值剪枝意味着将权重从最大的参数逐层剪枝到最小的参数。与卷积层相比,完全连接层的参数化程度更高,并且具有更积极的剪枝。该过程网络剪枝是逐层迭代进行的,在剪枝和重新训练 的一层以达到原始的精度之后,下一层将被剪枝和重新训练,直到所有的层都被完全剪枝。将上述新型的遗传算法过程用于单层 剪枝,如算法所示。算法单层修剪的新型遗传算法初始化:令;生成初始种群,;初始化交叉概率、变异概率、种群个体数和最大迭代次数。输入:待剪枝层的 矩阵和参数、压缩率和训练集;.输出:一组二进制序列,其编码具有最高适应度的所需卷 积 核结构。评估:计算第代每个个体的适应度,选择:通过轮盘算法从,到,选择具有高适应度的个体;交叉:随机选择两个个体 ,以概率进行交叉操作;变异:随机选择一个非交叉个体 ,然后以概率进行变异操作;升级;数据量化为了进一步优 化 压 缩 网 络,本 研 究 通 过对 剪 枝 模型进行数据量化,以降低精度,量化后,卷积层和全连接层的权值根据各自的数据结构以完全不同的方式存储,从而减少了存储开销。关于线性最大量化策略如图所示。在剪枝 中,每层的最大量化是对剪枝后的 中每层的权重范围进行排序,然后以最大绝对值作为阈值,并将范围直接映射到整数尺度。对剪枝 模型进行数据量化的优点在于:当正负分布不均匀时,存在一部分空缺,但这种方法最大化了原始信息;另一个优点在于其在剪枝的基础上引入了更多的和值,使得剪枝后的 更加稀疏。图线性最大量化策略对于 网络卷积层,输入的是几个二维特征图的组合。经过剪枝和量化,这些二维特征映射被转换成一系列量化的稀疏矩阵。然后存储量化的非零权重及其索引。常用的稀疏矩阵存储格式包括:坐标()、压缩稀疏行()和压缩稀疏列()。和 格式需要三个数组,总共是个数字。其中,是 网络卷积层非零元素的数量,是 网络卷积层行或列的数量。与 和 相比,格式需要三个数组和个数,而不需要额外的计算来恢复原始稀疏矩阵。考虑到一般卷积核的大小为 、和,本研究提出了压缩坐标()格式,其需要两个数组,共个数字。一个数组用于非零值,另一个数组用于由高位行索引和低位列索引组成的位索引。表显示了不同稀疏矩阵存储格式的详细比较。表不同稀疏矩阵存储格式的比较储格式数组数值 非零值;行索引;列索引 非零值;行索引;列偏移 非零值;行偏移;列索引 非零值;行索引列索引对于完全连接的层,输入只是一个特征向量。经过剪枝和量化后,将特征向量转化为稀疏向量。因此,本研究提出了一种直接存储这些稀疏向量的方法,总共存储两个数组个数。其中,是非零元素的个数。相对索引表示当前非零权重和前一个非零权重之间的零数。当相对索引大于界限时,我们插入一个零值,如图所示。图全连接层的稀疏矩阵存储格式在图中需要注意的是,当原始稀疏向量的最后一个值为零时,会在权重数组中插入一个额外的零值。实验与分析为了验证本研究基于 的卷积神经网络优化压缩方法的性能可靠性,在本节中,使用流行的 网络、模型与本研究方法在设定实验环境进行优化压缩性 ,研究与设计微型电脑应用 年第 卷第期能对比实验,关于后天计算机的实验环境如表所示。表实验硬件环境设定项目介绍内存 处理器酷睿 主频 编程语言仿真实现软件 关于实验数据集,本研究采用 ,其包含 个训练图像和 个测试图像,包含了 种不同种类图像,每幅图像的分辨率为 。为了验证本研究方法的有效性,在设定实验环境中,采用本文算法与 网络、模型在 数据集上进行研究图像压缩与解码计算效率性能对比测试,所需时间数据统计如表、表所示。根据数据应用在 软件上得到如图、图所示。表不同网络模型的压缩时间训练图像压缩时间本文方法 表不同网络模型的解码时间训练图像解码时间本文方法 图不同网络模型的压缩时间图不同网络模型的解码时间对比本文优化压缩方法实验结果与 网络、模型中两种网络算法的实验结果可以分析得到,本文优化压缩方法对研究对象实施压缩与解码所需时间显著降低。由此可知,本文算法能够在有效压缩实验对象的基础上,具有显著的效率优势,达到本文算法优化压缩的目的。总结本研究的两个主要贡献如下。()本研究提出了一种基于新型遗传算法的信道选择策略,设计了两步逼近适应度函数,通过具体的遗传操作保证遗传算法的搜索效率。()通过对剪枝 模型进行数据量化,以降低精度,量化后,卷积层和全连接层的权值根据各自的数据结构以完全不同的方式存储,从而减少了存储开销,提高了计算效率。通过实验在 数据集上用两种流行优化压缩的 模型 和 与本文方法进行对比,实验结果证明了本研究基于 的卷积神经网络优化压缩方法的有效性与适用性。参考文献周晓波,何魁华,周聪基于 的图像高速去雾实时系统设计实现电视技术,():贾瑞明,刘圣杰,李锦涛,等基于编解码双路卷积神经网络的视觉自定位方法北京航空航天大学学报,():孟凡轶,张会新,刘畅,等基于嵌入式的高帧频图像压缩处 理 装 置 的 设 计 电 子 器 件,():高俊岭,陈志飞,章佩佩基于 的实时视频图像采集处理系统设计电子技术应用,():秦东辉,周辉,赵雄波,等 基于卷积神经网络图像识别算法 的 加 速 实 现 方 法 航 天 控 制,():张秀,周巍,段哲民,等基于卷积稀疏自编码的图像超分辨 率 重 建 红 外 与 激 光 工 程,():,():,():韩宇,袁素春,张建华,等高分七号卫星图像压缩 设 计 与 实 现 技 术航天器工程,():(收稿日期:)

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开