基于
注意力
最小
可觉差
GAN
生成
图像
质量
评价
海涛
D O I:1 0.3 9 6 9/j.i s s n.1 0 0 1-5 3 3 7.2 0 2 3.3.0 4 6*收稿日期:2 0 2 2-1 1-3 0基金项目:山东省自然科学基金(Z R 2 0 2 0 MF 1 0 5).第一作者:姜海涛,男,1 9 7 8-,硕士,讲师;研究方向:机器学习、数据处理;E-m a i l:q f j h t 1 2 6.c o m.通信作者:石珂,女,1 9 9 7-,硕士,工程师;研究方向:计算机视觉、机器学习;E-m a i l:8 3 6 8 5 1 9 4 3q q.c o m.基于注意力和最小可觉差的G A N生成图像质量评价姜海涛,石 珂,齐苏敏(曲阜师范大学网络信息中心,2 7 3 1 6 5,曲阜市;历下区1 2 3 4 5市民服务热线运行中心,2 5 0 0 0 0,济南市;曲阜师范大学网络空间安全学院,2 7 3 1 6 5,山东省曲阜市)摘要:现有的客观图像质量评价方法用于G A N生成图像质量评价时,往往出现与人的主观评价不一致的情况.针对这个问题,提出了一种更符合人类视觉感知的G A N生成图像质量客观评价方法A J-G I Q A(a t t e n t i o na n d j u s t n o t i c e a b l e d i f f e r e n c eb a s e dg e n e r a t e d i m a g e q u a l i t y a s s e s s m e n t).首先,模拟人类视觉系统的失真敏感度特性,对G AN生成图像进行预处理,得到其最小可觉差图;然后,将注意力模块引入特征提取网络,模拟人类视觉系统的注意力机制,获取图像的显著性特征;最后,将图像特征输入结合语义信息的质量预测网络,基于图像内容综合评价G AN生成图像的质量.在G AN生成图像数据集上的实验结果表明,A J-G I QA的评价结果与主观平均意见得分有更高的一致性;在图像质量排序一致性上的实验结果表明,A J-G I QA的准确率在L G I QA-L S UN-c a t数据集上达到了最优,和S F A方法相比性能提高了0.2 6 7;在泛化性能上的实验结果表明,与最先进的H y p e r I QA方法相比,A J-G I QA在数据集P I P A L的P e a r s o n线性相关系数提高了0.0 2 7.关键词:G AN生成图像质量评价;生成对抗网络;注意力机制;最小可觉差中图分类号:T P 3 9 1 文献标识码:A 文章编号:1 0 0 1-5 3 3 7(2 0 2 3)0 3-0 0 4 6-0 80 引 言自2 0 1 4年G o o d f e l l o w等提出生成式对抗网络(g e n e r a t i v ea d v e r s a r i a ln e t w o r k s,GAN)1以 来,GAN在理论和应用两个方面不断发展,已经成功应用在图像生成、图像修复、图像增强和自然语言处理等领域.目前,GAN已经成为图像合成领域最受欢迎的模型之一,GAN不仅可以按照给定的图像信息生成特定图像2,也可以根据文本描述生成一张与描述语义相似的图像3.GAN生成图像质量评价(g e n e r a t e di m a g eq u a l i t ya s s e s s m e n t,G I QA)4即对GAN模型生成图像的真实性进行评价,判断生成图像是否足够以假乱真、是否对信息接收者的主观感受、信息采集造成影响.目前GAN领域的研究热点仍聚焦于构造新模型,对GAN模型生成图像进行评价的研究较少且缺乏统一的评价标准.已提出的基于卷积神经网络的面向人类视觉感知的图像质量评价方法均针对传统图像失真类型,如噪声失真、压缩失真等,在GAN生成图像质量评价领域适用性不高,且现有的GAN生成图像质量评价方法与人类视觉感知的紧密度不高.针对以上问题,本文结合人类视觉感知特性提出一种基于注意力和最小可觉差的GAN生成图像质量评价方法A J-G I QA.首先提取图像的最小可觉差图,借助最小可觉差图像模拟人眼失真敏感特性;然后在残差网络5的基础上添加注意力模块,以模拟人眼的注意力机制,对GAN生成图像进行符合视觉注意特性的特征提取,实现显著区域特征的增强和无关特征的抑制,有效提高网络表达能力;最后,将获得的图像特征信息输入结合语义信息的质量预测网络,从而实现符合人眼感知特性的质量评价.在GAN生成图像数据集和传统图像数据集上,将本文提出的A J-G I QA方法与其他面向人类视觉感知的评价方法进行对比,结果表明,A J-G I QA的 第4 9卷 第3期2 0 2 3年7月 曲阜师范大学学报J o u r n a l o f Q u f u N o r m a l U n i v e r s i t y V o l.4 9 N o.3J u l y2 0 2 3 评价结果与人类主观质量评价结果的一致性更高.1 GAN生成图像质量评价模型A J-G I QAGAN生成图像质量评价模型A J-G I QA可分为3个部分:图像预处理模块、特征提取网络和质量预测网络,模型结构如图1所示.其中,图像预处理模块用于获取表达人类视觉系统的失真敏感度特性、视觉掩蔽效应的最小可觉差图像;特征提取网络用于捕获图像特征,该部分以深度残差网络R e s-N e t 5 0为基础,增加了注意力模块,可以更充分地获取图像信息;质量预测网络用于获得图像质量分数,该网络以全连接层为基础,引入感知图像整体内容的语义信息分支,可以模拟人类主观评价过程,提高评价结果的合理性.图1 A J-G I QA模型结构图1.1 图像预处理图像预处理模块用于获取最小可觉差(j u s tn o-t i c e a b l ed i f f e r e n c e,J N D)图像.最小可觉差与人类视觉系统的亮度感知特性、对比度掩盖效应及视觉掩蔽效应密切相关.利用最小可觉差模型,可以获取更符合人眼特性的图像特征,从而提高客观图像质量评价结果与人类主观评分的一致性.本文使用Wu等提出的最小可觉差模型6对原始图像进行预处理,获取其最小可觉差图.图像最小可觉差的阈值计算公式为TJ N D(x)=LA(x)+MS(x)-Cm i nLA(x),MS(x),(1)其中,LA代表亮度自适应,MS代表结合对比度掩蔽和模式掩蔽的空间掩蔽,C代表重叠引起的增益减小参数,TJ N D代表最小可觉差阈值.图2展示了4幅图像及其对应的J N D图,其中左上方为原始图像及其J N D图,右上方为GAN生成图像及其J N D图,左下方为引入噪声的失真图像及其J N D图,右下方为模糊失真图像及其J N D图.通过观察图2可以发现,不同失真类型图像对应的J N D图像各不相同.GAN生成图像的J N D图像不仅与传统失真图像的J N D图像相去甚远,而且与原始图像所对应的J N D图像同样存在差异.实验结果表明,最小可觉差图能够对人类视觉系统的失真敏感度特性进行充分表达,获得结果与人类主观感知效果一致.图2 不同图像及其J N D图1.2 特征提取网络特征提取网络以残差网络R e s N e t 5 0为基础,增加注意力模块,实现符合人眼注意力感知特性的图像特征提取.将注意力机制引入图像质量评价模型,可以增强关键特征信息,抑制不相关特征信息,获取更符合人类视觉感知的评价结果.如下页图3所示,注意力模块由A 1、A 2、A 3三个分支组成,输入特征图FRCHW,输出 注意力特征 图F RCHW.获取F 的具体过程如下.74第3期 姜海涛,等:基于注意力和最小可觉差的GAN生成图像质量评价 图3 注意力模块 A 1分支仅实现图像特征信息备份,用于最终与注意力权重系数结合获取特征图F;A 2分支对特征图F进行11卷积操作得到特征信息F1;A 3分支对特征图F进行11卷积操作得到图像特征信息F2.将特征信息F1与F2进行元素相加后,经过R e L u激活,得到融合特征F1 2=m a x0,WTf1F+WTf2F+b1().(2)F1 2经过一个11卷积和S i g m o i d激活函数,得到图像注意力权重系数矩阵F1 2=11+e x p-WTf3F1 2()+b2(),(3)其中,WTf1、WTf2、WTf3代表各卷积操作,b1、b2为对应卷积的偏置参数.权重系数F1 2与A 1分支的原始图像特征F进行乘法加权操作,得到注意力特征图F.F 实现了重要信息的突出和不相关信息的抑制.A J-G I QA的特征提取网络删除了R e s N e t 5 0的最后两层:平均池化层与全连接层,具体结构如图4所示.在提取图像特征的过程中,对网络后4层输出信息,即C o n v 2_x、C o n v 3_x、C o n v 4_x和C o n v 5_x的输出进行特征融合操作,实现图像的多尺度特征提取.在C o n v 1和C o n v 2_x之间嵌入了注意力模块.C o n v 1的输出特征作为注意力模块的输入特征图F,注意力模块的输出特征图F 作为C o n v 2_x的输入特征.图4 特征提取网络结构1.3 质量预测网络质量预测网络将特征提取网络获取的图像融合特征映射到图像质量分数.大多数端到端的客观图像质量评价模型均使用全连接层实现这种映射.因此,A J-G I QA模型的质量预测网络由4个全连接层组成.在此基础上,增加语义信息分支,按图像内容信息生成质量预测网络所需参数,使预测结果符合图像内容,从而提高预测结果和人类主观评价结果的一致性.质量预测网络结构如图5所示.图5 质量预测网络结构图84 曲阜师范大学学报(自然科学版)2 0 2 3年 人类进行图像质量评价时,会对图像整体内容进行把握,参考图像整体信息给出图像质量分数.尽管这种信息识别活动是非刻意行为,但却是主观图像质量评价过程中不可避免的.因此,本文利用图像语义信息模拟人类对图像内容的整体感知,通过语义信息分支对图像语义信息进行分析,并将分析结果传至质量预测网络,助力质量评价过程.语义信息分支结构如图5中虚线框内容所示,其作用是为质量预测网络的全连接层提供参数信息,具体流程如下.首先,获 取 特 征 提 取 网 络 最 后 一 层C o n v 5_x的输出数据;然后,将特征数据通过3个1 1的卷积层进一步获取图像语义信息,并实现维数的调整;最终,将调整好的图像语义信息送入B 1、B 2两个分支,输入B 1分支的数据通过33卷积和R e-s h a p e操作获取与质量预测网络全连接层对应的权重参数;输入B 2分支的数据通过自适应平均池化和全连接层获取质量预测网络所需的偏置参数.在模型训练过程中,语义信息分支内的参数将不断被调整.由于质量预测网络中的4个全连接层的结点数不同,所以需要定义4个结构相似的语义信息分支,用每个语义信息分支的输出替代全连接层原有的参数.与固定参数信息或随机初始化参数信息的图像质量评价网络相比,通过图像语义信息获取的权重参数和偏置参数能够模拟人眼的注意力机制,提高质量评价结果与人类主观评价的一致性.1.4 损失函数设计目前,基于深度学习的图像质量评价方法大都选择L1损失或L2损失作为目标损失函数,L1=1NNi=1xi-f(xi),(4)L2=1NNi=1(xi-f(xi)2,(5)其中,xi代表人类主观质量评价分数,f(xi)代表质量评价网络的预测结果.若模型仅利用L1损失或L2损失进行训练,则可能会出现模型质量混淆问题,即出现这样一个现象:用多个不同的图像质量评价方法预测同一组图像时,可能会得到相同的损失(l o s s)值,导致模型性能难以判断.因此,在A J-G I Q A模型的损失函数中引入图像相对评价机制,在对模型进行训练时,不仅考虑预测分数 与 主 观 平 均 意 见 得 分(m e a no p i n i o ns c o r e s,MO S)值的差别,还考虑这组训练图像相对质量的排序结果.