分享
基于视觉感知的平面设计背景图像裁剪_姚锦.pdf
下载文档

ID:2254691

大小:1.54MB

页数:8页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 视觉 感知 平面设计 背景 图像 裁剪 姚锦
小 型 微 型 计 算 机 系 统 :年 月 第 期 收稿日期:收修改稿日期:基金项目:国家自然科学基金项目()资助;浙江省健康智慧厨房系统集成重点实验室项目()资助 作者简介:姚 锦,女,年生,硕士,会员,研究方向为人机交互;程时伟,男,年生,博士,教授,会员,研究方向为人机交互、普适计算;刘 征(通讯作者),男,年生,博士,教授,研究方向为设计知识、设计认知基于视觉感知的平面设计背景图像裁剪姚 锦,程时伟,刘 征,(浙江工业大学 计算机科学与技术学院,杭州)(浙江省健康智慧厨房系统集成重点实验室,浙江 宁波)(中国美术学院,杭州):摘 要:在平面设计工作中,为了解决前景图像与背景画布大小的不匹配问题,设计师通常需要对背景图像进行裁剪,但已有的裁剪方法没有考虑到用户对裁剪后视觉效果的主观体验 为此,本文提出了一种基于视觉感知的平面设计背景图像裁剪方法,首先基于全卷积神经网络训练平面设计数据集,建立视觉显著性预测模型,对图像进行视觉显著性预测;然后基于眼动跟踪技术,利用获得的眼动跟踪数据来识别图像的重要区域;最后将上述两步的结果进行融合,得到建议裁剪区域 实验结果表明,该方法的图像裁剪结果比已有方法更能吸引用户的视觉注意,具有更好的主观体验,且裁剪效果在平均重叠率和边界位移误差等指标上均有一定提升,验证了该方法在具体平面设计工作中的有效性与实用性关 键 词:视觉感知;眼动跟踪;视觉显著性;图像裁剪中图分类号:文献标识码:文 章 编 号:(),(,)(,)(,):,:;引 言在平面设计中合理安排布局,能够吸引人的视觉注意 为此,平面设计师通常需要花费大量时间去完成和布局相关的重复性工作,如背景图像的裁剪 图像裁剪去除图像上不重要的内容,提高图像视觉质量,但通常需要繁琐的手工处理,且需要专业经验来获取高质量的裁剪,因此,研究者们已经提出很多方法实现自动化的图像裁剪但是少有学者探索过怎样更好地裁剪适用于特定领域的图像,例如,如何裁剪用于平面设计的背景图像 为此,为保留更多重要的图像内容,提出了一种基于视觉感知的平面设计背景图像裁剪方法 具体建立了一个基于全卷积神经网络(,)的视觉显著性预测模型,并基于眼动跟踪数据进行重要区域的识别,然后实现相应的区域裁剪 实验结果表明,该方法相较于其他裁剪方法,裁剪后的图像可以更多吸引人的注意力,保留了更多重要区域,留有更多的空白位置以放置文本,适用于平面设计工作 相关工作 等人总结了图像的自动裁剪方法,主要可分为基于美学和基于注意力这两类,其中,基于美学的方法符合专业用户的创作原则,而基于注意力的方法更符合普通用户的需求 基于美学的图像裁剪基于美学的方法源于一些基本美学原则,如三分之二规则、对角线优势和视觉平衡等,以及通过缩放和裁剪来优化图像构图,主要思想是模仿人类对自然图像的美学评估,目前最常用的方法主要侧重于预测图像质量高低的二分类问题,并利用质量分类器的视觉注意力分析结果完成图像裁剪例如,等人通过建立两个数据集,促进了裁剪模型的分类训练 等人使用基于美学的方法,通过强调图像的整体审美质量来改进基于注意力的方法 等人定义了一系列特征来描述图像的审美属性或构图规则,且进一步明确了裁剪的标准以评估裁剪区域的质量 这些工作主要根据低级图像特征和摄影构图的某些规则,例如,摄影的三分之二规则等,来评估图像的美学质量 不足在于它会受到用户主观因素的影响,如文化、个人经历、教育水平等,对用户的专业能力也有一定的要求 且这类方法产生的结果中往往很少考虑到留白空间,这会给平面设计自动布局的后续工作(例如添加文字等)增加难度近来,相关研究者们开始利用深度学习方法辅助图像裁剪 等人设计了一个神经网络,分别用于预测视觉显著性和分析美学特征 预测得到的视觉显著图被视为初始裁剪矩形,其中在其周围生成一组建议裁剪区域,而不会丢失重要信息;然后,采用美学评估来选择最终裁剪结果作为具有最佳美学质量的裁剪,该方法最终能够获得有效的裁剪结果 等人提出了一种基于深度学习的框架,从具备高审美质量的照片中学习对象组成,其中通过卷积神经网络()对裁剪区域进行检测,以保持感兴趣对象的完整性 随后将这个初始检测到的裁剪区域输入一个轻量级回归网络以获得最终的裁剪结果,这些方法不足之处在于其需要大量的训练数据(大量审美性高的图像),学习成本高,效率较低 基于注意力的图像裁剪基于注意力的图像裁剪方法的主要思想是保留图像中最显著的区域,图像中每个像素的重要性由显著性决定,即保留图像中最相关的部分,除去图像边缘的分散元素,尽量删除其他与主体无关的部分早期,研究者们主要通过图像的低级特征研究视觉显著性,希望计算机可模仿人眼的视觉特征,高效快速的发现场景中最具吸引力的区域,并以此进行图像裁剪,例如,等人提出了一种基于用户注意力的图像自适应裁剪方法,以便用户在不同显示器上查看图像,该方法基于感兴趣区域、注意力数值和最小可感知区域 个属性来进行图像裁剪,他们使用图像注意模型()并结合人脸和文本检测技术来计算像素显著性值,最后生成视觉显著性图 等人通过获取用户眼动注视数据,识别重要图像内容,计算最优裁剪量,获得视觉显著性图进行图像裁剪 这些早期的基于注意力的方法虽然能够生成合理的裁剪结果,但不足在于图像本身的低级特征对人的视觉感知特征预测不够准确近些年来,随着深度学习技术的兴起,研究者们开始使用深度神经网络训练视觉显著性预测模型预测图像的视觉显著性区域,更准确的预测人的视觉感知特征,保留视觉显著对象,得到最佳裁剪矩形,完成图像的裁剪 应用深度神经网络的视觉显著性预测模型也有了显著的发展 相关研究人员将在其他任务(例如目标检测)中适用的深度学习技术应用于视觉显著性的预测任务中,具备良好的预测性能,证明了其可行性 等人使用了传统的深度神经网络进行了视觉显著性预测模型的训练,再基于预测结果对图像进行裁剪 等人采用基于目标检测的 对模型进 行 预 训 练,提 出 一 种 新 的 视 觉 显 著 性 预 测 模 型()等人也提出了一种新的视觉显著性预测模型(),该模型基于全卷积神经网络(,)进行训练,可自主学习图像的相关特征,并且能输出端到端的预测结果 等人又做了进一步的工作,基于不同的深度神经网络,在不同数据集上进行预训练,提出了 模型,该模型能够输入不同尺寸的图像,且其输出能同时得到粗糙以及精细的预测,再进一步结合两者对网络进行微调,输出最终的端到端的预测结果,整个网络微调()训练,预测结果表明微调整个网络后,模型的预测效果显著提升 其中在微调后,预测效果好于其他网络,因此本文的视觉显著性预测模型基于传统深度神经网络修改而来,采用 进行改造,将视觉显著性预测结果结合基于眼动跟踪技术得到的重要区域,更准确的预测人对平面设计背景图像的视觉感知特征,生成最佳裁剪矩形 方 法 方法概述本文的目标是根据一张背景图像自动生成一个裁剪后的图像 如图所示,方法框架主要包含两个主要部分:视觉显图 方法框架 著性预测(详见 节)和基于眼动跟踪的重要区域识别(详见 节)将这两部分的结果进行加权处理,即可得到最终 小 型 微 型 计 算 机 系 统 年的图像裁剪结果 定义最终的裁剪结果图像为(),计算公式如公式()所示:()()()()其中,()表示视觉显著性预测结果,()表示重要区域识别结果另外,重要区域还需要一些空间,例如,一个人的头顶不应该过于接近裁剪区域的边缘,且自动布局的后续工作需要一定的留白,因此,可以平均地扩展每个重要区域,即将重要区域的边缘再扩大若干像素(根据实验经验采用 像素)视觉显著性预测模型视觉显著性预测可以帮助人们理解不同元素在图像或平面设计中的视觉显著性重要程度 在自动布局工作中,视觉显著性的预测要求输入跟输出图像保持像素一致与尺寸一致采用先进行下采样()再进行上采样()的方法,将输出图像还原到与输入图像同样的尺寸采用全卷积神经网络进行视觉显著性预测建模 全卷积神经网络是基于传统深度神经网络修改而来,模型基于 实现,模型结构如图 所示图 视觉显著性预测模型结构 等人认为文本区域是一个矩形区域,最好不要与一个完整和重要的设计元素重叠,并应避免创建出不连续的文本,从而产生更和谐的视觉效果 因此,为获得更准确的分割区域和明确的边界,本文使用了一个混合函数,如公式()所示:()()()()其中()表示 函数,为模型的参数,如公式()所示:()()()()公式()中,为每个像素 的视觉显著性预测结果,是全卷积神经网络的预测输出,其中 代表视觉显著程度最高,代表视觉显著程度最低()表示 函数,如公式()所示:()()()()()()公式()中,是从 和 中提取的两个相应的图像块,、和、分别是 和 的均值与方差,是它们的协方差 其中 、是标量常数(根据实验经验取值)函数用于所有像素的语义分割,它有助于精确的区域分割 函数可以捕获图像中元素的结构信息,因此,随着权重的增加,它有助于区分边界该视觉显著性预测模型训练流程如图 所示图 视觉显著性预测模型训练流程 首先使用 数据集进行预训练 原因是平面设计的公开数据集样本较少,无法直接进行训练 这种方式在深度学习任务中很常见,通过微调网络使模型在数据有限的情况下也能产生较好的拟合结果 数据集包括 张自然场景图像和及其对应的视觉显著性预测结果(热区图)先在 自然场景图像数据集上进行训练,训练时的图像输入尺寸为 像素 此部分训练的初始学习率为,学习率每经过 个迭代过程()下降 倍,共迭代了 个 在 图像数据集训练的基础上,通过微调网络,再利用 平面设计图像数据集中的训练集(包含 张平面设计图像和对应的视觉显著性预测结果(热区图)进行训练 数据集图像上的文本注释能够更好地与元素的边界对齐,有利于精确的区域分割 数据集训练的输入图像和对应的热区图分辨率均设置为 像素 这部分训练的初始学习率为,共迭代了 个,最终产生本文的视觉显著性预测模型该模型训练平台基于 框架开发,训练过程中使用的损失函数算法见公式()公式()主要使用随机梯度下降(,)算法调整模型最优参数,使损失值接近最小 训练模型时的动量()设置为 ,权重衰减()设置为 ,批的大小设置()为 对模型做进一步评估 利用 平面设计数据集中的测试集(包含 张平面设计图像和对应的视觉显著性预测结果热区图)对本文视觉显著性预测与 等人、模型以及 等人的模型进行测试和比较采用的评估指标有两个:用于衡量两个分布之间的像素相关性的统计指标线性相关指数(,)以及相对熵(,)值的大小代表两个分布接近的程度,值越大代表越接近,计算公式如公式()所示:(,)(?)(?)(?)(?)()期 姚 锦 等:基于视觉感知的平面设计背景图像裁剪 代表进行比较的图像,这里为进行对比模型生成的热区图;代表 测试集中的 热区图;公式中?以及?的计算方法如公式()所示:?|()的取值范围在 至 之间,值为 时,表示两张对比图像相同,分布的相关性最大 为两个分布之间,衡量模型预测能力的指标 为 数据集中的热区图 以热区图作为 举例,像素的值定义为该像素视觉显著程度的度量 高度惩罚错误预测,值越小,说明预测能力越强,而当(,)时,说明两张对比的图像相同 其计算公式如公式()所示:(,)()(,)()()(,)代表模型的视觉显著性预测结果和 热区图的交叉熵,计算公式如公式()所示:(,)()()公式()中,()代表 热区图的交叉熵,如公式()所示:()()()本文视觉显著性预测模型与前人模型在 平面设计测试集上的评估结果如表 所示,用 和 两个指标进行比较 其中,模型的输出结果依据该团队的在线网站输出,等人以及 等人的模型结果为运行文献公开的源码获得表 本文模型与其它模型评估结果 模 型数据集 等人 等人 本文 从表 中的数据可见,本文模型的预测结果其 评分高于前人模型,说明该模型的输出结果与 测试集中的热区图的像素相关性更高,高了 ;而在 指标的评分上,本文模型相较于 模型在预测能力上稍有不足,略微优于 等人的模型,而相较于 等人的模型,则降低了 基于眼动跟踪的重要区域识别基于眼动跟踪技术识别背景图像的重要区域 用户可

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开