温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
参数
模型
法线
推理
视图
三维
人体
重建
第 卷第 期 年 月南 京 邮 电 大 学 学 报(自 然 科 学 版)():基于参数模型和法线推理的单视图三维人体隐式重建刘 峰,周弈帆,南京邮电大学 江苏省图像处理与图像通信重点实验室,江苏 南京 南京邮电大学 教育科学与技术学院,江苏 南京 南京邮电大学 通信与信息工程学院,江苏 南京 摘要:为了克服单视图三维人体重建中出现的伪影及肢体残缺现象,提出了一种基于参数模型和法线推理的三维人体隐式重建算法(,),该方法能够从单一 图像重建出包含服装的三维人体。网络的输入仅为一张包含人物全身的 图像,首先基于图卷积神经网络预测对应的 参数模型,接着基于条件()网络生成人物的后视图像,并分别从前后视图中提取法线特征,最后将它们作为深度隐式函数的额外参数辅助训练。实验结果表明,相较于传统方法,该方法有效提升了重建结果的整体质量和表面细节。得益于参数体和法线作为先验,该方法也可以很好地处理一些复杂人体姿态。关键词:三维重建;深度隐式函数;参数体模型;法线预测;人体数字化;单视图中图分类号:;文献标志码:文章编号:(),:,(),:;收稿日期:;修回日期:本刊网址:基金项目:国家自然科学基金()和校企合作项目()资助项目作者简介:刘峰,男,博士,教授,博士生导师,引用本文:刘峰,周弈帆基于参数模型和法线推理的单视图三维人体隐式重建南京邮电大学学报(自然科学版),():三维人体重建广泛应用于影视、游戏、医学、体育等领域,作为计算机视觉领域的重要研究方向,经历了数十年的发展,如今利用各种传感器,从多视点重建出一个精度高、操作性强的人体模型已不是什么难事。使用三维扫描仪对人体进行扫描,基于结构光和相位测量技术可以重建出精细的人体网格,但是三维扫描仪通常代价昂贵,因此这种方法不具备通用性。三维模型的几何表示包括体素、点云和网格。基于体素的三维重建方法由于其每个格点反映的是占用信息,无法恢复精确的细节,同时其内存占用较大,严重限制了输出的分辨率。基于点云的三维重建方法表现非常直观,密集的点云可以保留充分的细节和属性,但是实现表面渲染和可视化比较困难。基于网格的三维重建方法具有很好的正则化特性,并且网格与标准的图形通道兼容,但是该方法通常需要学习变形初始凸模板,因此难以表示不同的拓扑。最近的一些计算机视觉模型已经可以通过单一 图像来进行三维人体重建,但是单视图带来了图像深度、身体形状以及背部细节等方面的信息缺失,因此从单一 图像重建三维人体模型始终是一项充满挑战的任务。按照文献中的分类方式,可以把单视图三维人体重建分为参数化方法和非参数化方法。参数化方法依赖于某个基于统计得到的人体参数化模型(如、等),仅需一组人体参数向量即可表示人体形状,然而参数模型的低维参数在处理服饰等精细几何细节时效果不太理想。非参数化包括传统方法和深度学习方法。在过去的几年中,深度隐式函数被证明是一种非常有效的形状表示学习方法,通过训练一个隐式函数来判断查询点是在给定的粗糙形状内部还是外部,然后用 算法提取网格表面。文献提出的像素对齐隐式函数()允许将从粗糙推理中学习到的整体嵌入与高分辨率输入中学习得到的图像特征无缝融合起来,可以复原出人体的面部特征和服装褶皱等精细表面,但是对于一些具有挑战性的人物姿态仍会产生较大的伪影。文献在 的基础上使用 参数模型作为先验,改进了一些复杂人物姿态的重建效果。本文提出了一种基于参数模型和法线推理的单视图三维人体模型隐式重建算法,能够从单一 图像生成一个包含服装细节的三维人体表面。为了防止重建结果中出现肢体残缺或产生重建伪影,使用 参数模型和人体前后视图的法线特征作为额外参数辅助训练深度隐式函数,参数模型提供准确的深度信息,法线特征有助于提升网格表面的重建精度。本文算法分为 参数体估计、前后视图法线推理和隐式表面重建 个模块,首先根据输入图像估计出 模型作为底层的身体形态参考,其次基于条件 网络从前视图预测后视图,继而从图像中提取法线特征,最后将它们纳入隐式函数的统一框架进行重建。实验结果表明,本文算法对于一些重叠姿态拥有更好的重建效果,在网格表面也能产生更精细的局部细节。相关工作 参数化人体模型估计随着 和 等参数化模型的出现,从单一图像进行 解析吸引了众多研究者的兴趣。从姿态和身体形状参数方面回归,绝大多数方法都采用了 模型。模型把人体理解为一个基础模型和在该模型上进行形变的总和,其形状参数 由()提取出的体型形变参数进行表示,姿态参数 由人体的全局旋转和 个关节点的旋转角进行表示。通过将 模型拟合到二维关键点检测和形状检索,可以从单一图像中自动获取形状参数和姿态参数。引入了卷积神经网络中的人体二维姿态估计,通过最小化人体三维姿态与二维关节点重投影之间的误差来优化 模型的参数。使用迭代反馈来回归 模型的参数,通过最小化关键点的投影损失,使模型可以在 标注的情况下进行训练。不再像以往的方法那样直接回归 的模板参数,而是从单一图像中回归模型的网格顶点位置,把低维度的图像特征嵌入到网格的各顶点中,最后使用()层不断地迭代优化,提高了参数模型回归的灵活性和有效性。然而参数模型只能捕捉到身体的形状和姿势,重建出来的人体表面过于光滑,无法重建出更具有挑战性的人体面部及服装等高频细节。但是将 作为一个先验估计,可以消除一些非参数化方法带来的体型差异。深度隐式函数三维重建通常需要基于空间中的等值面来构造三维网格,深度隐式函数通过在三维空间中构造一个连续的体积占用场来表示等值面。近年来,深度隐式函数被引入到神经网络中,神经网络提供一个南京邮电大学学报(自然科学版)年潜在编码,用于计算查询点坐标(,)的二进制占用率,因此可以很轻松地使用任意拓扑结构表示详细的三维形状,且没有分辨率限制。在估计空间中查询点的二进制占用率时,通过对与查询点像素对齐的二维局部特征进行编码,保留了输入图像中的局部细节,从单一图像回归出了高保真的三维几何,例如服装褶皱,但是该方法没有解决特征模糊性问题。使用一个 相机捕获的图像深度信息来规范形状估计,提供对姿态变化的鲁棒性,局限性在于隐式形状缺乏参数模型那样的骨骼蒙皮权重,在重建中很容易丢失重叠的四肢。将参数化人体 与深度隐式函数结合,利用参数模型的语义特征对自由形式的深度隐式函数进行正则化,提升了模型的泛化能力。图像转换网络从单一图像重建三维人体模型,通常需要预测图像遮挡区域的外观,以获得全部的纹理特征。许多研究者使用对抗性学习来进行图像转换。与损失相比,对抗性损失可以通过鉴别器来学习一个可训练的损失函数,自动适应生成图像与真实图像之间的差异,避免产生模糊图像。框架使用条件 网络来学习输入图像到输出图像的映射关系以及用于训练映射关系的损失函数,不需要手动设计损失函数,即可实现从标 签 图 生 成 图 像、从 线 稿 图 重 构 对 象 等。作 为 框 架 的 改 进 版 本,在 的基础上引入了多尺度的生成器和判决器,使用个体分割方法代替语义分割,突破了传统 网络的分辨率限制。由于人物的正视图和后视图共享相同的轮廓,并且许多视觉特征在空间上是对齐的,提出了一种基于轮廓的表示,从正面输入图像和分割掩码中预测后视图纹理。本文算法 网络架构本文的 网络架构如图 所示,只需输入一张包含人物正面全身的 图像,即可输出该人物的三维模型。基础的 网络主要包括 个模块,分别是 参数体估计、前后视图法线推理和隐式表面重建。图 网络架构图 在 参数体估计模块中,输入图像 首先使用 网络预测其对应的 参数模型。网络将图像特征嵌入到 模板网格的各顶点中,使每个顶点同时具有坐标位置及对应 的 图 像 特 征,然 后 使 用 图 卷 积 神 经 网 络()进行迭代优化。是操作在图结构数据上的深层神经网络,把像素视作节点,把像素空间坐标之间的连线视作彼此的边,运算结果按顶点权重进行聚合,因此相比传统 具有更好的表达能力。但由于 网络的精度有限,该模块第 期刘 峰,等:基于参数模型和法线推理的单视图三维人体隐式重建中引入了深度回归损失改进预测结果的 轴位置,进一步提升了参数模型预测的准确性。该分支输出的 模型将作为隐式表面重建模块的先验之一,为其提供二维图像特征不具备的深度信息。在前后视图法线推理模块中,人们普遍认为人物在前后视图中占用相同的轮廓,因此该模块基于条件 网络训练了一个生成器,通过正面输入图像 及其轮廓 中预测其后视图,并且分别提取输入正视图法线特征 和后视图的法线特征。前后视图的图像纹理将作为二维特征用于表面重建和纹理推理,法线图有助于在隐式重建中产生更清晰的几何图形。隐式表面重建是 网络的核心,在特征提取过程中,输入的二维图像通过二维卷积网络编码成二维图像特征,预测得到的 模型则先将其体素化转换成占用体积,再使用三维卷积网络将其编码成三维特征体。对于空间中的每个三维点,采用均匀采样和高斯扰动相结合的方式对图像特征和体积特征进行采样,并将这两个特征向量连接起来,使用特征占用概率解码器将该特征向量转换成三维空间中的每个顶点占用概率值,最后用多层感知器重建出三维人体。参数体估计优化网络不同于传统的回归方法那样直接回归 模型的统计模板参数,而是先将输入图像特征依附到网格顶点上,基于模板网络结构显式地回归网格顶点的 位置,在恢复了完整的三维图形后,再从顶点上可靠地回归 模型的形状参数 和姿势参数。然而由于二维图像丢失了精确的深度信息,基于单一图像复原的 模型各顶点在 轴上存在的深度误差是不可避免的。为了改进回归 模型的精度,本文提出了一种深度回归损失,对于一个有 个顶点的 网格,、和 分别为形状参数、姿势参数 及 轴坐标的 损失,则深度回归损失 定义为 ()()()()式中,、和 代表从预测的 模型提取的参数集,、和 代表地面真值。经过多次迭代,优化后的 网格的表面有了更高的可信度。图 可视化了优化过程,其中,第一列为输入图像,第二列为优化前的结果,第三列为优化后的结果。例如,第一行结果中手掌的初始位置与第二行结果中头部的初始姿态不正确,经过优化,手掌和头部逼近真实的位置。图 参数体估计优化过程 前后视图法线推理为了 提 高 重 建 质 量 和 保 真 度,基 于网络来预测人物后视图,并提取前后视图法线特征作为网络的额外输入进行训练。在单视图条件下预测人体背面的精确几何是一个不适定的问题,因为背面图像无法直接从输入图像中观察得到。由于人体的前视图与后视图共享相同的轮廓,并且许多视觉特征在空间上对齐,因此本文训练了一个条件 网络来预测后视图,如图 所示。该生成器模型采用一种由粗到细的策略,是一个低分辨率图像的生成器,也是一个全局生成器,主要由一个卷积前端、一组残差块,以及一个转置的卷积后端组成。先对数据集中的图片进行下采样,用低分辨率图像训练 网络,然后把相同结构的 网络附加到 网络上,它作为一个局部增强器,把 网络提取的特征与 网络最后一级的输出结果之和作为 网络中残差模块的输入。使用这样一个由粗到细的网络的好处是,下采样后的图像可以降低原始图像中噪声的影响,而残差图像中的像素灰度比较集中,可以用一些短的编码来刻画这些反复出现的值,提高编码的效率。该网络的损南京邮电大学学报(自然科学版)年失函数如下 ()式中,表示特征匹配损失,表示用 模型训练图像分类任务的感知损失,表示对抗性损失,权重系数 。图 后视图生成网络从 颜色映射得到的法线贴图对于单视图重建起到一定的约束作用,通过法线贴图来引导推断三维几何可以使多层感知器更容易输出细节特征,也可以让人体看不到的背面产生可信输出。隐式表面重建深度隐式函数将空间曲面定义为占用率函数()的水平集,函数值决定了三维空间中的某个点位于人体的内部还是外部。中将图像特征与点坐标作为隐式函数的输入(),将函数 写为():,()()(,(),()()式中,表示图像特征编码器从输入图像中提取的图像特征,()表示空间中的点 在二维特征图上的投影,()表示对()处的特征值进行采样的采样函数,()表示点 在空间中的深度值。在空间投影中,由投影位置发出的同一条射线上的所有 点共享相同的图像特征(,()。从单一图像中预测深度值()具有严重的不适定性,特别是对于一些存在自遮挡姿势的输入图像,重建结果中经常会出现四肢等部位的残缺,主要原因是隐式函数在训练过程中并不会存储明确的 体积,很难检测到潜在的体型和姿势信息。结合 的思路,本文使用 节中预测的 模型作为先验来规范人体重建过程。用 模型中提取的体积特征(,)代替预测深度值()作为隐式函数的输入,则可以将()写为()(,(),(,)()对于非参数化表面重建,模型可以看作网络的初始预测。由于 模型提供了较为可靠的深度信息,用其提供的深度信息辅助训练,可以增强算法的鲁棒性,特别是在一些具有挑战性的身体姿势条件下,使用 先验可以避免出现四肢残缺等失败的重建结果。将 节中得到的前后视图法线特征作为网络的额外输入,可以将()进一步写为()(,(),),(,)()对于一个三维模型,其每个网格面的法线都决定了这个面的方向,将法线映射作为空间中三维几何的代理,并将法线映射作为特征提供给多层感知器,可以让多层感知器更容易感知细节,使重建结果更好地表现出人体表面的粗糙程度。同时,在对人体背部进行重建时,仅结合 模型的体特征推理后视图身体结构存在一定的局限性,引入后视图的法线映射可以为隐藏的三维几何提供可信约束,使得网络在单视图条件下也具备一定的多视图推理能力。在训练过程中,真实人体的表面被表示成给定 位置 的二进制占用值:(,)()式中,为输入图像。为了学习粗糙表面的潜在特征,本文使用扩展的交叉熵损失来训练该隐式函数:()()()()()()式中,表示参与损失计算的样本集,为平衡网格内外损失的权重。由于空间中三维人体的大部分顶点都不在等值面上,如果采用均匀采样的方式采集样本点会导致采集到的样本过少,需要对加权系数进行一些不必要的修正,而如果直接在人体表面进行自适应采样会造成严重的过拟合。为了避免上述两种现象,本文使用文献中的方法,先在人体模型的表面进行随机采样,然后对采样点添加一个服从正态分布(,)的偏移量()。因为高斯球在高曲率附近的采样密度较大,所以通过这第 期刘 峰,等:基于参数模型和法线推理的单视图三维人体隐式重建种高斯扰动获得的采样点可以服从模型的表面曲率,显著提升保真度。使用深度隐式函数训练的深度神经网络将会输出一个密集、连续的 占用场,与基于体素的重建方法相比,隐式函数不需要存储离散的三维体积,也不需要生成完整的三维网格就可以计算损失。同时,隐式函数不受体素网格的分辨率限制,可以在任意连续的三维点位置进行查询。为了从占用率中重建网格,需要对三维空间上的占用场进行密集采样,然后使用一个多层感知器应用经典的 算法来提取等值面,即可恢复完整的三维人体形状。纹理推理纹理推理通常是在重建人体的表面几何上预测一个 向量场,根据 节中得到的前后视图 图像与法线贴图,的纹理域模型可以在任意拓扑下推理出三维网格每个顶点的颜色纹理。与、等利用反照率颜色空间来预测模型纹理的方法不同,更专注于利用图像的空间特征来细化纹理域重建,这种方式使得网络无须从输入图像中学习补偿光等复杂的空间特征,而在一般数据集中就能完成训练。前后视图中能够直接追踪到的光线,可以从输入图像中直接采样进行观察。对于相机射线向量 与曲面法向量,两个向量的内积值 可用于判断模型网格所属的视图。如果内积为正值(即曲面方向与相机视线方向相同),则从后视图图像中采样 顶点颜色;如果内积为负值(即曲面方向与相机视线方向相反),则从前视图图像中采样 顶点颜色;如果内积值为(即曲面方向与相机视线方向垂直),则在前后视图图像中混合采样 顶点颜色,以防止重建模型表面中出现鲜明的边界。纹理推理的目标函数为采样点 处预测纹理(,)与真实纹理()的 损失:(,)()()规范的空间重建必然包含输入图像中看不到的表面(例如被手臂遮挡的服饰等),强行迫使这些遮挡表面输出与真实模型一致的颜色空间会造成严重的过拟合,因此更优的策略是让遮挡区域根据语义关系输出与真实表面“相似”的纹理,而不要求纹理域完全一致。对于一些不能从前后视图中直接追踪到的光线,采用与文献中相同的方式,使用深度隐式函数对每个顶点的法线纹理进行插值,以填充这些缺失的细节。实验结果与分析 数据集准备及参数设置本文选用 与 数据集进行实验,数据集包含 个身着各式服装并且姿态各异的高质量三维扫描人体,数据集包含超过 万张多样的时尚图像。本文将 数据集随机分成 个模型的训练集和 个模型的测试 集,并 在数据集中选取了 张二维模特图像用于展示重建结果。首先使用()将数据集中的人体模型沿轴体旋转,从每个视角渲染 图像,最终得到 张图像用于训练,并使用 从每张图像中提取人体的关节参数。在特征提取方面,本文采用与 相同的堆叠沙漏网络和三维卷积神经网络来分别提取图像特征和体积特征,用组归一化代替批归一化以提高训练的稳定性,每个沙漏网络的中间特性输入下一级网络,聚合所有堆栈的损失来进行参数更新。图像层的输入为 分辨率的图像,输出为 的 通道特征图,层的输入为 分辨率的参数体模型,输出为 的 通道特征体。训练阶段选择 算法作为梯度下降算法,初始学习率设为,为,每 次迭代学习率衰减。对比实验与结果分析为了验证算法对于真实世界图像的重建效果,本文使用 数据集和从互联网上收集的真实人物全身图像进行了实验(测试图像使用语义分割方式去除图像背景)。从稳健性和保真度的角度来对重建结果进行定性评估。为了评估重建的人体网格,计算了重建网格和真实网格之间的倒角距离()、点到表面的距离(),以及表面法线一致性()作为误差度量,与 更关注于测量网格拓扑的整体质量,更关注于测量网格表面的局部细节。为了证明本文算法的重建性能,将本文算法与其他几种先进的单视图重建算法进行比较,包括、。南京邮电大学学报(自然科学版)年整 合 了 参 数 模 型 与 体 素 重 建,将 模型中的密集语义作为 的额外输入,将不同尺度的图像特征融合到三维空间中。和 都利用像素对齐的图像特征对每个查询点进行编码,用于学习一个对空间三维点进行分类的深度隐式函数,在 的基础上将输入扩展为 的高分辨率图像,分别训练一个精细模块和粗糙模块。也建立在 的基础上,通过将参数模型与自由形式的深度隐式函数相结合,以规范隐式函数的泛化能力。实验结果如表 所示,其中,倒角距离()和点到表面的距离()的单位为,表面法线一致性()为余弦值。可以看出,本文算法除了在 指标上略微落后于,在另外两个评估指标上均为最优。由于本文算法将前后视图的法线作为隐式函数中的额外参数,因此在 指标上的提升尤为明显。表 不同算法的定性误差比较算法倒角距离 点到表面的距离 表面法线一致性本文算法 为了避免重建结果出现过拟合,本文适当提升了 模型在深度隐式函数训练中的权重系数,以降低预测结果对真实模型的过度依赖。图 详细展示了单视图条件下不同算法的重建效果。图 中可视化地展示了不同算法下的重建结果对比,其中,第一行输入中人物姿态无遮挡,第二、第三行输入中人物姿态有遮挡。图中从左到右依次为输入图像、重建结果、重建结果、重建结果、重建结果、本文算法重建结果。图 中,的体素重建方式无法恢复精确的几何特征,难以处理服装纹理及面部表情等高频细节。与 处理一些无遮挡姿态(图 中第一行)能够获得理想输出,但由于缺少语义约束,遇到有遮挡姿态(图 中第二、第三行)容易导致肢体残缺或产生重建伪影,同时使用 的高分辨率图像作为输入分支进行处理,其参数量大小是其他方法的 倍,难以进一步深入探索。相比前面几种方法在模型完整度方面有了很大的提升,但是在侧视图中依然不可避免地出现了一些重建伪影。相比之下,本文算法即使面对一些具有挑战性的人体姿态也不会出现肢体残缺,并且法线特征的方向特性显著提升了模型表面的重建精度,能够进一步改进服装褶皱等高频细节的重建效果。无论是表面精度还是泛化效果,本文算法均优于其他算法。图 单视图人体重建算法实验结果对比图第 期刘 峰,等:基于参数模型和法线推理的单视图三维人体隐式重建 重建结果展示针对不同服装、人体姿态,都能重建出高质量的三维人体几何,可以使用三维软件 查看本 文 实 验 的 重 建 结 果。图 中 展 示 了 选 自数据集中部分模特图像的重建结果,图中从左到右依次为输入图像、后视图预测结果、模型估计结果、几何重建结果、纹理域重建结果。可以从单一 图像中推理出完整的三维人体网格,在产生高分辨率局部细节的同时,也能推理出遮挡区域的可信表面,并且可以处理各种风格的服装(如 恤、短裙、牛仔裤等)以及不同的人体姿势(如直立、插口袋、双手交叉等)。对于不存在遮挡姿势的输入图像,可以复原出精确的三维几何,对于存在适量遮挡姿势的输入图像,基于 参数模型与法线特征提供的先验依赖,较为准确地还原了人物的真实姿态,并且不会产生重建伪影。在纹理域重建时,预测的后视图图像提供了较为可靠的推理依据,并且简化了纹理推理工作,无须再额外训练一个在重建过程中学习模型顶点 颜色通道的复杂函数。图 重建结果展示 结束语本文提出了一种基于参数模型和法线推理的单视图三维模型隐式重建算法。为了克服单一 图像带来的信息丢失,以及人体姿态和服装等带来的环境因素影响,本文通过使用 参数模型与输入图像前后视图的法线特征作为先验来引导深度隐式函数的训练,在牺牲一定空间复杂度的条件下提升了重建结果的鲁棒性,同时在处理一些重叠比较多的人物姿势时也不会出现肢体残缺等失败的现南京邮电大学学报(自然科学版)年象。根据本文研究思路,未来可以进一步推广到视频重建中,输入一段视频后可以在每个视频帧中得到具有时间一致性的重建结果,从而获得三维模型的动画效果,这有助于在一定程度上简化影视、游戏等行业的开发。参考文献:,:():,():,:,:,:():,():,():,:,:,():,:,():,:():,:,():,:,:,:,:():朱秀昌,唐贵进 生成对抗网络图像处理综述 南京邮电大学学报(自然科学版),():,(),():(),():,:,:():,():第 期刘 峰,等:基于参数模型和法线推理的单视图三维人体隐式重建 ,:,:():,:,:():,:():,:():,:,():,:(责任编辑:李小溪)南京邮电大学学报(自然科学版)年