基于
全景
图像
虚拟
野外
场景
构建
方法
211 国家重点研发计划(2021YFF0500900)资助 收稿日期:20220405;修回日期:20220426 北京大学学报(自然科学版)第 59 卷 第 2 期 2023 年 3 月 Acta Scientiarum Naturalium Universitatis Pekinensis,Vol.59,No.2(Mar.2023)doi:10.13209/j.0479-8023.2022.109 基于全景图像的虚拟野外场景构建方法 张赖和 陈斌 北京大学地球与空间科学学院,北京 100871;通信作者,E-mail: 摘要 提出一种基于全景影像的野外虚拟环境快速构建方法,通过对全景影像进行轮廓识别、深度估计和图像修复等处理,得到基于图像的场景信息,根据用户的位置渲染对应的全景图像,获得支持有限范围内 6 自由度沉浸式漫游的虚拟野外环境,并从图像质量的用户主观感受及客观指标两个方面对该方法的实用性进行验证,证明该方法使用较方便,具有较好的应用效果,可用于虚拟化野外地质教学。关键词 野外环境;虚拟地理环境;全景影像;6 自由度漫游;图像修复 Virtual Field Scene Construction Method Based on Panoramic Photo Inpainting CHANG Lai-Ho,CHEN Bin School of Earth and Space Sciences,Peking University,Beijing 100871;Corresponding author,E-mail: Abstract A fast construction method of field virtual environment based on panoramic image is proposed.Through the processing of panoramic image,such as contour recognition,depth estimation and photo inpainting,the image-based scene information is obtained.The corresponding panoramic image is rendered according to the users position,so as to obtain an immersive field virtual environment supporting 6-DOF roaming in a limited range;The practicability of this method is verified by the users subjective feeling and objective index of image quality.The results show that the proposed method has a more convenient way of use and better application effect,and may be used in virtual field geological practice teaching.Key words field environment;virtual geographic environment;panoramic image;6-DOF roaming;photo in-painting 虚拟野外地理场景是通过虚拟表达的方式,将野外地理场景数字化,在 6 自由度的虚拟空间中实现对野外教学场地的沉浸式观摩、考察、研讨和分析等。虚拟野外地理场景的构建有助于相关教学内容的展示和研讨,提升教学的灵活性、安全性和可操作性。按场景构建所依据的数据源,可将目前常用的虚拟野外场景构建方式分为以下 3 类:1)使用无人机搭配倾斜摄影技术,从高空拍摄的图像;2)使用三维激光扫描点云数据;3)使用拍摄的街景图数据。对于具有高沉浸感和高自由度的小范围场景,上述 3 类方法分别存在沉浸感不足、数据采集与处理困难以及多张街景图之间不连贯的问题。全景相机能提供较大的视角,方便和快速地获取大视角范围内的所有目标实体影像。作为一种可供选择的数据源,全景图像可以避免上述缺陷。全景图像是一种能显示各方向视角的图像载体,具有旋转不变性,能保留真实纹理,在虚拟场景构建中可以发挥视角大、贴近人类观测情况的优势,沉浸感强,与全场景三维建模相比,具有成本低、场景构建效率高等优势。本研究提出基于全景图像的虚拟野外场景构建北京大学学报(自然科学版)第 59 卷 第 2 期 2023 年 3 月 212 方法,将全景影像作为数据源,以图像修复(photo inpainting)和图像内容重建的方式,构建有限范围内 6 自由度漫游的野外虚拟场景并生成画面,提升场景的沉浸感和逼真度,以期为野外教学提供支撑手段。1 相关工作 为了实现基于全景图像构建虚拟场景的目标,需要对全景图像进行内容物轮廓的识别,对图像内各目标进行深度估计,并对被遮挡区域使用图像修复技术生成纹理信息后再进行最终效果的渲染。图像内容物轮廓的识别可通过经典的边缘检测方法实现;基于神经网络实现的深度生成模型,可帮助对图像内目标进行深度估计;部分方法使用基于机器学习的技术,可以连续完成这两项工作。Eigen 等1采用 Multi-scale 卷积神经网络给出一种单目深度估计方法,Godard 等2实现基于自监督的深度估计,Wofk 等3提出一个实时的低功耗的单目深度估计框架。野外场景下,Ranftl 等4构建的MiDaS 模型取得较好的效果,Xian 等5和 Miangoleh等6对该模型做了改进。各种基于生成对抗网络(generative adversarial networks,GAN)的图像修复技术可预测及生成图像中目标被遮挡区域的纹理信息。Zhu 等7提出名为视觉对象网络(visual object networks,VON)的方法,使用对抗学习框架,对物体的 3D 形状及其纹理贴图信息建模。Nazeri 等8提出先由神经网络生成轮廓假想图,再对纹理缺失区域进行填充的 Edge-Connect 模型。Tucker 等9提出生成多平面图像的方法。Shih 等10和 Mildenhall 等11实现基于静态图片生成多视角的 3D 动画效果。上述方法对平面二维图像以及规整室内环境下全景图像的实现效果良好。针对室内场景全景影像的深度估计任务,Zioulis 等12提出 OmniDepth 方法,利用两种不同结构的模型,分别对同一场景进行深度估计模型训练。针对室内全景图的图像修复任务,Xu 等13和 Kotadia 等14在引入室内场景符合Manhattan 布局以及建筑轮廓形状为长方体的离散组合等关于布局的假定后,各自提出一种神经网络结构,从单一室内全景影像生成同场景的新视角。上述全景图的图像修复方法利用了室内场景的特性。考虑到野外场景的特殊性,本文拟设计并构建一组方法,可基于单一野外全景影像生成同场景不同视角的图像。2 本文方法 2.1 方法框架 如图 1 所示,本文方法的主要步骤如下。1)输入全景图像和必要的参数(摄像机分辨率等),指定移动方式。图 1 本文方法数据流 Fig.1 Data flow of our method 张赖和等 基于全景图像的虚拟野外场景构建方法 213 2)识别野外场景物体的大致轮廓,并对全景图像进行深度估计。此过程基于以下假定。拍摄条件为野外环境,摄像机垂直方向与拍摄点地面垂直,图像的正上方及其相邻区域为天空,正下方及其相邻区域分别为相机底座和地面。图像的拍摄时间为日间,晴天或阴天,山体为有植被或无植被的岩石、沙、土等;结合拍摄条件,知道天空的色调为白、蓝等色,山体的主色调为黄、绿等色,两者能做明显的区隔。假定天空、云等上方目标与拍摄点的距离为无穷远。3)移动方式为先垂直移动,再水平移动,生成移动后的图像。在此框架下,输入一张野外全景图像,并在 6自由度交互操作中进行一次相对于拍摄点移动的操作,可计算得到一组全景图像并输出,即为该场景在给定视角下通过本方法计算得到的模拟图像。2.2 轮廓识别与深度估计 对于野外场景全景图像,没有直接进行深度估计的方式。本文方法是将全景图像转换为多个平面二维图像,然后进行合并处理。根据对被拍摄目标的假定,可知天空会分布在图像的上半部,地面会分布在图像的下半部,山体、岩壁和植被等会分布在图像纵向上的中间区域。山体、岩壁和植被是我们重点关注的目标,在实际观测的时候占据较大的视角,可以按照各类目标的分布进行区域的分割。用本文方法把全景图像分为 8 个区域,相邻区域之间存在重叠,并且所有位置都在至少一个区域内。区域划分的方式如下。t(0 t 5)号区域:由 At,Mt,Ct,A(t+1)mod 6,M(t+1)mod 6 和 C(t+1)mod 6组成。天空区域:由 T,A0A5 组成。地面区域:由 B,C0C5 组成。可以用全景图像的经纬度,对各区域进行如下 描述。分块 T 经度()范围为0,360),即 02,纬度()范围为60,90),即32。分块 At为(1)3363,tt+。分块 Mt为(1),3366tt+-。分块 Ct为(1),3336tt+-。分块 B 为022,3-。各分块在全景图像上的分布如图 2 所示,其中橙色线框和绿色线框区域分别为 0 号区域和 3 号 区域。将各区域在球面的重心进行极球面投影后,可以将分割后各区域包含的图像信息视为一般平面二维图像,并借助现有方法进行处理。其中,t(0t5)号区域的重心在1,()3t=+=0 处,天空区域和地面区域的重心分别在2=和2=-处。可以将投影后的 05 号区域分别视为一个水平方向显示野(HFOV)和垂直方向显示野(VFOV)均为 120的方形区域,将天空区域和地面区域视为各方向显示野均为 120的圆形区域,后续计算过程中使用各区域的正方形投影结果(取 HFOV=VFOV=120)代替,为区域的真超集,且此类正方形在球面上以(1)2i=+(0i3)处为顶点。图 3 给出各区域所用图像在球面上的分布示意图。对平面二维图像的深度识别,首先使用 MiDaS-v24的原有架构,用其数据集中的户外场景数据进行再训练,以便得到适用于野外场景二维图像的深度估计模块,用于上述 8 个区域内方形图像的深度识别。由于本文方法主要关注的内容几乎全部位于05 号区域,对分块 T 和 B 的深度不敏感,故不对其进行额外的考虑。经过再训练的模型可对平面正方形图像进行拍摄目标轮廓划分和相对深度估计。结合拍摄条件的假定,将图像内容标记为天空、地面和相机底座以及拍摄人、植被、山体和岩壁等,得到识别结果(图 4)。取得二维图像深度数据后,对全景图像各区域内生成结果的相对距离数据进行深度拟合,生成全景图像的深度估计绝对距离。如图 5 所示,在识别出地面区域中的地面元素点后,根据摄像机距离地面的高度以及该地面元素所在纬度等信息,判定该地面元素点与摄像机的距离,计算公式如下:()(),cos2ffhd ii=+|(1)北京大学学报(自然科学版)第 59 卷 第 2 期 2023 年 3 月 214 图 2 全景图像的区域划分方式 Fig.2 Region division mode of panoramic image 蓝色、黑色和红色的闭曲线分别为 5 号区域、天空区域和天空区域正方形投影结果在球面上的分布 图 3 各区域在球面上的分布 Fig.3 Distribution on the sphere of the regions 左图为输入图像,右图为相对距离估计结果 图 4 目标识别结果样例 Fig.4 An example result of target recognition 图 5 判断地面元素与摄像机的距离 Fig.5 Distance judgment