分享
面向视频会议的音频辅助视频编码方法.pdf
下载文档

ID:3626252

大小:3.40MB

页数:6页

格式:PDF

时间:2024-06-26

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
面向 视频会议 音频 辅助 视频 编码 方法
第48 卷总第52 2 期面向视频会议的音频辅助视频编码方法徐盛鹏,覃浩峻,宋晓丹1.2*,左旭光”,高大化,谢雪梅,石光明!(1.西安电子科技大学,陕西西安7 10 0 7 1;2.西安电子科技大学广州研究院,广东广州510 555;3.铭微电子(上海)有限公司,上海2 0 0 12 0)【摘要】目前视频会议所包含的视频和音频通常是使用传统的编码标准分别进行压缩。然而从语义层面看,音频和视频存在强相关性,都是对与会者所要表述内容的表征。因此,对两者分开编码是次优的。针对此问题,提出了一种音频辅助的视频编码框架。该框架中视频只传输少量的关键顿以提供必要的纹理参考,利用从重建音频中推理得到时序信息和关键顿来重建其余顿。实验结果表明,与通用视频编码方法相比,该框架在指标DISTS下取得了-8 9.8 1%的BD-rate结果。【关键词】多模态信源编码;音频辅助视频编码;视频会议;低码率;语义保真度doi:10.3969/j.issn.1006-1010.20231219-0004文献标志码:A文章编号:10 0 6-10 10(2 0 2 4)0 2-0 0 7 7-0 6引用格式:徐盛鹏,覃浩峻,宋晓丹,等面向视频会议的音频辅助视频编码方法.移动通信,2 0 2 4,48(2):7 7-8 2.XU Shengpeng,QIN Haojun,SONG Xiaodan,et al.An Audio-aided Video Compression Method for Video ConferencingJ.MobileCommunications,2024,48(2):77-82.An Audio-aided Video Compression Method for Video ConferencingXU Shengpeng,QIN Haojun,SONG Xiaodan2,ZUO Xuguang,GAO Dahua,XIE Xuemei,SHI GuangmingAbstractDuring video communications,bandwidth is often limited due to network fluctuations or harsh environments,and the userexperience relies heavily on the compression efficiency of video and audio.Although video compression efficiency has beensignificantly improved,the video reconstruction still suffers from severe distortion,blurring or block artifacts at low bitrate.Thevideo and audio in video conferencing are usually compressed separately using traditional coding standards.However,fromthe view of semantics,audio and video are strongly correlated due to the same speakers intending meaning.Thus,the separatecompression methods are sub-optimal.To address these problems,inspired by the work on audio-driven talking face generation,an audio-aided video coding framework is proposed.The idea is that the temporal information within the video can be inferredfrom the audio and thus can be removed from transmission.Specifically,the framework samples the video temporally at theencoder(usually the frst frame)and compresses it using an image encoder to provide the necessary textures.At the same time,theinput audio is encoded for transmission.At the decoder,the image and audio are reconstructed from the stream.The audio is thendecoupled into emotional and textual features,respectively.After that,a key point sequence is generated from these features and anoffline key point reference by modeling the temporal correlation as the motion of key points.Since a mismatch may exist betweenthe key points of the current video and the offline ones,a linear transform with scale and offset factors is introduced for alignment.Next,the transformed key points are connected to obtain an edge map of the face region.In order to get a more realistic backgroundcontent,the edges in the key frame are extracted and those within the face region are replaced with the ones from the generated keypoint sequence.Finally,the reconstructed video is generated based on the edge map and the reference image.Compared with thelatest VVC,our proposed scheme can achieve Bjontegaard-Delta(BD)rate reduction of 89.81%,60.84%,and 68.42%in terms ofthe popular deep learning based quality metrics,i.e.deep image structure and texture similarity(DISTS),learned perceptual imagepatch similarity(LPIPS)and frechet inception distance(FID),respectively.Keywordsmulti-modal source compression;audio-aided video compression;video conference;low bitrate;semantic fidelity收稿日期:2 0 2 3-12-19*基金项目:国家重点研发计划资助“面向多模态业务的语义通信系统架构与关键技术研究”(2 0 2 2 YFB2902900);国家自然基金“基于语义的图像编码方法研究”(6 2 10 1398);广州市基础与应用基础研究项目“面向图像理解应用的低带宽、解码即理解图像编码技术研究”(2 0 2 2 0 10 11390);国家自然基金重大项目子课题“语义信息弹性编译码理论与方法”(6 2 2 9348 3);广州市科技计划基础研究计划“广州市场景理解与智能交互重点实验室”(2 0 2 2 0 10 0 0 0 1)*通信作者4中图分类号:TN762(1.Xidian University,Xian 710071,China;2.Guangzhou Institute of Technology,Xidian University,Guangzhou 510555,China;3.NETINT Technologies,Shanghai 200120,China)扫描二维码OSID:与作者交流移动通信2024年2 月第2 期77第48 卷“语义通信”专题1总第52 2 期0引言视频会议作为远程沟通的重要工具,使其需求不断增加。在通信过程中,由于网络波动或环境恶劣,带宽往往受到限制。用户的体验很大程度上依赖于视频和音频的压缩效率。通常情况下视频和音频是分开压缩的。视频可采用H.264/AVC(A d v a n c e d Vi d e o Co d i n g,先进视频编码)、H.265/HEVC(H i g h Ef f i c i e n c y Vi d e o Co d i n g,高性能视频编码)2 或最新的H.266/VVC(Ve r s a t i l e Vi d e o Co d i n g,通用视频编码)3标准进行压缩;音频可采用AAC(A d v a n c e d A u d i o Co d i n g,高级音频编码)标准进行压缩。这种分开编码的方式在信号层面设计是合理的,然而在语义层面并不是最优的。一方面,视频和音频本质上是语义相关的。特别是在视频会议中,音频往往是由说话人产生的,而视频则捕捉了说话人的外观和动作。视频中的嘴部运动可以从音频中推断出来,而分开独立的压缩框架忽略了这一点。另一方面,尽管每一代视频压缩效率都有了很大的提高,但在低码率下,视频重建仍然存在严重的失真、模糊或块效应。得益于深度生成模型的进步,一些工作试图提高低比特率下的人脸视频重建质量。文献4、5 和6 中作者提出基于关键点表示来合成人脸视频。文献7 中作者使用紧凑的特征表示来表示时间信息。文献8 中作者用参数化三维人脸模板表示人脸视频,仅需要压缩估计参数。这些模型通过隐式或显式语义表示,在超低比特率下取得了很好的效果。然而,它们主要关注视频模态内语义相关性的挖掘。最近在多模态视觉方面的进展,特别是音频驱动的说话人脸生成,启发了本工作。Suwajanakorn在文献9将输入音频合成为具有准确嘴部运动的视频。在文献10 中,Chen等人不直接学习从音频到图像的映射,而是先将音频映射到特征,然后再从特征生成视频。文献11中引人了对音频的解耦,来得到更自然的运动。它们在音频驱动的人脸视频生成中都显示出巨大的潜力。事实上,本工作并不是第一个考虑跨模态相关性的工作,DAVD-Netl12在解码端使用音频来辅助视频增强,以减少低比特率下解码视频的伪影。该方法虽然可以提高重建质量,但所消耗的带宽仍然依赖于视频压缩方法,即未在编码端考虑音频可能带来的性能增益。本文提出了一种面向视频会议的音频辅助视频压缩框架,以利用音频和视频之间的语义相关性。为了捕捉输人视频的外观,首先对关键帧进行压缩,并且不传输视频的时间信息。相反,直接压缩输入音频,不仅用于解码端的音频重建,还用于在解码端推断视频的时间信息。利用解码后的关键顿和音频,通过深度神经网络重建视频。实验结果表明,与最新的视频编码标准VVC相比,该框架在语义保真度方移动通信782024年2 月第2 期面能够大幅提高压缩效率。此外,由于只利用了输入视频的空间相关性,因此编码时间相比VVC也有较大提升。在接下来的章节中,首先回顾相关的研究成果;其次将详细介绍本文所提出的压缩框架;然后给出实验结果;最后对本文进行总结。1相关工作1.1传统视频编码随着视频技术的快速发展,国际标准组织相继制定了H.264/AVCl、H.2 6 5/H EVC2 、H.2 6 6/VVC3 等视频压缩标准。它们都采用基于块的混合编码框架,结合顿内/顿间预测、变换、量化、编码和环路滤波,以消除空间、时间、感知和统计穴余。随着标准的更新,压缩效率有了很大的提高,但也逐渐达到瓶颈。最近,大量研究表明,用神经网络替换混合框架中的部分子模块13-16 可以进一步提高效率。除了混合压缩,研究人员还尝试以端到端的方式编码视频17-19,以从联合设计中获益。虽然与混合方案还有一定的差距,但已经取得了很大的进展。但在超低码率下,图像会出现严重的失真,如块效应和模糊,对用户体验造成较大影响。1.2面向人脸视频的低码率视频压缩方法一些研究人员尝试通过深度生成模型来提高特定场景下的低比特率的编码效率。大多数工作都集中在人脸视频压缩上。文献4、5 和6 中作者提出采用关键点表示作为输入视频的特征。文献4 中将外观信息和运动信息解耦,并使用一组学习到的仿射变换参数表示运动信息。文献5提出从图像中无监督提取表示人物几何特征的三维关键点,并提取姿势和表情参数对关键点进行变换,并从图像中提取三维特征图作为外观特征。结合源关键点、驱动关键点和外观特征,作者使用基于流的方法生成视频。文献6 采用人脸关键点来表示输人视频的运动信息。文献8 引人三维人脸模板,并用一组三维人脸参数表示人脸视频。相比于使用关键点的方案,文献7 提出用学习到的紧凑特征来表示运动信息以取得更好的效果。这些工作较大地提升了低码率下的说话人脸视频编码效率。然而,它们主要关注视频模态内相关性挖掘,不关注不同模态间的相关性。1.3音频驱动的说话人脸生成多模态是计算机视觉中的一个热门话题,其中音频驱动的说话人脸生成与本论文相关。为了生成具有准确唇动的合成视频,Suwajanakorn等在文献9 中通过下面几个步骤生成视频:从音频中估计嘴形、嘴部图片合成、时序重排和生成视频。文献10 中首先从目标视频中提取关第48 卷总第52 2 期徐盛鹏,覃浩峻,宋晓丹,等:面向视频会议的音频辅助视频编码方法码流图像解码移动通信键点,然后使用音频驱动关键点并基于关键点生成视频,与直接将音频映射到图像相比,避免了音频与不相关的视觉因素的直接关联。在文献11 中,通过引人与时长无关的情感空间和与时长相关的内容空间的音频解耦合来解决人脸表情问题。他们的结果显示了利用音频和视频之间语义相关性的可能性。在压缩方面,DAVD-Netl12也利用了这种相关性。然而,该方法仅在解码端利用音频来提高视频质量,以减少低码率下的视频压缩伪影,音频不影响视频的编码过程。为了更好地受益于音频和视频的语义相关性,本文对编码和解码过程都进行了重新设计。2音频辅助的视频编码方法2.1整体框架概述图1给出了本文所提出的音频辅助的视频方法的编码器和解码器框图。该编码器包括2 部分:(1)图像编码器;(2)音频编码器。考虑到输入的人脸视频的时间信息,特别是嘴部运动和面部表情,可以从音频中推断,因此在编码端仅考虑图像内和音频内的相关性。首先从输人视频中采样一个关键顿,然后由图像编码器进行压缩生成码流传输到解码端;同时,输入的音频经过音频编码后传输到解码端。在解码端,对码流进行解码得到重建关键顿和重建音频。该音频一方面作为播放音频使用,另一方面与重建关键顿一起生成视频的其它顿。该生成方法主要包括2个部分:(1)时序关键点生成;(2)关键点到视频生成。在前一个部分中,首先得到一个离线参考关键点;然后,考虑音频中的内容和情感,利用解码后的音频的时序特时序采样视频音频边缘检测视频边缘图姿势对齐合成视频生成音频关键点到视频生成图1本文所提出的音频辅助的视频编码框图性驱动关键点生成一系列新的关键点。在后一个部分中,首先将新的关键点与从关键帧检测到的边缘进行几何对齐,再利用关键点合成边缘图并生成视频。2.2编码器在压缩之前,首先从输入视频中采样一个关键顿以表示空间信息。考虑到视频会议要求低延迟,首先对第一帧图像进行采样,然后由图像编码器进行压缩。在实现中,采用了内配置的VVC,因为它具有较高的压缩效率。当然,也可以使用其他计算量较小的图像编码器,例如BPG(Be t t e r Po r t a b l e G r a p h i c s),但会损失一些性能。输人音频直接用AAC进行压缩。2.3解码器在解码端,首先对接受到的码流进行解码,得到重建关键顿和重建音频。在此基础上,首先使用时序关键点生成模块,利用视频和音频之间的语义相关性生成关键点序列;之后,生成的关键点序列用于生成视频。下面将对这2 个模块进行详细介绍。(1)时序关键点生成该模块类似于文献11 中的时序关键点生成模块。其核心思想是将音频和视频之间的语义相关性建模为人脸关键点的运动。首先,通过关键点检测从说话人视频中离线获取参考人脸关键点序列I,包含10 6 个关键点;然后,通过MLP(M u l t i p l e-l a y e r p e r c e p t r o n,多层感知机)提取关键点特征。为了实现对音频的情绪和文本特征解耦,使用了音频交叉重建的方法来训练2 个特征提取网络。首先提取MFCC(M e l Fr e q u e n c y C e p s t r a l C o e f f ic ie n t s,梅尔频图像编码图像音频编码编码端关键点检测多层感知机关键点特征参考关键点关键点序列生成内容特征情绪特征时序关键点生成解码端参考关键点生成音频解耦音频解码2024年2 月第2 期79第48 卷“语义通信”专题1总第52 2 期率倒谱系数)作为音频特征,再通过DTW(D y n a m i cTimingWarping,动态时间规划)在时间维度上对齐不同音频特征,用作训练数据。然后,使用2 段相同情绪不同文本的音频作为模型的输入,分别提取文本特征和情绪特征。接着,交换2 段音频的情绪特征,利用交换后的情绪特征加上自身的文本特征来重建音频。基于上述策略,可以训练文本特征提取模块和情绪特征提取模块。利用训练好的2 个模块将音频解耦为内容特征和情感特征。将以上得到的关键点特征、内容特征和情感特征作为LSTM(Lo n g Sh o r t T e r mM e mo r y,长短期记忆网络)的输人,预测关键点的位移,从而得到生成关键点序列Lg=(gilg=1,2,n),n 为生成的顿数。其中,利用重建关键点和真实关键点之间的距离作为损失函数优化LSTM模块。更多细节可以在文献11 中找到。(2)关键点到视频生成接下来是使用第(1)部分中的关键点序列和关键顿生成重建视频。由于不同时刻的关键点具有不同的姿态,并且在特定时刻解码端只有一个关键顿,因此可能会出现关键点和关键帧姿势之间的空间位置不匹配。为了解决这个问题,首先将关键点与关键帧中检测到的关键点1对齐姿势。因此,使用了带尺度和偏差的线性模型对变换进行建模。这里使用(y)和()(y)和()表示在l.和lg中的2 对对应的关键点。则x方向的线性模型可以表示为式(1)、(2):S=-Xbidx其中s和b,分别表示x方向的尺度和偏差系数。同理,可以得到y方向的线性系数,记为S和by。根据该几何变换对关键点进行逐点变换,然后将变换后的关键点连接起来,形成新的人脸边缘图e。为了合成人脸以外的细节,还需要从关键顿中提取边缘图ei。将ei中的人脸部分替换为e,保留人脸以外区域的边缘,生成边缘分布图es。基于文献11 中的边缘到视频合成模块,使用边缘分布图es和解码的关键顿作为输入生成重建视频。生成器部分被设计为一个由粗到细的结构架构,而鉴别器被设计为保证生成顿的质量和连续性。有关边缘到视频合成模块的网络架构细节,请参阅文献11。3实验结果与分析3.1实现细节本文使用MEAD201作为数据集,其中包括6 0 名男80移动通信2024年2 月第2 期女演员和8 种不同的情感。由于VVC压缩比较耗时,因此只使用16 个视频作为测试集进行比较,其中包括2 个演员,每个演员有8 个不同情感的视频。在压缩前,所有视频被转换为512 512 2 5fps。本文采用具有顿内编码配置的VTM15.0作为所提框架的图像编码器。将量化参数分别设置为2 2、2 7、32、37 和42,可以得到率失真曲线。在FFMPEG(Fa s tForwardMovingPictureExpertsGroup)平台上,使用AAC标准对输入音频压缩,输出码率设置为12 8 kbps。本文以VVC为对比基准。考虑到VVC对YUV数据的友好性,测试视频首先被转换成YUV格式,然后再用VVC进行压缩。然后将图像解码得到的重构图像转换回RGB域,再进行边缘关键点检测。由于本文的方案和使用VVC的方案中音频编码都使用了完全相同的设置,因此下面的结果中不包括音频消耗的带宽和音频质量。所有实验均在Intel(R)Core(TM)i9-10900X CPU3.70GH和NVIDIAGTX3090GPU上运行。3.2质量评价标准考虑到人们在视频会议中更关注语义,将语义保真度设定为所提方案的目标。然而,如何度量语义保真度仍然是一个开放问题。因此,选择6 个指标作为质量评估指标:DISTs21、LPIPS2 2 、FID 2 3、LVD I 、PSNR(Pe a kSignal-to-Noise Ratio,峰值信噪比)和SSIM(St r u c t u r a lSimilarity,结构相似性)。对于前4个指标,越小越好;(1)对于最后2 个,越高越好。后续结果中将每顿的得分进giidx2idxi行平均作为整个视频的质量度量。(2)3.3定量结果为了定量评估所提框架的压缩性能,将本文工作与VVC进行了比较,结果如图2 所示。从图中可以看到,在低比特率情况下,与VVC相比,所提方案在DISTS、LPIPS和FID方面都有较大的性能提升。在所有比特率下,所提框架的DISTS性能都优于VVC。对于LPIPS和FID,所提框架分别在15kbps以下表现更好。在度量嘴部关键点运动准确性的LVD方面,由于本文工作的关键点由音频驱动,其精度还有待进一步提高,因此表现不如VVC。V V C 通过确保每个像素的保真度间接保证了这一点。此外,由于重建视频的时间信息是从音频中推断出来的,并且是在第一帧的基础上合成的,因此本文的方法由于丢失了像素级信息,在PSNR和SSIM上的表现明显比VVC差得多,但是通常而言用户并不关注像素具体值。3.4定性结果定性对比结果如图3所示。第一列是原始视频顿,第48 卷总第52 2 期徐盛鹏,覃浩峻,宋晓丹,等:面向视频会议的音频辅助视频编码方法从不同的视频中采样获得;第二列是VVC的重构结果;第三列是本论文的重构结果;第四列是关键顿的重建图像。为了公平起见,两种方案都设置了相似的比特率。可以观察到,VVC存在严重的块效应和模糊效应,而本论文的结果的视觉质量更好,可以清晰显示面部结构,如嘴、鼻子、眼睛甚至情绪,使视频更自然和舒适。通过与重建关键帧对比,可以看出虽然所提方法的质量与关键帧相似,但由于引人了从音频中提取的面部运动,从而具有动态性。尽管所生成的视频在客观上与原始视频不相似,但它向接收端的人类传递了所需的语义。值得注意的是,可以使用更强大的生成网络来改善视频重建质量。0.280.33一本文框架一0.230.140.100.050.002.001.851.7021.551.401.250.003.5计算复杂度表1编码和解码时间对比量化参数22方法VVCEnc.Ours Enc.Speed Up Enc.VVCDec.Ours Dec.Speed Up Dec.表1比较了所提方案与VVC的编码时间和解码时间对比。本论文框架的编码器在CPU上运行,其中只包含+VVC-VVC+本文框架0.270.22SdIdT0.160.110.0510.0020.00码率/kpbs-VVC一本文框架10.0020.00码率/kpbs原始图像S273212.7297.33373.4161.331731204.333.2636.3336.130.120.09160.00130.00100.0070.0040.0010.0030.000.0045.0040.0035.0025.0020.0030.000.00图2速率失真曲线对比VVC本文框架3745852.90546.0628.931001002.942.2636.0536.110.080.06-VVC一本文框架10.0020.00码率/kpbs-VVC本文框架10.0020.00码率/kpbs42191217.661081.9835.930.0630.000.001.000.980.93WISS0.880.830.7830.000.00重建的关键帧10.00码率/kpbs10.0020.00码率/kpbs20.00VVC本文框架30.0030.00(a)演员1,惊喜情绪,第30 顿(b)码率:4.59kbps(c)码率:4.55 kbps(d)(e)演员2,蔑视情绪,第30 帧(f)码率:3.7 8 kbps(g)码率:3.6 5 kbps图3视觉质量对比(h)移动通信2024年2 月第2 期81第48 卷“语义通信”专题1总第52 2 期一个图像编码器;解码器同时在CPU和GPU上运行。VVC的编码器和解码器在CPU上运行。音频的编解码时间不统计在内。其中编码时间加速比定义为式(3):VVC Enc.Speed Up Enc.Ours Enc.解码时间的加速比定义为式(4):VVC Dec.Speed Up Dec,=Ours Dec.实验结果表明,VVC编码时间是本文方法的编码时间的10 0 17 3倍,因此本文方案适用于功率受限的视频会议设备。虽然所提方案的解码时间比VVC慢,但可以采用轻量化神经网络和网络压缩策略降低解码时间。4结束语本文提出一种面向视频会议的音频辅助视频编码方法,通过利用音频和视频之间的语义相关性,可以实现超低码率视频通信,并保持重建视频的高语义保真度。目前对视频和音频相关性的研究主要集中在解码端,未来将进一步研究端到端的视音频联合编解码方法。当前视频编解码性能的提升已经举步维艰,尽管有很多学者在利用深度学习提升编解码性能,但是笔者认为视频以及其他模态信源编码需要更广阔的探索。尽管比较粗糙,但是本文是对多模态联合编解码方法的尝试和探索,也期待能够有更多的工作。参考文献:1 Wiegand T,Sullivan G J,Bjontegaard G,et al.Overview of the H.264/AVC video coding standardJJ.IEEE Transactions on Circuits andSystems for Video Technology,2003,13(7):560-5762Sullivan G J,Ohm J R,Han W J,et al.Overview of the HighEfficiency Video Coding(HEVC)StandardJ.IEEE Transactions onCircuits and Systems for Video Technology,2012,22(12):1649-1668.3Bross B,Wang Y K,Ye Y,et al.Overview of the Versatile VideoCoding(VVC)Standard and its ApplicationsJ.IEEE Transactions on Circuits and Systems for Video Technology,2021,31(10):3736-3764.4Siarohin A,Lathuiliere S,Tulyakov S,et al.First Order MotionModel for Image AnimationCj/Conference on Neural InformationProcessing Systems.MIT Press,2019:7137-7147.5Wang T C,Mallya A,Liu M Y.One-Shot Free-View Neural Talking-Head Synthesis for Video ConferencingC/IEEE/CVF ComputerVision and Pattern Recognition Conference.IEEE,2021:10034-10044.6Tang A,Huang Y,Ling J,et al.Generative Compression for FaceVideo:A Hybrid SchemeCJ/2022 IEEE International Conference onMultimedia and Expo(ICME).IEEE,2022:1-6.7Chen B,Wang Z,Li B,et al.Beyond Keypoint Coding:TemporalEvolution Inference with Compact Feature Representation for TalkingFace Video CompressionCJ/2022 Data Compression Conference(DCC).IEEE,2022:13-22.8 Li B,Chen B,Wang Z,et al.Towards Ultra Low Bit-RateDigital Human Character Communication via Compact 3D FaceDescriptorsCJ/2022 Data Compression Conference(DCC).IEEE,2022:461-461.9Suwajanakorn S,Seitz S M,Kemelmacher-Shlizerman I.SynthesizingObama:learning lip sync from audioJ.ACM Transactions onGraphics,2017,36(4):1-13.10Chen L,Maddox R K,Duan Z,et al.Hierarchical Cross-Modal82移动通信2024年2 月第2 期Talking Face Generation With Dynamic Pixel-Wise LossCJ/IEEE/CVF Computer Vision and Pattern Recognition Conference.IEEE,2019:7824-7833.11 Ji X,Zhou H,Wang K,et al.Audio-Driven Emotional VideoPortraitsCJ/IEEE/CVF Computer Vision and Pattern Recognition(3)Conference.IEEE,2021:14075-14084.12 Zhang X,Wu X,Zhai X,et al.DAVD-Net:Deep Audio-Aided VideoDecompression of Talking HeadsC/IEEE/CVF Computer Visionand Pattern Recognition Conference.IEEE,2020:12332-12341.(4)13Zhao Z,Wang S,Wang S,et al.CNN-Based Bi-Directional MotionCompensation for High Eficiency Video CodingC/2018 IEEE IntermationalSymposium on Circuits and Systems(ISCAS).IEEE,2018:1-4.14Li Y,Liu D,Li H,et al.Convolutional Neural Network-Based BlockUp-Sampling for Intra Frame CodingJJ.IEEE Transactions onCircuits and Systems for Video Technology,2018,28(9):2316-2330.15 IPuri S,Lasserre S,Le Callet P.CNN-based transform index prediction inmultiple transforms framework to assist entropy codingCj/EuropeanSignal Processing Conference(EUSIPCO).IEEE,2017:798-802.16Song X,Yao J,Zhou L,et al.A Practical Convolutional NeuralNetwork as Loop Filter for Intra FrameC/IEEE InternationalConference on Image Processing(ICIP).IEEE,2018:1133-1137.17 Lu G,Ouyang W,Xu D,et al.DVC:An End-To-End Deep VideoCompression FrameworkCJ/IEEE/CVF Computer Vision andPattern Recognition Conference.IEEE,2019:10998-11007.18 Rippel O,Nair S,Lew C,et al.Learned Video CompressionCJ/Proceedings of the IEEE/CVF International Conference on ComputerVision(ICCV).IEEE,2019:3453-3462.19Chen T,Liu H,Shen Q,et al.DeepCoder:A deep neural networkbased video compressionC/IEEE Visual Communications andImage Processing(VCIP).IEEE,2017:1-4.20Wang K,Wu Q,Song L,et al.MEAD:A Large-Scale Audio-VisualDataset for Emotional Talking-Face GenerationCj/EuropeanConference on Computer Vision(ECCV).Springer,2020:700-717.21 Ding K,Ma K,Wang S,et al.Image Quality Assessment:UnifyingStructure and Texture SimilarityJj.IEEE Transactions on PatternAnalysis and Machine Intelligence,2022,44(5):2567-2581.22 Zhang R,Isola P,Efros A A,et al.The Unreasonable Effectivenessof Deep Features as a Perceptual MetricCJ/Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2018

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开