温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
人工智能
视频
参考
自适应
算法
分析
李婵
2023年第47卷第4期60语 音 技 术语 音 技 术oice TechnologyV文献引用格式:李婵,郝文江,智玥.基于人工智能的音视频参考帧自适应算法分析 J.电声技术,2023,47(4):60-62.LI C,HAO W J,ZHI Y.Analysis of adaptive algorithms of audio and video reference frames based on artificial intelligenceJ.Audio Engineering,2023,47(4):60-62.中图分类号:TN948.63 文献标识码:A DOI:10.16311/j.audioe.2023.04.016基于人工智能的音视频参考帧自适应算法分析李 婵,郝文江,智 玥(山西应用科技学院,山西 太原 030000)摘要:为保障广播电视音视频的清晰度、精确度,可以基于人工智能技术进行音视频参考帧自适应,契合当前广播电视网络发展现状,实现端点到端点之间音视频质量和码流的综合优化。分析基于人工智能的音视频参考帧自适应算法,以期为我国广播电视网络和视听传播技术的发展提供参考。关键词:人工智能;音视频;参考帧;自适应算法Analysis of Adaptive Algorithms of Audio and Video Reference Frames Based on Artificial IntelligenceLIChan,HAOWenjiang,ZHIYue(ShanxiUniversityofAppliedScienceandTechnology,Taiyuan030000,China)Abstract:Inordertoensuretheclarityandaccuracyofradioandtelevisionaudioandvideo,audioandvideoreferenceframescanbeadaptedbasedonartificialintelligencetechnology,whichisinlinewiththecurrentdevelopmentstatusofradioandtelevisionnetworksandrealizesthecomprehensiveoptimizationofaudioandvideoqualityandcodestreamfromendpointtoendpoint.Thispaperanalyzestheadaptivealgorithmofaudioandvideoreferenceframesbasedonartificialintelligenceinordertoprovidereferenceforthedevelopmentofradioandtelevisionnetworksandaudio-visualcommunicationtechnologyinChina.Keywords:artificialintelligence;audioandvideo;referenceframe;adaptivealgorithm0 引 言在智能化发展的今天,超高清音视频成为广播电视行业未来发展的要素,并逐渐呈现出高清技术向 4K、8K 超高清技术之间的有效演进。以 4K 技术为基础,实现 4K 先行的同时兼顾 8K 超高清音视频技术路线,确保能够更好满足新形势、新媒体生态下的消费者需求1。结合广播电视网络现状,对音视频信息质量进行专项优化,提高语音和图像信息的可理解度、清晰度。基于此,结合人工智能技术探讨音视频参考帧自适应算法有重要的应用意义和实践价值。1 广播电视音视频系统结构组成从总体发展角度来看,广播电视领域音视频结构可以划分为 3 个部分,分别是信源、信道以及信宿。信源主要指音视频信息的来源,如已经制作好的音视频资料等。在音视频制作过程中,需要紧密结合用户需求,打造智慧广电音视频内容。综合应用人工智能技术、深度合成技术等实现文本篇章生成、语音转换、音乐或场景生成与编辑、人脸替换、图像增强、影像修复以及三维重建等多项音视频编辑功能,大幅提升了音视频内容的针对性和时效性,同时也可以提升广播电视机构在音视频内容生产制作方面的高效化水平和智能化能力。信道是音视频传输过程中所应用的媒介,如广播电视卫星、电缆、光纤等。信道同时兼具了音视频信号的混合调节和放大处理等综合化作用。信宿专指接收系统,如客户端应用的信号接收天线、电视机顶盒等均属于信宿2。2 人工智能技术在广播电视音视频内容生产方面的应用需求随着我国人工智能技术的全面革新和进步,广作者简介:李 婵(1996),女,硕士,助教,研究方向为智能计算。2023年第47卷第4期61Voice TechnologY语 音 技 术语 音 技 术播电视网络全面实现供给侧结构改革,进一步朝着高质量方向发展。将人工智能技术应用于音视频内容生产方面,主要体现在智能技术的生产运用、内容创新以及平台开放服务 3 方面需求。在人工智能技术的生产与应用方面,可以应用人工智能手段进行音视频内容的智能化审核、增加媒体标签、智能化去广告以及对现有语音转化为文字等功能,不论是功能应用区间,还是音视频内容生产加工,整体应用优势显著,大幅提升了音视频内容的生产效率和质量。在内容创新方面,可以应用人工智能技术进行精准化分析,建立数据模型。例如,可以对足球、篮球等相关体育类项目进行进球集锦音视频内容的自动化生产与编辑等3。在内容生产平台开放服务方面,可以以人工智能技术为核心,加速融媒体进程,实现现有影视内容的智能转码和数字版权管理(Digital Right Management,DRM)保护、分发等。3 基于人工智能的音视频参考帧自适应算法实现路径以人工智能技术为核心研究参考帧自适应算法,主要涵盖场景环境内自适应音频处理、音频降噪、回声清除等算法,确保能够在人声环境、音乐环境、噪声环境等不同场景环境下提高音频质量,提升音频语言的清晰度和可理解度。与此同时,结合人工智能技术和深度学习,研究实时视频流高效处理算法,提升视频的超清分辨率,并对内容进行优化,实现自适应参考帧视频解码,保障音视频的可靠性传输,确保满足相对复杂网络条件和传输条件下音视频数据流的高精准度和高质量传输4。3.1 信号源噪声处理信号源噪声主要为声学回声,可以应用回声与麦克风近端信号信源相分离的处理模式进行噪声处理,同时也可以应用人工智能深度学习算法对音视频中的回声进行精准模拟抵消,进而得到近端信号,实施数字信号处理。基于人工智能搭建噪声背景数据模型,进而得出噪声频谱特征,以数据训练模型,达到背景噪声与人声之间的多场景、多维度无损分离,最终实现降噪目标。噪声背景训练模型的建设水平直接影响信号源噪声处理效果,可以针对现有音频进行建模,并对其中的噪声、人声等进行精准识别和有效分类,进而生成仿真模拟任务。在输入样本时,要保证音频数据的精准度,确保可以直接提取音频数据中的特征,实现信号输出和信号识别。训练模型可以基于二值神经网络(Binary Neural Networks,BNN)结构引进 COMEL 优化工具提取音频波形特征,将原有音频波形转化为梅尔频率倒谱系数,实现分类与编码,测试完数据集的准确性后才可以进行模型评估和数据上传,确保能够实现频谱的有效修正。此类专项处理声学回声消除和信源分离的信号源噪声处理训练模型如图 1所示,有利于对不同场景的音频噪声进行模拟和识别,强化特征识别效果,同时可以对语音进行增强,实现回声消除。3.2 插帧与自适应参考帧选取我国广播电视媒体领域广泛应用的视频帧率均为 25 fs-1或 35 fs-1,在观看时难免会出现视频播放卡顿等情况,影响观众的视觉观感,甚至在一定程度上限制了高刷新率显示器的性能。基于人工智能进行插帧优化和高帧率重建,通过算法形式提升时序分辨率,保障视频播放的平滑度和流畅效果。以往开展插帧优化时需要以运动估计算法为核心进行设计与评估,对不同像素的运动轨迹进行估算,进而生成视频帧。但是此种插帧方法局限性较大且过度依赖运动估计。如果出现运动估计准确性不高的问题,会造成不同视频帧运动量过大、纹理缺失,降低不同估计帧的精准度。基于人工智能和深度学习可以优化插帧方式,以高帧率视频为核心进行数据建模,实现机器学习,完善不同视频圈之间的运动轨迹,继而生成重建帧。在自适应参考帧选取中,落实 AVS3 编码需要各个控制单元(Control Unit,CU)均经历预测,在多个视频参考中选取效果最优的预测帧,计算复杂程度相对较高。对此,可以根据视频数据不同区域的运动情况和特征进行识别,实现自适应参考帧的优化选取,进一步保障复杂区段的编码质量,提升编码速度5。3.3 低延时 CBR 控制与实时编码在视频编码阶段要强化码率控制,通过获取和强化视频信源特性与可用网络带宽,对视频中不同帧图像和所处区域实现比特功率的优化分配,进而应用编码器实现编码,使最后输出的码流更加符合信道传输要求。对于不同视频信息而言,信源的帧2023年第47卷第4期62语 音 技 术语 音 技 术oice TechnologyV数复杂程度各不相同,但是网络带宽基本恒定,因此在进行码率控制时可以提前设置缓冲区,以实现恒定码率(Constant Bit Rate,CBR)。传统类型编码器在应用时需要对未来帧的复杂程度进行评估与分析,进而估算缓冲区的占用水平,控制不同帧的具体大小,实现输出码率的平衡和稳定。但是此种编码器运行方法难免会受到新业务场景的影响,导致延时逐渐增大,因此需要建立新型码率模型,对已经完成编码帧的运动信息进行综合量化与分析计算,从而进一步控制未来若干帧的具体大小、平衡缓冲区大小及形态。除此之外,通过实时编码也可以起到稳定输出码率的目标。例如,结合高效率视频编码(High Efficiency Video Coding,HEVC)编码器进行性能分析,针对不同模块编码时间占比情况进行统计。HEVC 编码器模块及像素运行结果如表 1 所示。表 1 HEVC 编码器模块及像素运行结果序列编码模块时间消耗占比/%像素搜索时间占比/%Merge&SkipInter-2Nx2N+Rect PUIntra整像素分像素Traffic226011620People On Street146218722Basketball1075121334Bqterrace165520520Cactus155919723Kimono156021624Park Scene176115525Average166016825由表 1 可知,绝大多数计算量集中分布于预测单元的优化选择方面,主要涵盖了运动搜索等,如整项数和分项数的搜索。分别针对不同分像素和整像素获取预测平面,实现帧内预测,降低编码的复杂程度,同时也能够满足超高清音视频的实时编码需求。3.4 智能丢包补偿在音视频传输过程中容易出现丢包现象。以往解决丢包问题时往往应用自动重传(Automatic Repeat Request,ARQ)等技术提高音视频的平滑发送效果,并做好分解保护和缓存收缩。其核心在于应用拥塞控制算法,在保证音视频传递延时过程中,确保发送速率与可用速率相接近,避免发生二者不匹配或与网络可用带宽不匹配,进而引发丢包、音视频抖动等情况。针对不同类型的应用场景,可以优化专项信源传输策略,进而保障广播电视音视频传播需求。例如,可以应用CMAF-DASH 进行实时传输,尤其适用于直播场景,能够有效降低时延。对于实时通信(Real-time Communications,RTC)场景而言,需要进一步强化控制及反馈机制的灵敏度,对此可以对带宽波动情况进行实时探测与跟踪,应用多重分发策略和丢包补偿技术,提升传输可靠性。即使出现网络质量不稳定或极端恶劣情况,也可以联合应用传输端和信源编码端,实现优化降噪,保障音视频流畅 稳定。4 结 语在新时代发展背景下,人工智能技术的应用有利于进一步减轻人工压力,提高工作效率。根据当前我国广