温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
广电
行业
网站
视听
节目
监测
系统
设计
李军
广播与电视技术 2023年 第50卷 第2期24热点 论点网络视听节目监测监管 Monitoring and Supervision of Network Audio-visual Programs广电行业网站视听节目监测系统设计【摘 要】本文分析了当前广电行业网站视听节目监测面临的实际问题,结合当前先进的计算机技术,充分利用云计算、大数据、深度学习、人工智能及网络等方面的最新技术与成果,设计了一套可扩展的、一体化的智能化监测系统。系统建成后能有效提高监测工作效率,降低人工劳动强度,减少主观差错率。【关键词】网站视听节目,内容监测,云计算,大数据【中图分类号】TN949.292/TP319 【文献标识码】B 【DOI编码】10.16171/ki.rtbe.20230002003【本文献信息】李军.广电行业网站视听节目监测系统设计J.广播与电视技术,2023,Vol.50(2).Design of Audio-visual Program Monitoring System for Radio and Television Industry WebsiteLi Jun(Guizhou Radio and Television Monitoring Center,Guizhou 550001,China)Abstract This paper analyzes the actual problems faced by the current monitoring of audio-visual programs in the radio and television industry website,combines the current advanced computer technology,makes full use of the latest technologies and achievements in cloud computing,big data,deep learning,artificial intelligence and network,and designs a scalable and integrated intelligent monitoring system.After the system is completed,it can effectively improve the monitoring efficiency,and reduce the labor intensity and subjective error rate.Keywords Website audio-visual program,Content monitoring,Cloud computing,Big data李军(贵州省广播电视监测中心,贵州 550001)0 引言在新媒体浪潮下,互联网网站视听节目不断发展进步,相关视听节目的制作及传播发展迅速,传播手段多种多样,节目内容越来越广,网站视听行业的舆论宣传作用在不断加强,对于大众生活的影响在逐步加深,互联网传媒已深刻渗透到民众的精神世界。促进互联网网站视听服务健康繁荣发展,打击和抵制违法、违规视听节目是监管部门不容回避的责任。贵州省广播电视监测中心作为广播电视和互联网视听节目内容监管的职能单位,需要通过数字化技术手段完成对广电行业网站视听节目的有效监管,及时掌握所辖区域内的互联网视听节目是否存在内容不符合总局相关规定要求的情况。为此,需要针对辖区内持证备案、无证重点视听网站以及网站中的视听节目内容,采用相关软硬件集成技术,设计一套可扩展的、一体化的智能化监测监管系统。通过智能化的技术手段实现我省广电行业网站视听节目内容的全覆盖监管,全面提高我省广播电视和网络视听节目的监管效率和能力,为政府职能部门提供科学的行政执法依据,净化荧屏声屏质量,依法保障人民群众收听收看广播电视的合法权益。1 系统架构总体设计1.1 系统总体框架贵州省广电行业网站监测系统采用面向服务的架构,基于服务总线,充分利用最新计算机技术,设计一套技术先进、高效实用的网站内容监测系统。系统通过业务总线技术体现高 RAS(Remote Access Service,远程访问服务)技术要求,构建弹性的基础架构,能够解决可伸缩基础架构的所有方面的问题。广播与电视技术 2023年 第50卷 第2期25热点 论点Monitoring and Supervision of Network Audio-visual Programs 网络视听节目监测监管本系统将架构构建模块和给予角色的门户组合起来以便实现高度重用公共服务、重用基础架构和基础组件、减少业务流程变更及开发新业务所需的时间,为未来新的业务系统扩展奠定良好技术基础的目标,如图 1 所示。总体框架可划分为基础设施、数据采集与存储、业务支撑服务、业务应用系统四个层级,结合运行维护管理体系构成本监测系统的总体架构。1.基础设施层。基础设施所包含的政务云虚拟化资源、政务云网络资源、政务云存储资源、安全防护资源。2.数据采集与存储。通过网络爬虫完成对互联网网站的深度爬取,对网站中的文本、图像、音视频文件进行数据采集。3.业务支撑服务。业务支撑服务采用模块化设计,通过企业服务为上层业务系统提供基础支撑、平台、应用、数据等服务。4.业务应用系统。通过处理采集到的数据,结合涉黄、涉暴图像识别技术完成对网站视听节目的违规识别。1.2 逻辑架构逻辑架构包含采集对象、数据采集、数据处理与存储、数据处理分析以及业务应用系统五大区域,如图 2 所示。1.采集对象。包括贵州省辖区内的持证无证视听网站。2.数据采集。网站视听节目采集主要采用网络爬虫方式对贵州省辖区内的持证无证视听网站进行周期性扫描采集。3.数据处理与存储。对数据源采集到的结构化和非结构化数据进行有序存储,主要包括文本、图像、音频、视频。4.数据处理分析。利用人工智能引擎进行语音识别、人脸识别、涉黄识别、涉暴识别等专项监管业务分析。5.业务应用系统。针对业务类型,定制交互系统,对业务数据进行展示和统计。1.3 数据架构本系统监测数据为专用的数据,不需要通过数据共享交换平台进行数据交换,如图 3 所示。图1 总体框架设计图网站视听节目监测系统总体框架设计语音关键词检索数据存储广播电视新闻节目语音关键词库广播电视新闻、敏感人物库语音识别视频特征样例检索人脸识别涉黄图像识别涉暴图像识别大规模文本排重结构化信息抽取垃圾文本信息过滤全文检索结构化信息数据涉黄涉暴图像库网站视听节目图像、文本、音视频文件政务云虚拟化资源政务云网络资源政务云存储资源业务应用系统业务支撑服务数据采集与存储基础设施安全防护运行维护系统巡检数据巡检数据备份数据恢复重保期维护广播与电视技术 2023年 第50卷 第2期26热点 论点网络视听节目监测监管 Monitoring and Supervision of Network Audio-visual Programs图2 系统逻辑架构图图3 数据架构图采集对象结构化数据数据处理与存储数据处理分析广电行业持证网站视听节目业务应用系统网站视听节目采集数据采集非结构化数据音视频文件图像文件文本文件视频特征音频特征视听节目信息库违规内容样本库持证备案网站库无证视听网站库违规内容关键词库语音识别语音关键词检索视频特征样例检索持证备案视听网站监测无证视听网站监测广电行业无证网站视听节目涉黄图像识别涉暴图像识别结构化信息抽取垃圾文本信息过滤全文检索人脸识别网站视听节目监测系统网站视听节目采集前端 数据资源结构化存储 数据资源非结构化存储结构化数据分析非结构化数据分析实现网站视听节目相关业务的全面监测视听网站库违规关键词库违规样本库音视频文件音视频特征文本图像文件音视频文件违规监测文本关键词库违规监测图像违规监测音视频文件违规监测文本关键词库违规监测图像违规监测广播与电视技术 2023年 第50卷 第2期27热点 论点Monitoring and Supervision of Network Audio-visual Programs 网络视听节目监测监管数据架构自上而下分为四个层次,第一层主要完成各类数据的采集,第二层完成对采集到的结构化数据和非结构化数据归类存储,第三层主要是对各类数据进行处理和分析,第四层主要是实现对各类数据处理结果的展示和 统计。1.4 技术架构技术架构主要包含音视频节目源、数据存储、处理识别引擎、领域知识库、业务应用系统管理五大区域,如图 4 所示。1.音视频节目源。互联网网站视听节目。2.数据存储。主要用于互联网视听节目的结构化数据与非结构化数据的存储。3.处理识别引擎。主要用于完成网站视听节目内容的识别分析,主要包含:语音关键词检索、转码特征提取、音视频样例比对、人脸识别、暴恐视频识别、色情图像和视频识别、有害文本内容识别等。4.领域知识库管理。主要包含敏感关键词库、敏感图像样例库、敏感音视频样例库、识别模型库等。5.业务应用管理系统。主要用于对网站视听节目监测系统相关业务功能模块的管理、识别引擎管理、外部接口调用以及数据共享服务管理等。2 系统功能设计2.1 功能架构网站视听节目监测系统功能架构设计如图 5 所示。2.1.1 数据采集与存储采集与存储是平台的数据源获取层,本系统主要采用互联网网站深度智能爬虫完成互联网网站视听节目的自动采集、存储。数据存储主要包括业务数据库与文件存储,业务数据库用于存储网络视听节目结构化信息数据,文件存储用于存储相关数据文件,例如系统从网络上下载的图像文件、音视频文件、文本文件等。2.1.2 数据智能识别分析平台智能分析平台采用模块化设计,通过企业级服务总线为上层业务系统提供基础支撑、平台、应用、数据等服务,包括涉黄图像识别、涉暴图像识别、大规模文本排重、结构化信息抽取、垃圾文本信息过滤、全文检索等。图4 技术架构图网站视听节目监测系统识别模型库敏感音视频样例库敏感图像样例库敏感关键词库领域知识库领域知识库管理引擎语音关键词检测人脸识别音视频样例比对色情图像&视频识别暴恐视频识别转码特征提取新闻拆条业务应用系统识别引擎管理与调度任务管理外部调用接口数据接口服务数据存储音视频、图像、文本有害文本内容识别数据安全外部业务系统广播与电视技术 2023年 第50卷 第2期28热点 论点网络视听节目监测监管 Monitoring and Supervision of Network Audio-visual Programs2.1.3 业务应用系统网站视听节目监测系统主要完成对互联网持证备案以及重点无证视听网站的监测监管,对视听网站进行数据的深入抓取,自动搜索网站中的视听节目,获取节目列表,并通过文本分析、图像分析等智能数据分析技术,自动发现网站中疑似有害节目的违规情况,并对其进行自动归类。经过业务人员确认违规的可完成视听节目下载取证,实时统计持证视听网站的节目更新数量、节目违规数量。2.2 业务流程网站视听节目监测系统主要包括以下步骤:1.利用深度智能爬取技术对用户设置的网站进行深度爬取,获取相关的文本、图像、视听节目数据;2.结合违规知识库,对发布视频进行违规视听词库过滤;3.基于涉黄涉暴图像识别进一步发现潜在的疑似违规视听节目内容;4.对生成的疑似违规视听节目列表进行人工确认;5.根据人工审核结果,生成统计报表。2.3 持证备案视听网站监测子系统功能模块2.3.1 网站视听节目采集利用分布式采集技术实现对众多视听网站的多线程高并发实时采集。主要用到的技术包括主题聚焦爬虫技术、热点汇聚分析技术、垃圾文本信息过滤技术、分布式采集 技术。2.3.2 持证网站管理针对监管目标持证(AVSP 许可证)网站进行管理,可根据“网站名称”“网站域名”“视听服务许可证(AVSP)号”等条件对网站信息进行查询,可对持证网站信息进行增加、修改、删除等操作。图5 系统功能架构图网站视听节目监测系统业务应用系统数据智能识别分析平台数据采集管理与存储持证备案视听网站监