温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
城市
新闻
AI
编目
探索
实践
陈大可
广播与电视技术 2023年 第50卷 第3期38内容制播 Content Production&Broadcasting城市台新闻媒资AI编目的探索与实践【摘 要】本文主要介绍了绍兴市新闻传媒中心集团新闻媒资AI编目的项目背景、实施过程中所遇到的主要技术问题,解决应对策略和实现办法,对同类项目具有一定的借鉴意义。【关键词】新闻媒资,自动编目,人工智能技术【中图分类号】G220.7 【文献标识码】B 【DOI编码】10.16171/ki.rtbe.20230003006【本文献信息】陈大可.城市台新闻媒资AI编目的探索与实践J.广播与电视技术,2023,Vol.50(3).Exploration and Practice of AI Cataloging of News Media Asset in City TV StationsChen Dake(Shaoxing News and Media Center,Zhejiang 312000,China)Abstract This paper mainly introduces the project background of AI cataloging of news media asset in Shaoxing News Media Center Group.Then it discusses the main technical problems in the implementation,and finally presents propositions and solutions that may provide certain references for similar projects.Keywords News media asset,Automatic cataloging,Artificial intelligence technology陈大可(绍兴市新闻传媒中心集团,浙江 312000)0 引言人工智能在广播电视领域的应用正日渐广泛而成熟,在视频媒资领域各广电单位也正加紧实际应用的探索。绍兴市新闻传媒中心作为努力争创地市级媒体融合范本的融合先导单位,一直努力紧跟媒体科技发展步伐;同时,高效率低成本的视频媒资利用也是中心融合发展的现实紧迫需求。媒资的高效再利用,编目是基础。作为一家地市级城市电视台,最大最主要的视频媒体资源是新闻,媒资检索需求最大的是新闻,编目工作量最大的也是新闻。新闻又具有相对固定的节目形态和制作模式,基于此,我们认为在新闻媒资方面真正实现可实用化的满足中心相当于二级编目新闻检索需求的AI 自动编目是可行的。在大量技术摸排和方案论证的基础上,我们启动了绍兴市新闻传媒中心新闻媒资 AI 编目项目。1 新闻媒资AI编目主要所涉技术AI 编目系统基于弹性调度框架,集成所需厂商的 AI功能,如语音识别、人脸识别、场景识别、自然语言处理NLP(Natural Language Processing)、自动拆条并通过统一接口提供服务,支持分布式处理,通过多节点高并发处理,大幅提高 AI 处理的效率。整体编目系统框图如图 1 所示。系统在硬件基础外,主要 AI 技术涉及语音识别、语义分析、人脸识别、场景识别以及基于上述 AI 技术的 NLP、智能拆条等相关技术。人脸识别是比较成熟的技术,已经有较为广泛的应用,准确度已经可以支撑编目需求。语音识别虽然已经有着较为广泛的应用,但相比较于人脸识别,相对容易引发歧义和误记录,进而引发语义识别的困难,特别是在吴越方言地区的绍兴。相对而言,语义识别一方面需要进一步加强 AI 自动学习和性能优化,另一方面也需要更有针对性的建模识别辅助。NLP 在 AI 编目领域是基于语音识别和语义分析的人工智能,通过基于概率的算法分析输出结果,这也是生成媒资资料摘要的基础。但让机器高效精准地理解人类语言在当下还是困难的,在此基础上生成准确精要的摘要更是 困难。广播与电视技术 2023年 第50卷 第3期39Content Production&Broadcasting 内容制播 场景识别是关键帧提取的技术基础,相比较于人脸识别在准确度上可直接作为自动编目的依据,场景识别目前还难以达到,在一些如图像 AI OCR 文字识别等识别功能模块帮助下,同时与 NLP 紧密结合,一定程度上能提高识别准确度。自动拆条是自动编目的基础,自动拆条的技术基础正是基于上述语音识别、语义分析、场景识别等相关技术,自动拆条在多个应用场景特别是移动端节目生产中多有应用报道,但对于真正完全精准切分拆条不再人工干预,各使用单位大多仍在探索之中。2 新闻媒资AI编目所遇主要问题2.1 NLP方面问题语音识别方面,我们查到的指标是安静环境下的标准普通话转写正确率不低于 95%,嘈杂环境下的标准普通话识别率不低于 85%,在方言环境里应该更低于 85%,这看似较高的 85%,在自动编目生成标签时就会出现大量的错误标签而导致资料难以被检索使用。同时,每期新闻节目的开头、转场及结尾都存在着背景音,背景音经过语音识别后,经常会被错误地识别为文字,这也是需要解决的问题。语义分析方面,由于语义分析容易发生语义歧义现象,导致牛头不对马嘴的错误标签产生,要实现 AI 自动编目,人名、地名提取方面始终是一个难点。通过语言结构分析容易分析判定为一个人名或地名,但难以克服同音、谐音等问题,特别是方言背景下地方性很强的一些地名,容易导致这类错误提取的标签难以检索使用。正确理解和表达自然语言虽然随着 AI 技术的发展进展迅速,但由于语言的多样性、歧义性乃至不同语境和不同个体之间的语言结构等等各种复杂情况,要准确无误地做到高标准的自动摘要现在仍然是非常困难的。其实即使是人工编目所编摘要,编辑的摘要水平也是参差不齐,与编目人员关联度很大。2.2 场景识别方面的问题场景识别作为一种 AI 算法,在自动编目方面遇到的问题与人名地名标签提取有类似之处,只是这是图像化的标签,一方面是需提取的关键帧是否能有效提取,另一方面是提取了大量的无效关键帧需进行清洗过滤,否则会直接淹没有效的关键帧,导致实际使用困难。2.3 自动拆条方面问题自动拆条的精准性始终是一个需要关注的重点,一方面对于场景识别与判断在 AI 方面有待进一步提升,另一方面在语义方面也应考虑到新闻特点,应该把这方面作为自动拆条的主要依据之一。3 新闻媒资AI编目问题解决探索3.1 增加AI处理模块在去除背景音方面,目前已经有相对成熟的解决方案,我们尝试在多模态的 AI 处理语音识别环节中引进去背景音的AI 模块较好地解决了该问题。该模块功能简单地说就是通过短时傅里叶变换(STFT,Short Time Fourier Transformation)把声音音频信号变换到频率域,再通过 Unet(U 型网络)训练,得到背景音和人声两者不同的声音频谱,再转换回音频信号,实现将语音中的人声与背景伴奏进行分离,为后续的语音识别引擎进行文字提取提供有效的识别素材。通过该项处理,消除绝大多数由片头、片尾、转场等背景音而导致语音识别生成的无意义文字,使得语音识别结果的精准度得到进一步提高。3.2 本地化策略本地化策略的本质是 AI 的人工干预辅助,针对绍兴市新闻传媒中心新闻视频媒资实际,在目前 AI 技术的基础上,通过 AI 算法人工参数与人工模型的设置和引入,快速提高编目效率和质量,控制研发成本和周期,实现 AI 自动编目。3.2.1 自动拆条建模在语义分析方面,在提高自主学习的基础上,我们探索进一步通过对 AI 的处理结果进行基于本地化的策略优化。基于绍兴本地新闻节目的特点,如新闻条目间转换的几种相对固定模式,通过语义分析叙述对象的转换,特别是类似于“绍兴台报道”“绍兴台记者某某报道”这种具有明显特征的节目语音识别语义识别人脸识别场景识别自动拆条NLP商汤讯飞百度腾讯阿里混合云基础架构支持体系(云计算、云存储、容器化等)服务层引擎层基础资源层新 闻 媒 资 AI 编 目图1 编目系统框图广播与电视技术 2023年 第50卷 第3期40内容制播 Content Production&Broadcasting形态的提取,建立了多个本地新闻自动拆条 AI 模型,通过将智能编目初步结果与多个本地化的 AI 模型进行匹配,提高自动拆条的精准性,进而提高整个编目的准确性。3.2.2 有效标签匹配系统利用语音识别、人脸识别、语义分析等引擎对媒资文件进行多模态的分析处理,从而输出该媒资素材中的人物、时间、地点、内容、摘要等标签。但这其中掺杂着大量的无效标签,AI 识别引擎无法甄别。针对大量的同音、谐音和冷僻名称的问题,我们探索建立本地热词、本地人脸库(重要人物和敏感人物),特别是本地地名库。通过民政系统的帮助,我们建立了包含绍兴所有行政区域、道路、小区等名称的地名库(我们计划间隔固定时间进行更新),在标签库后台新增地名标签过滤功能,系统通过完善后台地名标签库模糊比对功能对识别出来的地名标签进行标签精准化处理,提高地名标签提取的准确率,从现在实际应用效果看已经能满足检索需求。在人名方面,相比较于地名,更难于建立准确又相对全面的后台词库,我们探索建立绍兴地方人名热词库,并支持谐音检索和检索者在检索时的实时更新,以此大幅提高人名标签的精准性,提高检索效率。3.2.3 无效标签过滤事件名称、时间节点的提取方面,通过基于语言结构分析的语义识别,基本能相对准确地提取出事件名称和时间节点,但一方面在时间节点上产生类似“今天”“本月底”等无效标签,另一方面同样受限于 NLP 技术的发展,事件名称在独特语言结构和歧义性等多种情况下仍有一定的错误率,但归纳分析系统所提取的无效的事件名称标签,我们发现与无效时间标签一样有一定的共性,设置时间和事件名称无效标签库,进行无效标签过滤能相当程度提高时间和事件名称标签的准确性。3.2.4 关键帧提取关键帧提取方面,我们一方面将 OCR 屏幕文字识别作为场景识别关键帧提取算法参数,另一方面与语义分析结合,按照匹配本地人脸库、地名库后提取的标签亦作为关键帧提取算法参数,再结合人脸识别提高关键帧的有效率。3.3 编目效果其实人工编目的过程也是编目人员学习的过程,而且编目的结果与编目人员的专业性、专注度和敬业程度紧密相关,一旦编目完成,要再增加标签或检索词,成本巨大。我们通过在 AI 自动编目系统中对上述系列技术的优化与提高,编目效果已经接近人工编目效果,而且编目效率高,编目标签更新快且近乎无成本,编目结果稳定,不受不同编目人员专业程度影响,编目成本显著降低。加之人脸识别等功能的优化应用,使得现在编目效果个别维度已经超过人工编目。3.4 项目局限性由于受 NLP 的应用成熟度限制,在自动摘要方面的准确度仍有待进一步提高,但在新闻媒资实际应用方面,单条新闻文本本身长度就很有限,对自动摘要的要求不高,这方面的局限对实际检索应用的影响有限。另正如本文标题,该自动编目的实现是局限于城市台、新闻媒资这两个前提条件,如不是局限于一个地市级媒体,省级乃至国家级的地名库人名热词库的建立难度估计是几何倍数增长。另一方面视频媒资包含多种节目形态,并不仅仅是新闻,我们建立的这些 AI 模型很多仅只能局限于新闻,对于综艺、体育、专题等各种节目形态,编目的方式有区别,针对新闻所建立的这些模型也就并不适合。但是作为一个地级市城市媒体的新闻媒资,我们的探索应该说已经达到了我们项目立项的初始目标。随着 AI 技术的进一步发展和在媒资领域应用的日益成熟,我们相信真正覆盖所有类型媒体资料的智能编目能逐步实现,编目的准确性与效率也会进一步提高。4 结束语作为地市级城市在媒体新闻视频媒资 AI 编目方面的探索应该说是不容易的,我们采用目前相对成熟的 AI 技术,辅之以人工干预,用相对较低而可控的成本预算在可控的时间内实现了 AI 自动编目。从目前实际应用的效果来看达到了我们一开始项目设计的目标,已经较为成熟地应用于绍兴市新闻传媒中心的新闻媒体资料检索中,大幅提高了媒体资源的使用效