温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
技术
档案
管理
方法
廖金材
记录:数据与存储230 信息记录材料 2022年12月 第23卷第12期 大数据技术的媒资档案管理方法廖金材,张燕丹 (福建省龙岩市永定区融媒体中心 福建 龙岩 364100)【摘要】当前媒资档案管理方法在实际应用中信息丢失量较大,媒资档案完整性较低。基于此,本文首先提出大数据技术的媒资档案管理方法,并根据档案信息元数据生成数字标签,利用大数据技术将媒资档案数据序列划分成大数据块进行加密分类处理。其次分析媒资档案信息特征,通过特征分量重组得到主要成分进行信息整合,并利用数据库技术对整合后的媒资档案进行存储管理,实现基于大数据技术的媒资档案管理。最后经实验证明,此设计方法媒资档案管理信息丢失量小于当前方法,在媒资档案管理方面具有良好的应用前景。【关键词】大数据技术;媒资档案管理;加密分类;数据库技术【中图分类号】TP39 【文献标识码】A 【文章编号】1009-5624(2022)12-0230-030 引言媒资档案是在广播电视节目制作以及传播过程中形成的电视、网络等媒体的资源档案,不仅包含文字资源,还包括语音、视频等资源信息,具有数量大、种类多等特点,因其独特的特性存在,导致媒资档案管理具有难度高、易丢失、工作量大等特征。最初媒资档案管理方法主要是通过人工收集、整理、建档存储,对于文字类的媒体资源信息整理成纸质档案,对于语音、视频类的媒体资源信息存储到独立的硬盘上,并将标签贴在硬盘上,方便媒资档案查找和使用。这种方式需要花费大量的资金,并且消耗大量的人力资源,不仅效率低,如果不对其进行定期整理和检查,非常容易出现档案丢失现象。随着信息技术和网络技术逐渐与档案领域融合,为了提高档案管理效率,相关学者提出了数字化管理方式,在一定程度上推动了媒资档案数字化、信息化建设。左晋佺等1利用大数据技术,构建用户、节点、组织、下属机构、档案云储存模式的档案管理平台。在数据库中利用元数据特征属性完成可视化档案管理。但是,该方法无法对档案管理系统中存在的数据进行融合处理,导致档案管理响应时间较长,存在系统响应效率低的问题。相世强2以 Java 语言为基础,利用JFinal技术构建急速WEB开发框架,实现系统化、自动化、多元化的档案信息管理。但是,该方法在规定时间内无法对多个媒资档案数据包进行有效处理,存在系统媒资处理能力和并发性较差的问题。虽然目前媒资档案管理已经取得了相应的成果,但是由于国内媒资档案信息化管理起步比较晚,仍然处于比较低的技术水平。现有的管理方法存在不足,在实际应用中当对海量媒体资源信息管理时,经常出现信息残缺,建立的媒资数字档案完整性较差,档案信息丢失量较大、响应时间较长、并发性较差等问题。基于此,本文提出大数据技术的媒资档案管理方法,以期优化媒资档案管理效益,同时确保档案信息安全性和完整性。1 基于大数据技术的档案序列加密分类为了保证媒资信息的完整性和安全性,利用大数据技术对媒资档案数据序列进行加密分类,在加密分类前对待管理的媒资信息建立相应的数字标签,以元数据作为档案数字标签构建的对象,以媒资信息内容元数据为主,比如媒资主题、信息源、资源、时间,其中媒资主题的确定是根据媒资信息中出现频率最高的关键词确定,以关键词作为媒资档案主题,对媒资档案本体划分3。信息源是指媒资信息的来源,资源主要为媒资信息的主要形式,包括文本、图片、音频以及视频。时间是指媒资信息的产生时间,根据以上四个媒资信息属性,生成媒资档案数字标签,用公式表示为:,Va c s e=(1)式中,V表示媒资档案数字标签;a表示媒资档案主题;c表示媒资信息源;s表示媒资档案资源类型,其中文本资源类型用“1”表示,图片资源类型用“2”表示,音频资源类型用“3”表示,视频资源类型用“4”表示;e表示媒资档案时间属性4。根据媒资档案数字标签,对媒资数据序列进行加密分类处理,下图为基于大数据技术的媒资数据序列加密分类如图 1 所示。媒资档案数据序列大数据块1 大数据块2 大数据块3.数据头数据块数据位数据块数量数据操作者数量大数据长度本组拥有密钥数据分类:数据块内部结构:加密分类格式:图 1 基于大数据技术的媒资数据序列加密分类示意图媒资数据序列加密包括 3 个功能层:数据分类层、数据块内部结构层和加密分类格式层。数据分类层实现媒资数据包中的文本、图片、音频以及视频等类型划分。数据块内部结构层主要包含数据头、数据块和数据位,通过数据头存储媒资数据基本信息,利用数据块对空间进行实时调整,根据数据位改变链接行或迁移行。加密分类格式层中通过数据块数量计算索引数据,限制数据操作者数量扩大空余空间,根据大数据长度读取媒资数据记录,利用本组拥有密钥管理和跟踪数据块。随机选取一个已经生成数字标签的媒资信息,假设该媒资信息数据序列长度为h,该媒资信息数据操作者数量为n,按照等价分类法将媒资信息数据序列分类成长度相等的m和大数据块,每个大数据块的第一个数据作为该数据块的密钥,将其作为变量,计算出媒资信息数据密钥DOI:10.16009/13-1295/tq.2022.12.026记录:数据与存储 231信息记录材料 2022年12月 第23卷第12期 组合值,其计算公式为:1nmmxhw=(2)式中,x表示媒资档案数据密钥;mw表示第m个大数据块密钥5。生成大数据块密钥后,设定 length-sive为大数据块列表,利用 singther-length 表示大数据块位长,根据大数据块所在位置,生成大数据块位置编号,并将其与数据块密钥添加在大数据块块头位置,媒资信息密钥组合值添加在大数据块块尾位置,从而实现为媒资信息数据序列的加密分类。2 媒资档案整合按照分类的大数据块信息特征,对媒资档案进行整合,首先构建媒资档案信息分析模型,该模型用公式表示为:()(),muCF X tp tK=+(3)式中,u表示构建的媒资档案信息分析模型;mC表示媒资信息数据块特征量;(),F X t表示时间t时媒资数据X的模糊度;()p t表示媒资数据分类函数;K表示媒资信息总特征值6。利用该模型对媒资档案信息特征进行分析,根据分析结果对媒资档案信息特征进行重构,得到的媒资档案主成分特征为:()sinzAug=+(4)式中,z表示特征重组后的媒资档案信息主成分特征;A表示媒资档案信息的模糊特征分量;g表示媒资档案信息的谱分解系数;表示媒资档案信息状态点频率;表示媒资档案信息采样率7。根据媒资档案信息主成分特征,对具有相同特征的媒资档案信息组合在一起,从而实现媒资档案整合。3 媒资档案存储管理将整合后的媒资档案存储到数据库中,进行建档存储,为了保证数据存储具有充足的空间,配备西部数据(Western Digital)硬盘,存储容量为 14 T,辅助数据库完成媒资档案存储管理任务8。将整合好的数据信息进行转码,其中音频和视频信息统一转化为 MP4 格式,图片转换为 JPG 格式、文字信息统一转化为 PDF 格式,在数据库中建立数据表格,利用数据表格对媒资档案进行分类存储,表 1 为媒资档案存储数据表。表 1 媒资档案存储数据表代号字段名称类型主键允许空file name媒资档案名称dateYESNOID档案标识IntNONONumbering档案编号varcharYESNOdate添加日期varcharNONOtheme档案主题varcharYESNOaddress数据地址varcharNONO将整合后的媒资信息存储到数据表中,生成媒资数字档案,将其存储到数据库中,当用户想要访问媒资数字档案时,数据库会自动审核用户身份,如果身份验证通过,用户在数据库检索栏中搜索关键词,数据库根据媒资档案特征,将媒资数字档案与关键词进行匹配9。用户可以事先在数据库中设定一个匹配阈值,如果关键词与数字档案匹配度大于该阈值,则数据库会向用户发送媒资数字档案压缩包,用户利用密钥对数字档案进行解密处理,即可实现对媒资数字档案可视化展示,用户在服务器上对媒资数字档案进行下载、转发等操作,从而实现对媒资档案管理。4 实验论证分析为了验证本次提出的基于大数据技术的媒资档案管理思路的可行性与可靠性,选取某媒资档案数据包作为实验对象,该媒资档案数据包大小为10.62 GB,其中包含2.62 GB文字信息、3.46 GB 音频信息、1.06 GB 视频信息、1.61 GB图片信息以及其他信息,利用本次设计方法与左晋佺1方法、相世强2方法对该媒资数据包进行档案管理。为了保证本次实验结果具有较高的可信度,两种方法的实验环境相同,均采用 Windows11 操作系统,配备两台 SFHF-554服务器,以及一台西部数据(Western Digital)硬盘,按照上述流程对媒资档案数据序列加密分类、整合以及存储,实验共生成 7 个媒资档案。4.1 媒资档案信息丢失量分析存储完成后,令用户每隔 1 s 对媒资档案进行下载和转发一次,30 min 后检验媒资档案信息是否存在丢失,记录每个媒资档案信息丢失量,将其作为三种方法管理质量评价指标,信息丢失量越大,表示媒资档案完整性越低,媒资档案管理质量越差,根据记录的实验数据绘制成表格,具体数据如下表 2 所示。表 2 不同方法应用下媒资档案信息丢失量对比媒资档案档案信息总量/GB设计方法/GB左晋佺1方法/GB相世强2方法/GB文字信息2.620.030.860.54音频信息3.460.010.740.67视频信息1.060.000.380.37图片信息1.610.090.640.18其他信息2.380.030.960.77通过对上表中数据分析,可以得出以下结论:应用设计方法管理媒资档案,档案信息丢失量较小,最小可以达到 0,最高数据丢失量仅为 0.09 GB,数值较小,基本可以忽略不计,说明设计方法能够有效保证媒资档案信息的完整性。而应用左晋佺1方法管理媒资档案,档案信息丢失量最小为 0.38 GB,最高数据丢失量已经达到 0.96 GB,相世强2方法管理媒资档案,档案信息丢失量最小为0.18 GB,最高数据丢失量为 0.77 GB。左晋佺1方法和相世强2方法数值远远高于设计方法,设计因为本次设计方法采用大数据技术对媒资档案信息进行了加密分类处理,提高了档案数据信息的安全性。因此实验结果证明了在保证档案完整性方面,设计方法优于左晋佺1方法和相世强2方法,相比较左晋佺1方法和相世强2方法更适用于媒资档案管理,同时也验证了大数据技术在媒资档记录:数据与存储232 信息记录材料 2022年12月 第23卷第12期 案管理中具有良好的应用效果。4.2 档案管理响应时间分析在媒资档案数据包中随机选取文字信息、音频信息、视频信息、图片信息以及其他信息共计 800 个档案信息数据作为测试对象,分别采用设计方法、左晋佺1方法和相世强2方法对档案信息数据进行管理,对比不同方法的档案管理响应时间,测试结果如图 2 所示。档案信息数据/个档案管理响应时间/ms010203040500200400600800设计方法左晋佺1方法相世强2方法图 2 档案管理响应时间分析图 2 可知,随着档案信息数据数量的增加,设计方法、左晋佺1方法和相世强2方法的档案管理响应时间不断增长。对上述方法的测试结果进行对比发现,设计方法的档案管理响应时间均低于左晋佺1方法和相世强2方法的档案管理响应时间,由此表明设计方法具有较高的档案管理响应效率。这是因为设计方法利用大数据技术在媒资档案数据序列加密分类前对媒资信息建立了相应的数字标签,以元数据作为档案数字标签构建对象,以此提高了档案管理响应效率,进而缩短了档案管理响应时间。4.3 档案信息融合能力分析每分钟档案信息融合个数表明档案信息融合能力,即档案管理能力。因此,将档案信息融合能力作为测试指标,在时间为 30 min 内,测试设计方法与左晋佺1方法、相世强2方法的档案信息融合能力,测试结果如图 3 所示。时间/min档案信息融合数量/个020004000600080001000005101520设计方法3025左晋佺1方法相世强2方法图 3 档案信息融合能力对图 3 中的数据进行分析可知,时间与管理媒资