计算机软件
技术
数据
时代
应用
探究
信息记录材料 2023 年 7 月 第 24 卷第 7 期计算机软件技术在大数据时代应用探究江诗敏(湖北闪云信息科技有限公司 湖北 武汉 430070)【摘摘要要】大数据技术的出现改变了当前计算机软件技术的应用水平,扩大了应用范围,提高了应用质量,大数据正逐步成为一种高价值的资源。对大数据进行深度挖掘,不仅能够有效地提升社会服务水平,还能够为一些政策的制定提供一定依据。为厘清大数据技术对计算机软件技术应用的价值,进一步促进信息技术的发展,通过文献查阅、实地调研并结合相关研究对计算机软件中的数据挖掘技术进行探究,为计算机软件在大数据背景下更好地应用提供一些方向。【关关键键词词】计计算算机机软软件件技技术术;大大数数据据时时代代;数数据据挖挖掘掘【中中图图分分类类号号】TP39 【文文献献标标识识码码】A 【文文章章编编号号】1009-5624(2023)07-0191-040 引言大数据时代,互联网已经进入了以光网为载体的“宽带视频”时代,在 4G 及 5G 的支持下,移动互联网及物联网等应用正蓬勃发展。数据互动已从小范围文本和图片简单的传输发展为照片、音乐和视频等信息共享,而且视频的内容也在以几何倍数增长。将其中某些数据整合分析,产生出有价值的数据,对海量数据进行存储和传输,都会产生大量的数据挖掘、智能计算等方面的需求。尤其是在数据挖掘技术方面,被广泛地运用于计算机软件工程,并且取得了良好成果。本文在此基础上,阐述了数据挖掘技术的内涵及其在软件工程中的重要作用。1 数据挖掘概念数据挖掘是一种新兴的技术,其最大的作用在于数据分析,能够通过处理海量的数据并获取有用的信息,提高数据的利用率。因此,将数据挖掘技术应用于软件工程,能够保证数据的质量与效率,更好地发挥数据的价值。因此,越来越多行业将数据挖掘技术应用于后端数据的处理过程,分析出供需关系,更好地服务社会。2 数据挖掘的目标数据挖掘工作主要包括:分类、预测、关联、聚类、回归、智能推荐等几方面。企业、政府等组织与实际需求以及业务内容相结合,运用挖掘技术从现有的数据中提取有价值的信息,为自身的发展带来竞争力。数据挖掘的任务如图 1 所示。图 1 数据挖掘的目标3 数据挖掘的方法目前,国内外对数据挖掘的研究主要集中在五个方面,即分类和预测、聚类、关联规则、时序模式、离群点检测。3.1 分类和预测针对已知类型的数据集构建模型,然后用该模型对其他的样本进行再分类,此模型具有监督学习、精度较高的特点。预测指的是利用已有数据集训练模型,通过模型预测未知样本的数据性能,它是探索 2 个或 2 个以上变量之间相互依赖的模型。贝叶斯网络、回归分析、人工神经网络、决策树和支持向量等常用的分类预测方法1。详见表 1。表 1 分类算法介绍算法名称算法介绍回归分析回归分析是研究 2 个或多个变量之间的关联性和关联性,利用变量数据构建模型来预测其他的变量。回归分析包括了线性回归,非线性回归,逻辑回归等几个方面人工神经网络人工神经网络是一种模仿大脑的神经网络机理,用来构建一种抽象的输入输出关系的模型贝叶斯网络贝叶斯网络,也叫信心网络,也叫因果网络,是用来刻画变量间相互依存关系的图样决策树决策树利用构建的模型中的每一个叶子节点对应的属性,经过反复的判断,得出最终的决策支持向量机支持向量机是一种有监督学习算法,对数据进行二分类的模型3.2 聚类聚类是将相似的对象划分到不同的组别或集合中,形成组内的相似性较高,组间的差异较大特征。常用的聚类方法包括 K-Means 算法、K-中心点法和系统聚类算法2。详见表 2 所示。3.3 关联规则关联规则分析又被称为购物篮分析,主要是对两个或多个变量之间的相关性以及相关性强度进行评估,最早被运用在销售数据的分析中对不同商品之间的相关性进行分析,从而达到提高销售量的目的。常用的关联规则算法包括 Apriori 算法、TP-Tree 算法、Eclat 算法、灰关联法等。表 3 中对常用的关联规则算法进行了详细叙述。191信息记录材料 2023 年 7 月 第 24 卷第 7 期表 2 聚类算法介绍算法名称算法介绍K-MeansK-Means 算法是一种迭代求解的聚类分析算法,指定好 K 的值,将数据聚类成 K 个簇K-中心点K-中心点算法不采用簇对象的均值作为中心,而是采用簇中离平均值最近的对象作为簇中心层次聚类层次聚类系统聚类,通过计算不同类别之前的相似程度来建立一颗有层次的树形结构表 3 关联规则算法介绍算法名称算法介绍AprioriApriori 是数据挖掘中的经典算法,是一种找出频繁项集的高效算法FP-TreeFP-Tree 可以建立一个精简的数据结构,从这种数据结构中提取频繁集项EclatEclat 与 Apriori 和 FP-Tree 算 法 不 同 的 是,Eclat 采用垂直数据结构筛选出频繁集项3.4 时序模式时序模式是用来刻画时间或其他序列出现的规律和趋势,同时也可以用已知数值去预测未来的数值。在时序模式中,常见的算法有平滑法、趋势拟合法、组合模型等。表 4 列出了常用的时序模式算法。表 4 时序算法介绍算法名称算法介绍平滑法平滑法常被用于趋势分析和预测中,它通过计算指数平均值与一定的时间序列相结合对未来的趋势进行预测的趋势拟合法趋势拟合法指的是以时间为自变量,以观察值为因变量,构建观察值随时间变化的回归模型3.5 离群点检测离群点检测用于发现与数据集中区特征不同的其他对象,常见的离群点检测方法包括:基于统计学的离群点检测、基于邻近度的离群点检测、基于密度的离群点检测、基于聚类的离群点检测。详细介绍见表 5。表 5 离群点检测算法介绍算法名称算法介绍基于统计的以统计为基础的离群点检测就是建立一个概率分布模型,并计算出对象在该模型中的概率,将小概率的点视为离群点基于邻近度的以接近度为基础的离群点检测是计算两个数据之间的邻近度,把邻近度较小的对象视为离群点基于密度的基于密度的离群点检测是考虑到某些数据集可能存在不同密度区域,将数据对象处于低密度范围时视为离群点基于聚类的以聚类为基础的离群检测就是把数据对象聚集在一起,将远离集群的点作为离群点4 数据挖掘过程数据挖掘技术是一种从数据采集、评价、到对数据进行处理的方法。其目标是针对具体行业的数据对象挖掘来获得有价值的结果。已经被嵌入在各个领域,结合分析的结果并结合实际情况制定相应的方案。数据挖掘的主要步骤分别是制定挖掘目标、数据收集、数据探索与预处理、模型建立、模型评估、结果分析,数据挖掘的过程示意图见图 2。图 2 数据挖掘过程示意图目标设定是指在进行数据挖掘时,首先要结合数据背景设定目标。在采集数据阶段,可以采取抽样的方式对集数进行收集。数据探索性分析可分为质量分析与数量特性分析3。质量分析的主要目的是找出原始数据中是否有脏数据,比如有缺失值、离群值、不一致的值、重复数据以及特殊符号等。探索性分析是对数据中某些特征指标进行探索性分析,并以图表的方式将其表现出来。数据预处理阶段主要是对数据进行数据清洗、属性规约、数据变换等工作,目的是将数据整理成符合数据挖掘操作的形式,方便后续工作的进行。在数据建模过程中,根据企业的实际情况选用合适的建模方法开展建模,也可以构建多种模式,比较不同模式之间的优劣。通过建模结果反馈再对模型进行优化,最后确定模型,为数据挖掘分析铺垫基础。5 数据挖掘技术的应用5.1 应用与信息挖掘在软件工程领域,采用数据挖掘技术可以实现对数据的全方位和多角度的控制。计算机软件工程的应用非常广泛,包含了非常复杂的数据信息,但通过运用数据挖掘技术能够实现对相关信息数据统一管理和集中化管理。在具体项目开发过程中,利用相关软件就能够及时地更新和处理数据资源,从而最大限度地提高项目的开发质量,达到预定的目标。此外,数据挖掘中包含了很多的数据信息,为确保技术人员能够对软件的内部结构进行科学分析和正确识别,需要将数据挖掘技术的优势发挥到最大,为后期运行人员提供快速分析问题与解决方案的功能,确保软件开发工作的顺利进行4。还需要根据软件开发的需要,重视对人力资源的科学规划和分配,并以软件模块为基础,严格遵循软件模块化设计原则,从而实现软件的大规模开发。通常情况下,一个大型的软件系统建设会涉及数以千计的人,在开发过程中无法避免的有文件传递、电子邮件发送等问题,此时,就需要对各个环节之间的关系进行深入的分析与挖掘,在今后的工作中做出科学的分工与分配。另外,软件企业中的工作人员和用户之间还需要构建一个稳定可靠的关291信息记录材料 2023 年 7 月 第 24 卷第 7 期系网络,随着网络的复杂度越来越高,就越要重视对其中的关系进行准确的分析与挖掘,唯有如此才可以确保软件项目的正常、有序、顺利地进行。例如:在对人事关系进行挖掘时,要利用版本管理系统,对有关流程进行统一、有序地修改,对软件变更后的历史数据进行深入的分析与挖掘,并基于此,按照各程序模块之间的关系进行逻辑上的优化,使该系统的内部架构可以很好地适配所需要挖掘的数据类型,让数据挖掘过程更加透明、高效。5.2 应用于软件执行记录在数据挖掘技术的具体应用中,需要对软件运行过程中的数据进行全面的分析和挖掘,并对软件的运行性能分析和处理,使其完全符合预期的判断标准。所以,在深入分析和挖掘运行记录的时候,一定要找到已经设置好的安装路径,并且用逆向建模的方法来分析数据结构,方便今后的软件维护。为了保证系统的正常运行,技术人员必须对其进行及时的检测,并及时处理。同时还需要进一步剖析与挖掘,以便为后续的优化升级提供方向。程序规约挖掘是对与之相关联的程序进行全面的分析,以便能够快速地发现和处理相关联的程序代码。同时,为了确保追踪结果的有效实施,利用反向建模技术,对所涉及的过程进行全面的分析、验证与维护。这类挖掘的步骤是:一是对相关系统进行全面的分析;二是对与此软件相匹配的应用程序接口进行全面的梳理,并对追踪到的信息进行全面的筛选和处理,最终形成可以对相关系统进行有效描述的标准化模型。程序规范挖掘的基本过程见图 3。5.3 应用于软件漏洞检测在各类软件开发过程中,或多或少会出现一些缺陷或者安全漏洞,因此,不定时地对软件进行检测,不但可以有效地加快软件开发的进度,还可以确保系统的稳定性、可靠性和安全性,为后续安全问题的及时发现和解决奠定基础。对软件中存在的漏洞进行全面的修补,能够有效地增强使用者的安全。从数据挖掘技术的发展方向出发,在对软件缺陷进行检测的过程中,要针对缺陷本身所包含的测试内容,有针对性地进行分析与测试;不仅如此,对于存在漏洞的软件还应进行全面的检测,确保其最终的开发结果满足软件开发的相关标准和要求。在使用数据挖掘技术时,必须对现有的资料进行全面的分析,并对最终的分析结果加以优化,促进软件开发的顺利进行。而最重要的是要根据此过程,不断研究改进测试方法,最终形成一套有效、稳定的软件开发的测试方法。此外,在数据的处理过程中,还必须运用数据挖掘技术来分析和抽取数据,以数据的形式将辅助数据内容更加形象和直观地展现给用户5。另外,要确保数据挖掘技术在计算机软件工程中能够得到科学、合理的应用,还必须选择适当的数据模型,才能更好地将其应用到实际中去。最终将软件缺陷进行科学化和规范化的分类,建立并不断优化此项数据库里面的信息,为软件漏洞检测和弥补提供参考方向。检查软件缺陷的过程如图 4 所示。图 3 程序规约挖掘流程示意图图 4 软件漏洞检测流程5.4 应用于软件管理数据挖掘技术可以探测到软件在运行过程中的各种数据的运行规律,当软件出现故障时,可以根据原有的数据运行方式自动修复。在计算机逐渐普及的过程中,软件应用存在的漏洞也越来越多,其中有些问题已经超出人力(下转第 197 页)391信息记录材料 2023 年 7 月 第 24 卷第 7 期7 结语综上所述,智能化应急救援系统采用了六足机器人为载体,能够在灾后形成的瓦砾地面、狭窄空间内稳定穿越,实时监测复杂多变的灾后环境参数,实现灾后生命体的探测;能将相关参数实时传输至控制台,为救援工作的实施提供了重要的依据。【参考文献】1 贾硕,张文昌,吴航,等.救援机器人研究现状及其发展趋势 J.医疗卫生装备,2019,40(8):90-95,100.2 千承辉,胡睿帆,王洪超,等.一种灾后探测救援机器人系统设计 J.实验室研究与探索,2014,33(4):22-25.3 游雪辉,张松.基于 GPS 和 UWB 混合定位的自动搜救机器人设计J.成都工业学院学报,2019,22(02):29-33.4 张航铭.新型智能机器人的控制系统开发应用 J.自动化应用,2018(3):131-132,135.5 钟新华,蔡自兴,邹小兵.移动机器人运动控制系统设计及控制算法研究 J.华中科技大学学报(自然科学版),2004,32(S1):133-136.6 王飞.救援机器人控制系统及信息处理研究 D.哈尔滨:哈尔滨工程大学,2014.7 孙亚飞.基于超声波的自动避障双轮平衡车控制系统设计J.信息通信,2018,31(2):215-217.8 程德福,凌振宝,赵静.传感器原理及应用 M.2 版.北京:机械工业出版社,2019.9 黄一航,解迎刚,马晓宇,等.机器人大赛中的物联网感知和机器视觉的应用 J.物联网技术,2020,10(4):90-92,95.10 陈炜,马利,王立柱.救援机器人通信系统的应用和发展研究综述 J.消防科学与技术,2016,35(8):1117-1120.基金项目:2020 年度江门市基础与理论科学研究类科技计划项目(2020030101590005212);2021 年度广东省科技创新战略专项资金项目(pdjh2021b0966)。作者简介:陈虹安(1989),男,广东江门,硕士,讲师,研究方向:电子产品开发、信号处理及控制。(上接第 193 页)能解决的范围。部分软件在使用后,其内部的数据传输、算力分析可能会出现错误,此时,利用数据挖掘技术的记录功能,能够在系统出现问题时,进行自动地修复和升级。5.5 完善开源软件的挖掘工作开源软件在软件的开发和施工过程中占据很重要的位置,因此,对开放源码软件的研究具有重要的现实意义。其中克隆码的识别是一项非常重要的工作,已被广泛用于开放源软件的开发,它能够高效地实现数据的拷贝与粘贴。在信息化、集约化的发展环境中,软件项目的开发也需要根据市场需求和现实条件进行相应改革。在大数据时代,人们的需求信息、企业发展信息等都已转化为一条条的数据,通过数据挖掘技术对数据进行分析、处理,可以更加了解当下市场的需求,为软件开发企业降低运营风险和管理成本。5.6 通过数据挖掘技术实施对软件项目的管理目前,软件项目的开发工作正朝着系统化、复杂化的方向发展。在软件工程领域,数据挖掘是一个非常重要的研究课题,而数据挖掘过程的执行记录也是数据挖掘技术的一部分。因此,通过执行记录对软件运行的路径进行优化,可以更加清晰地了解软件各模块之间的联系。经济的发展、社会的进步推动着人们生活状态也在发生变化,软件项目为迎合市场需求也会变得越来越庞大,因此,传统的项目管理理念已经无法适用于现代的开发项目,如果不能很好地解决此项问题,不仅会对软件项目本身造成影响,导致项目的进度受阻,更重要的是不完善的软件流到市场后会带来更大的经济损失和社会安全问题。所以,要在软件工程中充分发挥数据挖掘技术的功能,确保软件项目的稳定有序。6 结语综上所述,在信息爆炸时代,人们每天所接收到的信息是不计其数的,仅凭人力已无法有效地处理。随着信息技术的迅速发展,许多新的技术被投入到了研究之中,数据挖掘技术就是其中之一。通过本文介绍可知,数据挖掘技术可以应用于信息挖掘、软件管理、漏洞检测等方面。而要能够有效地利用数据挖掘技术还需要技术人员应不断地更新自己的观念,将数据挖掘技术与软件管理有机地结合起来,简化数据处理工作的同时提升数据信息的利用率,促进整个社会的发展。【参考文献】1 朱赋阳.数据挖掘技术在计算机软件工程中的应用J.数字技术与应用,2023,41(1):126-128.2 孙辉.计算机软件工程中的数据挖掘技术应用J.大众标准化,2022(2):122-124.3 刘知云.关于数据挖掘技术在软件工程中的应用分析J.电脑知识与技术,2021,17(24):27-28.4 井文英.基于计算机软件工程中的数据挖掘技术实践分析J.软件,2022,43(7):72-74.5 常玲霞,宋娅菲,石秀君.基于云计算的计算机软件测试技术分析 J.网络安全技术与应用,2022(3):59-60.作者简介:江诗敏(1968),男,湖北武汉,本科,工程师,研究方向:计算机软件。791