HIS
系统
财务
数据库
异常
检测
技术
应用
Microcomputer Applications Vol.39,No.8,2023文章编号:10 0 7-7 57 X(2023)08-0013-03摘要:当前,医院信息系统(HIS)已成为医院信息化建设的重要内容,但HIS与财务数据库的接入仍然采用传统的方式,导致财务重要数据存在一定的安全隐患。为了有效消除用户异常行为对医院财务数据库所构成的安全隐患,设计一种财务数据库异常检测技术。通过调取财务数据库运行日志中的用户查询内容及相应结果,采用k-means聚类算法进行用户分组,采用NavieBayes算法构建异常检测模型。应用测试结果表明,与传统的用户行为轮廊算法相比,所提出的算法准确率提高了7.06个百分点,综合F1值提高了3.33个百分点,此外,在大幅度缩减计算量的基础上模型训练时间缩短了8 1%,极大地提高了财务数据的安全性。关键词:财务数据库;异常检测;NavieBayes算法;HIS;安全隐惠中图分类号:TP393.08(1.The Nuclear Industry General Hospital(The Second Affiliated Hospital of Soochow University),Suzhou 215000,China;2.The Suzhou Branch of Shanghai Pudong Development Bank,Suzhou 215028,China)Abstract:Currently,hospital information system(HIS)has become an important part of hospital information construction.However,the access between HIS and financial database still adopts the traditional way,resulting in certain security risks.Inorder to effectively eliminate the security risks posed by abnormal user behavior to hospital financial database,an anomaly de-tection technology is proposed and designed.By retrieving the user query contents and corresponding results in the operation ofthe financial database,the k-means clustering algorithm is used to group users,and Navie Bayes algorithm is used to build an a-nomaly detection model.The application test results show that compared with the traditional user behavior contour algorithm,the accuracy of the proposed algorithm is improved by 7.06%,and the comprehensive Fi value is improved by 3.33%.In addi-tion,on the basis of greatly reducing the amount of calculation,the model training time is shortened by 81%,which greatlyimproves the security of financial data.Key words:financial database;anomaly detection;Navie Bayes algorithm;hospital information system(HIS);security risk0引言近年来,随着互联网用户的急剧增加,各种网络入侵事件层出不穷,入侵检测系统的研发随之加快。异常检测作为人侵检测的一种技术已经成为相关研究的热点项目1。HIS系统中财务数据库安全关系到医院重要数据的安全,因此,针对财务数据库安全问题提出了一种数据库异常检测技术,通过以用户查询方式结构替代用户轮廓进行特征提取的方式对现有算法进行了优化,大幅度精简了计算量。采用k-means聚类算法进行用户分类,有效提高了算法的检测精度。基金项目:江苏省卫生计生财务研究课题(CW201710)作者简介:李晨(198 9一),女,硕士,研究方向为财务管理、会计;孙亮(198 0 一),男,本科,研究方向为医院管理信息化应用;邹元(198 5一),男,本科,研究方向为金融、财务分析。通信作者:张丽湘(197 1一),女,本科,副总会计师,研究方向为财务管理。.13.基金项目HIS系统财务数据库异常检测技术及应用李晨,孙亮,邹元,张丽湘1*(1核工业总医院(苏州大学附属第二医院),江苏,苏州2 150 0 0;2.上海浦东发展银行苏州分行,江苏,苏州2 150 2 8)文献标志码:AAnomaly Detection Technology and Applicationof Financial Database in HIS SystemLI Chen,SUN Liang,ZOU Yuan?,ZHANG Lixiangl*1.1k-means 聚类算法假设存在一个包括n个对象的数据集D,通过一定的方法将这些对象划分到k个不同的簇Ci,C 2,C 中,且在1i,jk时,有C,CD,C.nC,=g2。分类效果通过一个目标函数进行判断,使同一个簇内的所有对象具有高度相似性,同时又与其他簇内的对象具有明显的差异 3。基于簇的中心点形心的分类方法,以簇的形心c;对其所在的簇进行描述。数据集中的对象pEC,与形心ci之间的差异采用欧氏距离distd(p,c,)来表示。所使用的目标函数为mind(Y,c,)i=1,2,.,k微型电脑应用2 0 2 3年第39 卷第8 期1算法设计(1)Microcomputer Applications Vol.39,No.8,2023其中,Y代表数据集中的对象,C代表簇C的形心。kmeans算法流程4如下:建立k个初始簇,从数据集D中随机选取k个对象作为每个初始簇的形心;计算簇内所有对象的均值并将每个对象都分配到与其相似性最高的簇中;重新计算各个新簇中所有对象的均值,直到所选取的目标函数开始收敛。k-means算法的不足之处是聚类的结果取决于初始化过程中聚类中心初始值的选取是否恰当。1.2NaiveBayes算法假设模型输入空间二R是一个n维向量的集合,输出空间是一个类的标记集合=(c 1,C2,C)。特征向量E作为模型的输入,对应的输出为类标记yE5。X、Y分别为输入空间和输出空间中的随机向量,2 个随机向量的联合概率分布为P(X,Y)。由P(X,Y)以独立同分布的方式生成训练数据集T=(a i,y i),(a 2,y 2),(n,y))。Na-iveBayes算法在训练数据集的过程中对P(X,Y)进行机器学习,目标是获取先验概率和条件概率两种分布 6 。其中,先验概率分布的表达式为P(Y=c)i=1,2,k条件概率分布的表达式 7 为P(X=|Y=c,)=P(X(),.,X()=(Y=c)i-1,2,.,k通过式(3)学习到联合概率分布P(X,Y)。在NaiveBayes算法中,对条件概率分布做出了以下独立性假设:P(X=|=c)=IIP(XC)=()|Y=c)(4)Naive Bayes算法流程 7 将作为模型的输人,利用经过学习的模型可计算得到后验概率分布P(Y=cIX=),拥有最大值的那个类即可认定为所属的类。依据贝叶斯定理可进行后验概率的计算:P(X=/Y=c;)P(Y=c;)P(Y=Ci I X=)=P(X=/Y=c,)P(Y=c,)i=1,2,k式(4)与式(5)相结合可得:P(Y=ci I X=)=P(Y=c.)II P(X)=2()Y=c.)P(Y=c)IIP(X)=2)/=c.)1式(6)即为Naive Bayes分类(NBC)的基本公式,由此可得到NaiveBayes分类器的表达式,如式(7):y=f()=arg maxP(Y=c;I X=)=P(Y=c.)IIP(XO)=2)IY=c.)ZP(Y=c)II P(X0)=2)|Y=ci)j=1通过k-means算法对用户行为轮廓进行聚类,得到用户组别。使用Naive Bayes分类算法对训练数据进行训练,最后得到实验所需的异常检测模型。基金项目2异常检测系统设计2.1系统架构财务数据库异常检测系统的总体架构如图1所示。该系统的工作流程中包含训练和测试两个阶段。系统训练包含以下几个环节 7:对数据库日志中的记录数据进行预处理,筛选出所有的用户查询数据;对查询数据提取特征,获取描述用户行为轮廓的特征向量;采用k-means算法将用户行为轮廓划分为不同的类别,创建用户组;采用NaiveBayes算法进行训练,构建异常检测模型。系统测试包含以下几个环节 8 :对用户的查询请求相关数据进行预处理;通过特征提取获得查询数据的特征向量;以特征向量为输人利用模型完成异常检测;在响应器中按照既定的策略对检测结果作出响应。查询结果SQL语包用户财务数据库响应行为SQL语句+结果特征提取向量V检测结果(2)异常检测一用户行为轮廊图1异常检测系统总体架构2.2数据表示(3)用户的查询数据采用向量V(C,T,A,R)表示。C代表用户输入内容的请求类型;T代表查询历史的表格,标记为0N,如果数据库中现有的交叉查询内容较少,为了不过多占用向量存储空间,将多个交叉查询表的属性整合为多个对j=1应的新表,由N+1开始对其进行标记;A代表查询内容的属性信息,通常以数组的形式表示,其长度取各查询表长度的最大值,在查询内容与某个表的属性相匹配的情况下,将这个属性标记为1,反之则标记为0;R代表得到的查询结果在查询表中所占的比例,即查询结果的行数与查询表总行数的比值。V向量的具体表示方法如图2 的第三列向量值所示。第一列表示具体的查询内容,第二列表示Q向量,其中(5)包含了输人内容请求类型(C)、查询表向量(P,)、查询表属性(P。)以及查询信息占比(S,)等4个属性。当以V向量来表示交叉较少的查询内容时,其所占用的存储空间仅相当于Q向量的一半,由此大幅度缩减了异常检测模型训练所需的-i=1,2,k时间。SELECT*(6)FROM clientsWHEREc_ID=3;SELECT*FROM products0,0,0,0,1,1,0,0,WHERE price5图2 查询数据表示向量(7)3系统应用测试3.1数据集及评价指标本次系统测试从TPC-C数据库选取一定数量的数据创建实验数据集。TPC-C是一个能够评价大型数据库系统性能的机构。按照本文技术开发的目的,从TPC-C数据库中14.微型电脑应用2 0 2 3年第39 卷第8 期响应器上queryQ(C,Pr,Pa,Sr)(SELECT,1,0,0,0,1,0,0,0,0,0,s,null(SELECT,O,1,.null,m)响应策略审计日志V(C,T,A,R)(SELECT,0,0,0,1,0,0.25)(SELECT,1,1,1,0,0,0.5)Microcomputer Applications Vol.39,No.8,2023查询医院HIS系统中关于财务的相关数据,包括处方单价格、款项支付、药品支付、库存状态和订单状态等5种数据,作为样本数据创建异常检测试验数据集。为了明确描述测试结果,采用以下指标来评价系统性能。(1)精确率(precision),用以说明系统分类器所