分享
基于K-means聚类与粗糙集的个人信用集成分类模型_张怡.pdf
下载文档

ID:2249157

大小:1.73MB

页数:6页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 means 粗糙 个人信用 集成 分类 模型
第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide基于K-means聚类与粗糙集的个人信用集成分类模型张怡,谢晓金(上海工程技术大学 数理与统计学院,上海 201620)摘要:针对个人信用数据大多数据类型杂糅以及传统K-means聚类初始簇中心和个数难以确定的问题,提出一种改进的K-means聚类与粗糙集相结合的个人信用集成分类模型。首先,基于样本空间密度衡量样本点的聚集程度,以确定初始簇中心,并引入改进的自适应思想动态调整簇中心个数进行K-means聚类,从而实现对连续型数据的离散化;其次,运用粗糙集进行属性约简,获得特征子集;最后,结合代价敏感构建以L1-逻辑回归、弹性网-逻辑回归、贝叶斯、决策树和神经网络为基模型的集成模型,实现对个人信用数据的有效分类。实验结果表明,本文提出的集成分类模型在UCI数据集上,较已有模型的G-means平均提高约2.96%,最大提高约5.35%,F-value平均提高约3.42%,最大提高约6.83%。关键词:个人信用;K-means聚类;粗糙集;样本空间密度;自适应;不平衡数据DOI:10.11907/rjdk.221099开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP181 文献标识码:A文章编号:1672-7800(2023)002-0142-06Personal Credit Integration Classification Model Based on K-means Clustering and Rough SetZHANG Yi,XIE Xiao-jin(School of Mathematics and Statistics,Shanghai University of Engineering Science,Shanghai 201620,China)Abstract:An improved personal credit integration classification model combining K-means clustering and rough set was proposed to solve the problem that most personal credit data have mixed data types and it is difficult to determine the initial cluster center and number of traditional K-means clustering.Firstly,the clustering degree of sample points was measured based on the density of sample space to determine the initial cluster centers,and the improved adaptive idea was introduced to dynamically adjust the number of cluster centers for K-means clustering,so as to realize the discretization of continuous data.Secondly,rough set is used for attribute reduction to get the feature subset;Finally,an integrated model based on L1-logistic regression,elastic net-logistic regression,Bayes,decision tree and neural network is constructed combining cost sensitivity to achieve effective classification of unbalanced personal credit data.Experimental results show that compared with the existing models,the proposed integrated classification model can improve G-means by 2.96%and maximum by 5.35%on average,and F-value by 3.42%and maximum by 6.83%on UCI data set.Key Words:personal credit;K-means clustering;rough set;density of pattern distribution;self-adaption;unbalanced dataset0 引言随着个人信贷业务的兴起,个人信用风险的不确定性给金融机构带来了巨大损失。因此,针对个人信用风险进行分类成为当今社会的一项重要任务。个人信用分类是金融风险预测在消费贷款中的一项重要应用,其目的是区分“好”和“坏”客户。目前,已有不少学者对个人信用风险进行了相应研究。陆健健等1通过集成随机森林(RF)、GBDT 算法和收稿日期:2022-02-08基金项目:浦东新区科技发展基金产学研专项资金(人工智能)项目(PKX2020-R02)作者简介:张怡(1996-),女,CCF学生会员,上海工程技术大学数理与统计学院硕士研究生,研究方向为机器学习和数据挖掘;谢晓金(1996-),男,上海工程技术大学数理与统计学院硕士研究生,研究方向为机器学习和数据挖掘。本文通讯作者:张怡。第 2 期张怡,谢晓金:基于K-means聚类与粗糙集的个人信用集成分类模型XGBoost三种算法后建立的个人信用评估模型,并依据所得相关多元评价指标对个人信用评估进行对比研究。张东梅等2基于主成分分析和单类 K近邻对混合数据进行预处理,并结合Bootstrap方法找到最佳决策边界,对个人信贷数据具有较好的分类效果。刘占峰等3基于模糊粗糙集提出的FRIS算法在个人信用数据评估中优于传统的线性判别分析、逻辑回归和K近邻算法。而个人信用数据中离散型和连续型数据并存的问题使得分类性能大幅降低4。针对个人信用数据属性杂糅问题的研究,大多从聚类角度对连续型数据进行离散化。石凯等4给出多维高斯分布假设下MCMC算法,具有高度精确的区分效果。李艳等5运用K-means聚类处理混合数据,根据信息熵定义属性重要性度量,建立了变精度正域的约简方法,但基于欧式距离的传统 K-means 聚类忽略了空间要素。谢娟英等6基于样本空间分布密度改进传统的K-means聚类,充分解释了其优化算法的客观性。张立军等7基于K-means聚类和粗糙集构建集成型分类模型,但无法规避初始点和聚类个数随机选取的弊端。陈晋音等8针对混合数据问题,提出了一种自适应选取的改进聚类算法。钟志峰等9提出一种自适应改进的K-means聚类算法,规避了初始点选取的随机性。郭婧等10采用菌群优化算法增强 K-means聚类的有效性,得到更好的聚类性能。已有文献大多采用K-means聚类对连续型数据进行离散化,并与属性约简相结合,如采用聚类的思想,在不降低分类性能的前提下,降低求解约简的时间消耗11。综上,针对个人信用数据属性杂糅的问题,本文旨在提出一种改进的K-means聚类和粗糙集的个人信用集成分类模型。1 预备知识1.1基本概念定义定义1 样本空间密度density(xi)=j=1nd(xi,xj)l=1nd(xl,xj),i=1,2,.,n(1)其中,d(xi,xj)表示数据xi与xj之间的欧式距离。density(xi)越小,说明特定空间内样本密集程度越高;反之则越低6。定义定义2 聚类误差平方和Jej=x Cj1Nj|xi-j|2(2)其中,xi是第j个簇的第i个样本点,Cj表示第j个簇的样本点集合,Nj是第j个簇中样本点的个数,j是第j类的聚类中心。因此,Jej可以反映簇内数据的密集程度,即Jej值越小说明第j个簇内的聚类效果越好9。1.2基于粗糙集理论的属性约简粗糙集理论5,13的主要思想是利用已知信息,对未知领域进行近似描述。设目标信息系统S是一个四元组S=U,A,V,f,其中U为论域,V是属性值域,f是映射关系。A是一个非空有限的属性集合,由两个相互独立的子集,即条件属性集C和决策属性集D组成。针对C中非空子集B的重要度计算公式为:(B)=C(D)-C-B(D)C(D)(3)其中,近似质量函数C()用于度量特征子集的贡献度14。2 算法改进2.1改进的K-means聚类本文针对 K-means 聚类初始点和k值随机选取的缺陷,结合肘部法则15和改进的自适应思想,提出一种基于样本空间密度和自适应的改进K-means聚类,解决个人信用数据中离散和连续型数据并存的问题。改进的K-means聚类步骤具体如下:输入:数据集X=(x1,x2,.xN)、初始簇中心个数k、簇内聚类评估阈值Jej min、簇内样本点最小个数Nmin和邻域半径调节系数cR16,簇中心集C=,邻域内的数据集D=。输出:簇中心集C。(1)根据“肘部法则”划分样本点,划分远离群点集X1,得到优化样本集X2。(2)根据式(1)计算优化样本集X2中每个样本点xi的密度值density(xi),取最小的density(xi)值所对应的样本点xi,利用式(4)计算该样本的邻域半径R及其M邻域内的数据集D。M=xj|0 d(xi,xj)R(4)其中R=ncR1ni=1ne-density(xi),n是样本点个数,cR(0 cR 1)是邻域半径调节系数。(3)将 样 本 点xi加 入 到 初 始 簇 中 心 内,即C=C xi,并从优化样本集X2中删除数据集D。(4)若簇中心集中簇的个数与设置的k相等,即len(C)=k,则至步骤5,否则返回步骤2。(5)计算优化后数据集X2内每个样本点xi到C中每个簇中心Cj的距离,并将其划分到距离最小的相应的簇内。(6)计算k个簇集中的簇中心,若簇中心没有发生变化,则至步骤7,否则返回步骤5。(7)根据式(2)计算各簇的聚类误差平方和Jej,并计算各簇内的数据样本个数Nj。(8)根据下列情形条件更新簇中心个数和簇中心集:情形一:若Nj Nmin,Jej Jej min,则将距离中心点最近的样本增加为新的簇中心点,并令k=k+1;情形三:若上述情况都不满足,则保持不变。若簇中心集不发生变化,则至步骤 9,否则返回步骤5。(9)计算远离群点集X1中的每个样本点到各簇中心的距离。若存在样本点到第k个簇中心的距离小于该簇中样本点到簇中心的最大距离,则将该样本点分配到距离它最近的簇中,并从远离群点集X1中删除该样本点,返回步骤6;否则,则至步骤10。(10)输出最终的簇中心集C。本文改进的K-means聚类流程见图1。图中第一个条件判别逻辑为传统的 K-means 聚类迭代准则,在此基础上,设定簇内聚类评估指标阈值Jej min和簇内最小样本点个数的阈值Nmin以实现自动化更新簇中心点和个数。改进的自适应思想体现在第二个条件判别逻辑,即根据肘部准则再次判别远离群点样本集是否发现变化,以此进行迭代更新,从而降低远离群点样本对聚类结果的噪声影响。2.2改进的K-means聚类与粗糙集的个人信用分类模型基于改进的K-mean聚类和粗糙集的个人信用集成分类模型主要步骤如下:(1)获取数据集,并将数据进行预处理。首先,计算缺失比,小于5%者,予以删除;反之,使用均值插补法予以填补;其次,进行标准化处理;最后,按照7:3划分训练集和测试集。(2)基于 2.1节改进 K-means聚类对训练样本中的连续型数据进行离散化处理。(3)运用粗糙集对离散化后的训练集进行属性约简,得到特征子集。(4)为解决不平衡问题,将

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开