温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
BS
Stacking
模型
个人信用
风险
评估
方法
研究
第 卷第 期运 筹 与 管 理 ,年 月 收稿日期:基金项目:国家社会科学基金项目();陕西省教育厅 年度重点科学研究计划()作者简介:顾清华(),通讯作者,男,教授,博士生导师,研究方向:多目标优化,车辆调度和复杂系统建模与仿真。基于改进 模型的个人信用风险评估方法研究顾清华,宋思远,张新生,暴子旗,(西安建筑科技大学 资源工程学院,陕西 西安 ;西安市智慧工业感知计算与决策重点实验室,陕西 西安 ;西安建筑科技大学 管理学院,陕西 西安 )摘要:在个人信用违约风险与日俱增的背景下,为了使企业准确识别个人信用风险,本文提出了基于改进 模型的个人信用风险评估方法。针对个人信用风险数据的特点,首先对数据使用改进后的 算法进行过采样处理,然后使用网格搜索算法对分类器进行参数寻优,为了寻找模型的最优组合,使用逻辑回归对基模型进行贡献度分析,从而确定 模型。实验表明所提出模型与各类集成算法相比,在个人信用风险评估违约样本的识别率上以及稳定性等各类指标上均有最好表现,验证了模型的有效性。关键词:信用风险评估;分类;堆叠模型中图分类号:文章标识码:文章编号:():,(,;,;,):,:;引言随着我国经济快速发展,良好的信用经济环境是我国社会发展的经济基础。从商业银行的视角来看,随着个人信贷业务的快速扩张,个人信用风险已成为商业银行面临的重要风险,也是导致国家金融体系不稳定的重要原因之一,因此如何更好评价个人信用风险成为当务之急。在个人信用风险预测问题中,分析以往的金融借贷数据可知,借贷行为产生后,最终可以如期还款的用户占大部分,仅有少数违约用户由于其还款能力有限不能按时还款,因此形成不平衡的风险数据。不平衡数据会使得样本分类准确率急速下降,不能满足模型对分类效果的要求 ,。为了降低不平衡数据的倾斜度,现有研究对不平衡数据的处理主要包括过采样 、欠采样 以及混合采样 三种方式。由于个人信用风险数据极度不平衡,违约样本数量远远大于非违约样本,而被错分的违约样本会造成银行企业的利润损失,欠采样容易造成信息损失,为了保证分类模型的样本数量以及足够的训练,大都采用过采样技术 。信用风险评估的方法 有 很 多,和 使用 衡量客户违约风险,模型简单好解释,但信用评价准确度不高。等 在信用卡拖欠问题上,发现决策树和随机森林的预测效果优于逻辑回归。程砚秋 使用违约样本正确识别率代替以往的非违约样本识别率的度量指标,并采用不均衡支持向量机对信用风险评价指标进行赋权,从而有效区分样本。个人信用风险数据维度较大,传统单模型受到变量维度的限制,不能在大环境下使用,且客户数据情况复杂,使用单一分类器可能不能很好将其区分开,而集成学习的应用大大改善了这一缺点。陈舒期和梁雪春 提出基于 的 集成模型大大提高了支持向量机的分类识别性能。等 比较了信用风险预测的六种方法,显示集成学习有更高的准确性。柳向东和李凤 通过对比 ,算法,实验表明 适合处理不平衡数据集,且对信用风险的识别能力较好。等 和 等 使用 对数据类别进行有效识别,获得了良好的信用预测性能。上述研究表明,集成算法可以更好地保证模型的稳健性,在信用风险评估上也可以表现出更好的性能。而本文使用的 方法是一种新颖的集成算法,通过组合不同性能的学习器来更好的预测信用风险,将集成的知识迁移到简单分类器上,显著提升预测效果。虽然 方法已被广泛用于其他领域 ,但是目前在信用风险评估的相关研究工作还很少。基于此,本文提出了改进 集成模型,首先对 算法进行改进,在强化小众样本边界区域识别的基础上,进一步对噪声点进行去除,从而保证对违约样本的精确预测;此外,针对 集成算法中分类器存在冗余情况、可能会降低预测性能的问题,使用网格搜索进行调参,并提出使用 对个体学习器进行贡献度分析,从而得到最优个体学习器组合,使得整个模型达到最优性能。通过与单分类器以及不同堆叠方式的比较,验证了所提出集成模型的有效性。图 模型流程图运 筹 与 管 理 年第 卷 改进 模型 模型流程图本文提出一种基于改进 模型的个人信用风险评估方法,其中改进后的模型用于处理不平衡的个人信用风险评估数据。模型主要包括个部分:()使用改进后的 对不平衡个人信用风险数据进行采样;()网格搜索调参;()利用采样后的数据与寻优后的参数对个体学习器进行训练;()利用个体学习器训练生成的新特征对元模型进行训练;()利用元模型 对各个体学习器进行贡献度分析;()得出最终模型以及性能测试结果。模型流程见图 。改进后的 采样 是一种自适应综合过采样方法,主要思想是找到小众样本的边界区域,对边界区域的小众样本采用 方法进行样本生成。该算法有两个变种:和 ,这两种方法都可以加强边界处模糊样本的存在感,而 是在方法 的基础上,在生成样本点时考虑将 近邻中的任意一个样本进行线性插值,使新增样本更加靠近真实值。在 中,算法将处于大小样本分类边界的样本点进行线性插值生成新的样本点,未对安全区的样本点以及噪声点进行处理。噪声点的出现有两种情况:输出错误与输入错误,个人信用风险数据数据量大,管理规范不统一,容易出现以上两种情况。而噪声点的存在势必会影响算法学习的性能与效果,因此本研究在 的基础上,将噪声点进行过滤,可以使算法更好地学习数据。图 为原理图,算法流程如下:图 原理图输入:小众样本 ,大众样本 ,训练集 输出:生成后的新数据集 对于少数类 中的每一个样本 ,从整个训练集中计算其 个最近邻,其中 个最近邻中多数类样本的数量为 ();对于若 ,则该样本点为安全点,不对其做任何改动;对于若 ,即 个最近邻均为多数类样本,则该样本点为噪声点,在该步骤中去除该类点;对于若 ,则该样本点为危险点,即容易被误分类的点,设置集合 ,并进行下一步操作;对于从 的 个少数类最近样本点中随机选择出一个 ,从 个多数类最近样本点中随机选择出一个 ;根据公式 (),使得危险点与周围的小众样本合成新的小众样本,其中()代表了两个少数类样本之间差异性向量,是 ,之间的随机数;根据公式 (),即使用危险点与周围的大众样本点合成新的小众数据,是 ,之间的随机数。本研究所用数据集是基于 公开的德国个人信用数据集,其中包含 个样本,个特征,为二分类数据。其中好坏样本占比 :,为不平衡数 据 集,因 此 对 其 使 用 改 进 后 的 方法对数据进行处理。通过算法处理后的数据集正负样本比为 :,共 条数据,共有噪声点 个。堆叠模型 是一种分层模型集成框架,通常使用异质弱学习器,并行的学习他们,并通过一个元模型将其组合起来,根据不同弱模型的预测结果作为新特征集合供元模型训练使用,并输出一个最终的预测结果。算法的并行计算在于学习模型的稳定性,并且分层预测的计算结果远远优于向量均值化和投票机制。本文使用两个堆叠层进行了实验。第一层由 种不同的基础模型组成(,),第二层只包含一个最终模型或元模型()。该框架如图 所示。在 第 一 层 模 型 中,以 为 代 表 的 在训练过程中对于错分数据给予较大的权重,从而提升整体模型的准确率;以 为代表的 使用有放回随机抽样,数据集之间相互独第 期顾清华,等:基于改进 模型的个人信用风险评估方法研究立,可以提高不稳定模型的准确率,并降低过拟合的程度;其他单算法则保证了模型输出数据的多样性。能够成功的关键在于第一层模型能针对原始训练数据得出有差异性且预测能力好的输出值,第二层模型继续学习后,进一步提升整体模型预测的准确度和稳定性。图 堆叠概要图 个体学习器贡献度分析逻辑回归在个人信用评估领域的应用已经相当成熟,具有良好的适用性和稳健性。假设具有 个独立变量的观测向量 (,),根据观测值某件事情发生的条件概率为 ()。逻辑回归模型采用如下方法计算该条件概率:首先将特征线性求和,然后使用逻辑函数进行映射,求得条件概率。特征向量各个分量线性求和公式为:()。其中 是模型中体现贡献度的参数,是输入。逻辑函数(也称 函数)的表达式为公式(),样本特征向量和权值线性求和,之后依据 函数的形式求出公式(),根据决策边界可以进行两类样本的分类。()()函数图像如图 所示。逻辑回归损失函数为公式(),在求解参数 的过程中利用梯度下降法可以得到 的更新公式,见公式()。()()():()()其中 :训练样本的个数;:原训练样本中的 值;上角标 :第 个样本;:步长;下标 :参数 的第 个元素。图 函数图 基于改进 模型的个人信用风险评估 数据描述与数据处理 数据描述数据集是银行真实的数据,来自 公开的德国信用数据集(网址 :),该数据集有 个样本,属于小型数据集,正类样本(非违约,标签为 )有 个,负类样本(违约,标签为 )有 个,每个原始样本有 个指标属性,便于数据分析,该数据集被增加至 个属性,表 是 个数据特征描述。表 样本特征描述 数据预处理数据集中包括定性指标与定量指标,定性指标即表示类别的指标,对于定性指标之间的数学计算是没有意义的,因此不能直接使用。通常有两种方运 筹 与 管 理 年第 卷法进行处理:一是处理只作为分类的指标,二是处理有区域划分的有序指标,表 为基于这两种方法对定性指标的处理结果,定量化处理后的指标与余下的指标进行归一化处理,保证数据分析的结果不受到量纲的影响,最终得到我们最终的评价指标体系数据。表 定性指标处理 分类指标选择本研究是基于 的个人信用风险预测,选用准确率()和 值来衡量预测的准确性,利用精准率()、召回率()、得分、特异度()来衡量模型的有效性。实验结果分析 改进后的 测试结果比较在最初算法中,选用 ,共 个模型作为个体学习器,选择 作为元模型训练个体学习器的输出,采用 折交叉验证结合网格搜索的方式确定分类器参数,训练集与测试集划分比例为 :,从而进行实验,结果如表 、表 所示,表 、表 数据均为 次试验之后的平均值,为未进行删减的 个基模型。表 为使用各种不平衡算法以及本文算法处理前后的模型结果对比,数据表明改进后的算法对比其他算法表现最佳,集成分类器相比单分类器增加效果显著,且 集成后的模型与 、算法性能相比较,性能最少提升 ,也由此验证了 模型的有效性,也可以看出改进后的不平衡数据处理方法对提升模型性能有着重要的作用。第 期顾清华,等:基于改进 模型的个人信用风险评估方法研究表 使用不平衡处理算法对数据进行处理的准确率实验结果对比 图 各不平衡处理算法的准确率结果图 基模型贡献度图 为各不平衡算法处理后的准确率变化图,可以看出 ,涨幅最为明显,其次是 ,而 ,浮动不明显,更有下降的趋势,一方面说明结合改进后的 算法使用时,集成算法较传统单分类器可以更好的处理信用风险数据,对数据集的适应能力很强,从而实现精准分类;另一方面 这种单分类器容易欠拟合,可能会影响整体模型的精度,因此需要对分类器进行筛选,确定最优组合模型。基模型贡献度排序图 是基于元模型对基模型做的贡献度分析,整体算法将基于图 来进行模型的最终确定。在所提出的模型中,基模型的输出预测结果作为元模型的新特征使用,那么在训练完成后,分类器依据公式()和公式()得出一组权值,。在本模型中,可以得到各分类器的权值并进行排序,从而起到筛选的效果,使得整体 模型达到最优。整体测试结果说明表 为各堆叠组合在个人信用风险数据上测试结果的比较,由数据可知,使用堆叠模型比单纯使用单模型的各项指标都要好,在精度上比最高的 提高了 ,对违约样本识别的指标上提高了 。为通过表 分析删去 的集成模型,()为通过贡献度排序来进行逐步删除分类器的集成模型。表 堆叠模型在个人信用风险数据上测试结果比较 ()()()()()运 筹 与 管 理 年第 卷图 是每个指标的变化趋势,与 均是在 之后开始降低,说明在 模型组合时,整体精确度、特异度与稳定性达到最高,而 与删减前相比变化不大,说明对非违约样本的识别没有变化。在个人信用风险评估中,更需要识别的是违约样本,因此特异度指标更值得考虑,最终以 组合作为最终模型,即以 ,为 基 模 型,为 元 模 型 构 建 改 进 模型。()()()()()图 测试结果说明图 模型的 曲线图 指标说明图 是 堆叠模型在训练集上的测试效果。图 中,曲线下的面积为 ,和第一层模型的 个分类器相比在表现最优,可以表明 模型使用基模型组成新特征方式的分类性能要优于单分类器,所提出的模型在个人信用风险评估问题上分类效果精确且稳定,可以更好的识别违约样本。结论个人信用风险评估对于企业识别用户风险至关重要,能否准确识别违约用户对于社会经济发展具有重要的影响。本研究所用数据集由 个样本、个特征组成,根据个人信用风险数据特点对 算法进行改进,在生成边界区域样本的基础上对噪声点进行有针对性的去除,大大提高了预测性能,然后选用 堆叠模型对处理后的数据进行分类预测,整合八种有差异化的分类器形成一种新的集成框架,并创新性的使用了第 期顾清华,等:基于改进 模型的个人信用风险评估方法研究 对基模型进行贡献度分析从而对个体学习器进行筛选,得到最优组合模型,使得集成模型性能达到最优状态。实验结果显示,提出的模型准确度为 ,为 ,为 ,为 ,各项指标均有提升,特别是在对违约样本的识别率上,所提出模型表现最好。试验从多个角度证明了不平衡算法以及集成算法的有效性,也表明本算法在个人信用风险评估上可以实现较高的精度与稳健性。参考文献:莫赞,张灿凤,魏伟 基于 集成的个人信用风险 评 估 方 法 研 究 系 统 工 程,():吴金旺,顾洲一 基于非平衡样本的商业银行客户信用风险评估以 银行为例 金融理论与实践,():,:,():,:,:欧阳源?基于混合采样的非平衡数据集分 类 研 究 重庆:重庆大学,:,张涛,汪御寒 基于样本依赖代价矩阵的小微企业信用评估方法 同济大学学报(自然科学版),():,():,:程砚秋 基于不均衡数据的小企业信用风险评价 运筹与管理,():陈舒期,梁雪春 改进的 集成算法在信用风险评估 中 的 应 用 计 算 机 工 程 与 设 计,():,():柳向东,李凤 大数据背景下网络借贷的信用风险评估以人人贷为例 统计与信息论坛,():,:,:,():,:崔少泽,赵森尧 基于 的再入院患者 风 险 预测 方 法 系 统 工 程 理 论 与 实 践,():,:(),:,:运 筹 与 管 理 年第 卷