2023.6电脑编程技巧与维护1实验数据分析1.1数据预处理数据预处理步骤如下。(1)去除企业发票数据中的重复值、缺失值、异常值和噪声数据,剔除无效发票数据,对于特征的构建均在有效发票数据的基础上进行计算。(2)将信誉评级A、B、C、D分别用数值4、3、2、1进行替换,其中,信誉评级A的企业信贷风险最低,信誉评级D的企业信贷风险最高。(3)将数据集随机划分为训练集和测试集,划分比例为8∶2,其中80%的数据用于对模型进行训练,其余数据用于对模型进行测试。1.2样本数据特征挖掘根据企业发票数据,对信贷风险的评估指标进行整理,初步挖掘出反应企业综合实力与经营状况的10个隐藏特征,涵盖了企业发票中的全部评估指标。它们分别是客户集中度、客户数、供应商数、订单取消率、年平均销售额、年平均净利润、年利润率、平均年利润增长率、平均年进项金额增长率及平均年销项金额增长率。1.3样本数据特征与企业信贷风险相关性挖掘出影响企业信贷风险的隐藏特征后,对变量进行相关性分析。根据相关性分析结果可知,与信誉等级相关程度比较高的特征有客户集中度、年利润率、年平均销售额、订单取消率及年平均净利润。1.4线性归一化处理线性归一化处理也被称为最小—最大归一化处理,是对原始数据进行线性变换,将数据值映射到[0,1]之间,其目的是取消各维数据之间的数量级差别,可以起到统一量纲,防止小数据被吞噬的作用。线性归一化转换函数如公式(1)所示。(1)其中,min(x)、max(x)分别为样本数据的最小值和最大值。2分类器构建2.1K均值聚类K均值聚类(K-meansclustering)算法通过使聚类误差最小进行簇的划分。具体定义如下:给定数据集合X={x1,x2,…,xn},xn∈Rd,n=(1,2,…,N),K均值算法就是要将此数据集合按照聚类准则最优的原则分成M个互不相交的簇C1,C2,…,CM。通常情况下,K均值算法的聚类准则是类内误差总和最小。类内误差是指簇中的各元素xn到其簇中心mk的欧氏距离平方和,数学表达式如公式(2)所示[1]:(2)其中,为类内误差(方差)。通常用Esum代替E(m1,m2,…,mM),即Esum=E(m1,m2,…,mM)。2.2BP神经网络BP神经网络是一种按照误差逆传播算法训练的多层前馈神经网络,由输入层、隐含层和输出层构成。BP神经网络中的输入层和输出层节点个数都是已知的,输入层节点个数等于输入向量的维数,输出层节点个数等于测试分类个数,而隐含层的节点个数需要通过经验公式来判定,如公式(3)所示:(3)其中,m为隐含层的节点个数...