主流机器学习方法识别车险欺诈效果的比较研究陈凯李斌杰[摘要]近年来,我国车险市场巨大的体量也催生了许多车险欺诈案件,然而传统的车险欺诈识别手段效率不佳,本文采用机器学习的方法,基于包含中国在内的四个数据集进行了实证分析,以比较六种主流机器学习方法对车险欺诈的预测表现以及预测表现的稳健性。本文对四个原始数据集进行数据分割,使原数据集分为训练集和测试集,训练集用于构建机器学习模型,测试集用于评估机器学习模型的效果,从而评估各机器学习方法的预测表现以及预测表现的稳定性。首先基于特征空间采用SMOTE采样法,使训练集中的欺诈样本数与非欺诈样本数达到平衡。之后采用10折交叉验证法选取最佳的参数组合来确定机器学习中的最优调节参数,并采用ROC曲线及曲线下方的面积AUC作为模型预测效果的评估标准,以避免主观选取截断点造成的影响。最终,研究发现极端梯度提升决策树模型和随机森林模型的预测表现以及预测表现的稳定性较好。[关键词]汽车保险;机器学习;SMOTE采样;ROC曲线[中图分类号]F840;TP181[文献标识码]A[文章编号]1004-3306(2022)12-0090-13DOI:10.13497/j.cnki.is.2022.12.006[作者简介]陈凯(通讯作者),北京大学经济学院副教授,E-mail:chen.kai@pku.edu.cn;李斌杰,北京大学经济学院硕士研究生。一、引言近年来,我国车险市场巨大的体量也催生了许多车险欺诈案件。目前保险公司主要依靠查勘专家判断来识别车险欺诈,这种方法成本高、效率低,并不能很好地解决车险欺诈问题。随着机器学习方法的普及,各行各业已经开始运用机器学习方法做各种预测分析。保险公司也可以运用机器学习方法来识别车险欺诈,从而大大降低保险公司的费用支出。从理论层面来看,机器学习方法的种类繁多,不同的机器学习方法对不同问题和不同数据集的有效性不同。但是当前的理论研究大多仅基于单一数据集运用机器学习方法建立机器学习模型,来比较各种机器学习方法对车险欺诈识别的效果,所得结果的稳健性得不到保证。因此,本文将基于国内外四个数据集分别建立六个机器学习模型:Logistic回归、决策树(DecisionTree)、K近邻(KNN,KNearestNeighbors)、支持向量机(SVM,SupportingVectorMachine)、随机森林(RandomForests)以及极端梯度提升决策树(ExtremeGradientBoostingDecisionTree)。我们将对比不同的机器学习模型在同一个数据集中表现的差异以及同一个机器学习模型在不同的数据集中表现的差异,通过这种交...