温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
特征
筛选
机器
学习
医疗保险
报销
比例
预测
研究
杨赫祎
论著原始研究基于特征筛选与机器学习的医疗保险报销比例预测研究杨赫祎1#,冯玉1#,李天俊2,卢施岐1,黄磊11.西南交通大学数学学院(成都 611756)2.四川大学华西医院医保办公室(成都 610041)【摘要】目的 对国家医疗保障疾病诊断相关分组中胸部大手术组的医疗保险报销比例进行数据驱动的辅助预测,为医疗保险经办机构及医疗机构精准有效地预测按病种分组医保支付情况提供参考。方法 以四川省某大型三甲医院 2020 年的胸部大手术病例信息为样本,通过多元线性回归模型和基于特征筛选的机器学习改进方法,将全部数据集的 70%作为训练数据集,30%作为测试数据集,对医保支出情况进行预测。结果 随机森林、Logistic 回归、支持向量机三种机器学习方法在筛选特征数量相同时,预测效果无统计学差异。预测效果最优的模型准确率为 78.96%,敏感性为 83.93%,特异性为 71.27%,精确度为 0.818 8,AUC 值为 0.841 4,Kappa 值为 0.610 8。结论 疾病诊断数量、手术操作数量及患者年龄对报销比例影响较大。治疗费、材料费、手术费及西药费为住院费用的主要方面。基于特征筛选的机器学习改进方法优于传统的统计线性模型,且选取合适的特征数量能够使模型在较高的效率下达到更好的预测效果。【关键词】国家医疗保障疾病诊断相关分组;特征筛选;机器学习;医疗保险;报销比例;预测Study on health insurance reimbursement rate prediction by the combined method offeature selection and machine learningYANG Heyi1,FENG Yu1,LI Tianjun2,LU Shiqi1,HUANG Lei11.School of Mathematics,Southwest Jiaotong University,Chengdu 611756,P.R.China2.Office of Medical Insurance,West China Hospital,Sichuan University,Chengdu 610041,P.R.ChinaCorresponding author:HUANG Lei,Email:【Abstract】Objective To perform data-driven,assisted prediction of health insurance reimbursement ratios forthe major thoracic surgery group in CHS-DRG,in addition to providing an optional solution for health insuranceproviders and medical institutions to accurately and effectively predict the references of health insurance payments for thepatient group.Methods Using the information on major thoracic surgery cases from a large tertiary hospital in Sichuanprovince in 2020 as a sample,70%of the total dataset was used as a training dataset and 30%as a test dataset.This datawas used to predict health insurance spending through a multiple linear regression model and an improved machinelearning method that is based on feature selection.Results When the number of filtered features was the same via threemachine learning methods including random forest,logistic regression,and support vector machine,there was nosignificant difference in the prediction effectiveness.The model with the best prediction effect had an accuracy of 78.96%,sensitivity of 83.93%,specificity of 71.27%,precision of 0.818 8,AUC value of 0.841 4,and a Kappa value of 0.610 8.Conclusion The basic characteristics such as the number of disease diagnoses and surgical operations,as well as the ageof patients affect the reimbursement ratio.The cost of materials,drugs,and treatments has a greater impact on thereimbursement ratio.The combined method of feature selection and machine learning outperforms traditional statisticallinear models.When dealing with a larger dataset that has many features,selecting the right number can enhance theprediction ability and efficiency of the model.【Key words】CHS-DRG;Feature selection;Machine learning;Health insurance;Reimbursement rate;PredictionDOI:10.7507/1672-2531.202205076基金项目:四川省自然科学基金项目(编号:2022NSFSC1850);中央高校基本科研业务费专项项目(编号:2682020ZT113、2682021ZTPY078、2682022ZTPY085)通信作者:黄磊,Email:#共同第一作者中国循证医学杂志 2023年4月第23卷第4期 373 http:/ 近年来,我国全民医保体系逐渐完善,医疗服务能力显著提升1-2,然而不断增加的医疗费用加重了患者的经济负担与医保基金支付的压力。疾病诊断相关分组(diagnosis related groups,DRG)是综合考虑患者疾病诊断、治疗方式、合并症、并发症及患者年龄等因素,将疾病过程、资源消耗相似疾病进行分组的一种方式。基于 DRG 的医保支付方式能够有效控制治疗费用的不合理增长,提高医保基金使用效率,推进分级诊疗,促进医疗服务模式转变3-4。按国家医疗保障局制定的 DRG/DIP 支付方式改革三年行动计划,2024 年将实现全国统筹地区 DRG/DIP 付费的全面覆盖5。按病种付费政策的推进将促使医疗机构更加关注患者在医院端的医保报销状况,结合病种支付额度预测年度超支结余情况;而医保经办机构也需要在政策制定时根据历年医院结算情况对医保基金支出情况进行测算,控制超支风险6。本文选取四川省某大型三甲医院 2020 年 1 月至 2020 年 12 月胸部大手术病例信息作为研究对象,采用基于特征筛选的机器学习改进方法建立预测模型,对患者的医保报销比例进行预测,以筛选影响报销比例的因素,并选择运行效率高、预测效果好的机器学习方法,以期为医疗机构、医保经办机构在按病种付费下开展医保基金支出预测提供思路。1 资料与方法1.1 数据来源本研究收集四川省某大型三甲医院 2020 年1 月至 2020 年 12 月按国家医疗保障疾病诊断相关分组(CHS-DRG)标准分组为胸部大手术的病例信息,CHS-DRG 核心疾病诊断相关组编码为 MDCE-EB1。在保证资料完整性、逻辑性与规范性的前提下,对数据进行清洗、匹配诊断名称与诊断码、剔除重复值、缺失值及异常值等操作,仅考虑医保类型为成都市城镇职工和城乡居民的患者,最终纳入 1 554 例患者信息。本研究已通过四川大学华西医院医学伦理委员会审批(审批号:2023 年审319号)。1.2 数据集变量本数据集有 19 个变量,将患者基本信息划分为 7 个类别:年龄、性别、医保类型、住院天数、疾病诊断数量、手术操作数量、级护理天数。将住院费用划分为 11 个类别:治疗费、检查费、材料费、床位费、放射检查费、护理费、化验费、麻醉费、配血检、手术费、西药费。将医保报销比例作为响应变量。1.3 数据预处理患者住院总费用为 11 项费用之和,报销金额与住院总费用之比为医保报销比例。因医保报销比例与 11 项费用间存在多重共线性,为避免共线性带来模型预测的过拟合问题,将各项费用依照金额区间设置为等级变量。同样地,疾病诊断数量、手术操作数量与治疗费、手术费等具有较强的相关性,故将病案数量与手术数量作等级化处理。将医保报销比例以 35%为临界值设置为二分类变量,报销比例大于 35%记为 1,反之记为 0。1.4 模型评价指标依据预测模型下的混淆矩阵,计算预测模型的准确度、精确度、敏感性、特异性、Kappa 系数和受试者工作特征(receiver operating characteristic,ROC)曲线的曲线下面积(area under curve,AUC)6 个指标。上述指标综合考虑了模型的预测准确率、漏诊率与误诊率,各指标值越大,模型的预测性能越优7。同时纳入筛选的特征数量及运行时间等因素,对不同特征筛选方法及预测模型进行评价。用 TP,FP,TN,FN 分别表示真阳性、假阳性、真阴性、假阴性,则模型评价指标可通过下式计算:=TP+TNTP+FP+TN+FN=TPTP+FP=TPTP+FN=TNFP+TNKappa=-Pe1-PePe(TPFP)(TPFN)(TNFP)(TNFN)(TPTNFNFP)2其中,1.5 模型建立与算法首先,建立传统的多元线性回归模型,利用逐步回归法进行变量筛选,选择 AIC 信息统计量最小的多元线性回归模型作为最优模型,对报销金额进行预测,进而得到分类结果。其次,利用信息增益、信息增益比、Relief 和One-R 四种特征筛选方法8,计算不同特征筛选方法下各特征的重要程度并进行排序。由于不同特征筛选方法的取值情况不同,故仅比较同一方法下各个特征指标重要程度的相对大小。按照不同特 374 CHINESE JOURNAL OF EVIDENCE-BASED MEDICINE,Apr.2023,Vol.23,No.4 http:/征筛选方法下各特征重要程度的相对大小,依次选取 14 个和 10 个重要特征,利用支持向量机(support vector machines,SVM)、随机森林与Logistic 回归三种机器学习方法进行分类。本研究采用 R 4.1.0 软件进行回归预测及机器学习训练测试。在回归模型预测中,利用逐步回归计算函数 step(),以 AIC 信息统计量为准则,通过选择最小的 AIC 信息统计量,以达到删除或增加变量的目的,从而选出最优模型。利用训练集得到多元线性回归模型,利用测试集进行报销金额的预测,借助住院总费用计算预