温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
医学
检验
数据
机器
慢性
粒细胞
白血病
预测
模型
王莹
|31智慧医疗医疗信息化基于医学检验大数据和机器学习构建 基于医学检验大数据和机器学习构建 慢性粒细胞白血病预测模型慢性粒细胞白血病预测模型王莹,顾大勇(通信作者)深圳市第二人民医院 检验科,广东深圳518000摘要:目的 通过大数据技术集成、治理、开发医学检验数据,构建慢性粒细胞白血病机器学习预测模型。方法 收集深圳市第二人民医院2016年10月1日-2021年9月30日全部就诊患者的全量医学检验数据并转化为大数据宽表,通过逻辑回归二分类算法构建慢性粒细胞白血病机器学习预测模型并采用混淆矩阵和二分类评估两种方法分别进行评估。结果 基于1301项医学检验项目生成的机器学习预测模型的二分类评估结果:AUC为0.9776,F1 Score为0.9232;混淆矩阵评估结果:准确率为94.518%,精确率为92.575%,召回率为91.947%。结论 本研究基于真实医学检验大数据,构建的慢性粒细胞白血病机器学习预测模型能够区分慢性粒细胞白血病患者与普通人,有望成为一种新的慢性粒细胞白血病的快速、非侵入式、普适性的辅助诊断方法。关键词:慢性粒细胞白血病;大数据;机器学习;逻辑回归二分类;预测模型DOI:10.19335/ki.2096-1219.2023.05.008 Constructing Prediction Model of Chronic Myeloid Leukemia Based on Medical Laboratory Big Data and Machine LearningWANG Ying,GU Dayong(Corresponding Author)Laboratory Department,Shenzhen City the Second Peoples Hospital,Shenzhen,Guangdong 518000ABSTRACT:Objective To construct machine learning prediction model for chronic myeloid leukemia by integrating,managing,and developing medical laboratory data with big data technology.Methods The paper collected full medical laboratory data of all patients in Shenzhen City The Second Peoples Hospital of from October 1,2016 to September 30,2021,and converted them into big data wide table.The paper constructed a machine learning prediction model for chronic myeloid leukemia with logistic regression binary classification algorithm,and evaluated it with two methods,namely,confusion matrix and binary classification evaluation.Results Binary evaluation results of machine learning prediction model based on 1301 medical laboratory items were as follows,AUC:0.9776,F1 Score:0.9232;Evaluation results of confusion matrix:accuracy rate:94.518%,accuracy rate:92.575%,recall rate:91.947%.Conclusion The study constructed achine learning prediction model for chronic myeloid leukemia based on real medical laboratory big data,which can distinguish patients with chronic myeloid leukemia from ordinary people,may become a new fast,non-invasive,and universal auxiliary diagnosis method for chronic myeloid leukemia.KEYWORDS:Chronic myelocytic leukemia;Big data;Machine learning;Logical regression binary classification;Prediction model0引言慢性粒细胞白血病(chronic myeloid leukemia,CML)是一种骨髓增殖性肿瘤,起源于异常骨髓多能干细胞且总是伴有定位于Ph染色体上的BCR-ABL1融合基因1。CML约占新诊断作者简介:王莹(1978-),女,汉族,重庆,本科,副主任技师(病理检验医师),研究方向:细胞形态学、机器学习和大数据。通信作者:顾大勇(1972-),男,汉族,江苏泰州,博士,主任医师,研究方向:传染病监测检测、基于微生物高通量快速检测相关的生物芯片技术及传感器技术。32|智慧健康Smart Healthcare2023 年 第 5 期成年人白血病病例的15%2,是发病率较高的疾病,通常早期发现,正规治疗可以保持长时间的生存率,晚期发现,进入加速期或急变期,容易转成急性白血病,预后不良,因此CML早诊断、早治疗,才能保证疗效。目前对CML的诊断主要是采用细胞形态学、分子生物学、染色体检查和流式细胞学的综合诊断,基于涂片、染色和镜检的细胞形态学虽然诊断速度相对较快,只是提示性信息,不是最终确诊方法。综合诊断是最终确诊的方法,需要结合分子生物学、细胞遗传学、和流式细胞学的检查,相对繁琐且所需时间较长,因此迫切需要开发一种快速、简单、自动化的CML诊断方法3。CML作为血液系统疾病,异常增殖的肿瘤细胞随着血液进入各个组织器官,在全身各部位会有不同的表现,分泌的细胞因子及各种功能蛋白会使各项检验指标发生变化,即使检验指标处于正常参考值范围,但指标间相互的关系也可能发生了改变,只是普通人工筛查方式无法发现,通过人工智能算法对人体一系列代谢指标进行数据挖掘,能够发现很多潜在的变化4。机器学习(machine learning,ML)具有处理非线性数据的能力,从现有数据中学习后找到新的模式并生成预测模型。实验室信息管理系统(laboratory information system,LIS)存储了海量的医学检验数据,能为临床决策提供依据5。虽然拥有海量的医学数据,但真正可以应用于临床科研的数据却较少,主要原因是数据分散、缺乏结构性和标准不统一6。大数据技术可以解决当前医学检验数据面临的技术问题,采用机器学习发掘医学检验数据中复杂的关系,获取隐藏的、有效的相关性,从而实现对疾病的预测。本研究目的是通过机器学习,基于医学检验数据构建CML机器学习预测模型,实现对CML的快速、准确、低成本、非侵入式和普适性的预测。1方法本研究方案经深圳市第二人民医院伦理委员会批准(批件号:20220209001),并在中国临床试验注册中心注册(注册号:ChiCTR2200056976)。2研究对象本研究采用的数据为深圳市第二人民医院2016年10月1日-2021年9月30日全部就诊患者的全量检验数据(140 616 701条检验结果记录),包括临床血液、体液专业,临床化学检验专业,临床免疫专业,临床微生物专业,临床分子生物学及细胞遗传学专业五大类合计1 299项检验项目(包括部分来自不同仪器设备的相同检验项目)。3医学检验大数据化治理、开发从LIS中导出患者数据,字段包括患者ID、年龄、性别、患者就诊部门(门诊或住院)、检验日期、检验项目编码、检验结果以及医院信息系统(HIS)中的对应诊断结果。3.1数据洞察初步洞察导出数据,删除明显错误数据(如检验日期为空或无患者ID等)、敏感数据和冗余数据。初步统计每一个检验项目对应的数据类型、数据量和脏数据情况。3.2数据集成按照数据表字段对应关系把数据导入大数据平台。3.3数据结构转换在大数据平台通对数据实施行列转置,实现所有患者在同一日期的所有检验项目位于同一行,不同患者的同一检验项目位于同一列,获得4 903 891行,1 338列的大数据宽表,如图1所示。3.4数据治理确定数据标准,根据数据标准进行数据类型转换或清理。删除各种错误数据和无效数据,采用零填充缺失数据。针对每个检验项目|33智慧医疗医疗信息化制定处理规则,形成计算机脚本程序自动化完成数据治理。3.5数据归一化归一化的数学公式为:Y=(X-Vmin)/(Vmax-Vmin),其中Vmax和Vmin分别为每一个字段的最大值和最小值,X是字段中待归一化的值,Y为X归一化结果,实现数值数据压缩到0,1区间,从而去除量纲和加快算法的收敛速度。3.6数据开发从4903891行中检索19 841例普通人群的数据作为对照数据,以及全部诊断结果为CML的10 556例CML患者。两者混合为30 397行、1 338列的数据表。摒弃数据表中CML患者不涉及的检验项目产生的无效字段后选择1302项字段作为机器学习数据源,其中1301项字段为特征列。4机器学习逻辑回归二分类算法常用的机器学习分类算法包括支持向量机(support vector machine,SVM)、随机森林(random forests,RF)和逻辑回归(logistic regression,LR)等,其中LR是一种广义的线性回归分析模型,属于监督学习算法。LR分类不仅可以提供分类类别,而且提供预测概率,LR二分类预测模型直观的显示了每一个特征的权重,有利于结合实际业务场景进行分析判断和解释,LR二分类算法对大数据量或小数据量的问题均有非常优异的性能和计算结果,是机器学习中经典的二分类算法7,基于此,本研究采用多种算法计算后发现LR二分类构建的预测模型预测效果较好,且预测模型可直观展示,故采用LR二分类构建预测模型。LR二分类模型为条件概率分布:P(Y=1|x)=(1)P(Y=0|x)=(2)x为输入,Y为输出0,1,w为权重向量,b为偏置,e为自然常数,wx为w和x的内积。对于给定的输入实例x,按照式(1)和式(2)可以求得P(Y=1|x)和P(Y=0|x),LR比较两个条件概率值的大小,将实例X分到概率值较大的那一类8。5构建逻辑回归二分类模型将机器学习数据源导入机器学习业务流程,本研究采用3:7比例随机划分测试数据和训练数据,其中测试数据(9 120条记录,占比30%),训练数据(21 277条记录,占比70%)。训练数据导入逻辑回归二分类模块生成预测模型。测试数据和预测模型分别导入逻辑回归预测模块。预测结果分别采用混淆矩阵模块和二分类评估模块进行评估,评估预测模型的预测水平。业务流程如图2所示。图 2机器学习逻辑回归二分类算法业务流程图 1数据行列转置示意图34|智慧健康Smart Healthcare2023 年 第 5 期6模型评估工具模型评估采用混淆矩阵和二分类评估两种评估方法。6.1混淆矩阵混淆矩阵横坐标为真实值,纵坐标为预测值,真实值与预测值在交点相同则结果为True,不同则为False。四种结果分别为真阳性(true positive,TP)、假阳性(false positive,FP)、假阴性(false negative,FN)、真阴性(true negative,TN)。评估项包括准确率、精确率、召回率和F1-Score