温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
XGBoost
模型
营养成分
分析
高血压
预测
方案
蒋淮
第 卷第期重 庆 大 学 学 报 年月 :基于 模型的营养成分分析高血压预测方案蒋淮,谭浪,李时杰,刘昱,王峻峰(天津大学 微电子学院,天津 ;北京智芯微电子科技有限公司,北京 ;云南省第一人民医院,昆明 )收稿日期:网络出版日期:基金项目:国家自然科学基金资助项目();云南省重点研究资助项目();天津市科技计划项目重大专项资助项目()。(),()()作者简介:蒋淮(),女,硕士研究生,主要从事机器学习方向研究,()。通信作者:王峻峰,男,云南省第一人民医院,主任医师,主要从事临床医学方向研究,()。摘要:高血压是一种常见的慢性病,若能早发现、早采取措施可降低其引发并发症的风险。尽管高血压的产生与发展与诸多因素有关,但饮食被公认为影响高血压的主要因素之一。机器学习模型可以对疾病进行有效预测,并提供辅助治疗。笔者提出一种基于 的通过分析营养成分预测高血压的方案,该方案由数据转换、特征选择、数据清理与标准化、模型搭建、分类与评估部分组成。实验结果表明,在高血压预测中获得了 的 分数且准确率超过,高于随机森林、支持向量机与人工神经网络。此外通过分析不同营养成分对高血压预测的影响因素,获得了影响高血压的前 个营养特征,大部分与医学结论相同,验证了模型的有效性。关键词:机器学习;高血压预测;营养成分分析;极端梯度提升中图分类号:;文献标志码:文章编号:(),(,;,;,):,:,:;高血压是一种严重威胁人类健康的慢性病,根据美国高血压控制委员会制定的标准,反复测量的收缩压超过 或舒张压超过 可认定为高血压。英国权威杂志 柳叶刀()年的研究显示,年全球高血压患病人数为,到 为止增加至 ,患病人数几乎翻了一倍;在世界范围内每年有 人死于高血压或由其引发的并发症。中国“十二五”高血压抽样调查结果显示,年中国有 的成年人为高血压患者,占成年人比例的;有 人不知道自己是否患有高血压,此人数超过患者人数的一半;此外 的患者未使用药物进行治疗,只有约 的高血压患者得到了控制;而处在高血压的边缘人数也达到了 。目前高血压在中国呈现低知晓率、低治疗率、低控制率的形势。影响血压状况的因素有很多,如性别、年龄、吸烟、肥胖以及不健康的饮食等,有诸多研究在这方面进行探索,结果显示不良的饮食是高血压形成与发展的重要影响因素。日常生活中饮食与人密切相关,合理的饮食可以促进身心健康和预防疾病,而饮食可以理解为营养成分摄入,因此不同种类和数量的营养成分摄入会影响疾病的发生以及人们的健康状况。研究也证实了饮食营养与血压值存在一定关系,如高血压患者的血压与膳食中钠摄入成正相关;高血压患者血浆中的总包和脂肪酸含量较正常人更高,脂肪与血压成正相关;服用维生素、能降低高血压患者的血压尤其是收缩压。高血压早期因无明显症状而不易被发现,很难引起重视,若能及早发现问题,通过合理饮食及相关医疗措施,可有效控制并避免后期引起并发症。饮食在高血压的发生及发展中都起到很大作用,所以建立一种通过分析营养成分来预测高血压的模型十分必要。近年来,有学者在高血压的风险因素分析以及预测方面进行了研究,但通过饮食营养来预测高血压的研究较少,方法体系还不成熟。如 等 通过改进的反向传播神经网络算法研究了高血压的影响因素,包括遗传因素,生活方式因素,肥胖和合理饮食。等 基于数据挖掘技术建立了高血压并发症的预测模型。张伟等 提出了一种改进的 决策树算法,通过使用住院患者的医疗相关数据来预测高血压,最终获得了 的准确率。等 通过基于 的 分类器使用年龄、愤怒和焦虑程度来预测高血压,获得了 的准确率。以上研究成果对高血压的发生机制进行了深入探讨,但研究数据主要为影响高血压的一般特征,且使用的分析预测模型较为单一,对比性不强。因此,以营养成分为主要特征,以年龄、身形体态等一般特征为辅助特征,结合机器学习、统计学习等相关技术提出了一个高血压预测的五阶段方案,并搭建了基于 的分析营养成分预测高血压模型,结果显示所提出的预测模型具有较高准确率、精确率、召回率与 分数。此外还针对高血压预测中不同营养特征的影响因子完成风险分析,分析结果可以帮助医生以及患者提早发现问题,采取措施或进行治疗,降低医疗成本并提高患者生存率。基本原理及方法通过对问题进行分析和解构,笔者要实现高血压预测需要经过以下步骤:)需要将人的饮食数据转换为所需要的营养成分数据,并筛选出有利于模型预测的一般特征;)处理得到的营养成分和一般特征数据会伴随着缺失等问题,需要对数据进行清理;)分类模型可分为二元分类和多元分类模型,通过分析人的每天营养成分摄入以及相关特征来预测高血压为二元分类任务,需要搭建相应的二元分类模型来实现预测。据研究提出了一个阶段方案,具体流程如图所示。重 庆 大 学 学 报第 卷图预测高血压五阶段方案流程图 实验数据来源本次实验的数据来自于中国营养与健康调查(,),该项目由中美合作,从 世纪 年代起对中国多个地区居民的饮食结构和营养状况等变化进行追踪研究,至今共进行了 次调查,其所有研究调查数据面向公众开放,详细信息请参见。调查时间跨度较大,因此实验只选择从 年开始的最近次调查的数据进行分析。数据并未直接提供研究所需的营养成分数据,而是记录了调查期间每个人食用的食物名称及重量,以及相应的身高、体重、臀围、头围等基本信息和每个人的血压值。因此对调查数据做出以下处理:所提供的食物数据包含食物消耗量和相应的食物代码,中国疾病预防控制中心营养与食品安全研究所发布的中国食物成分表包含了每种食物的食物代码,以及每 食物所含有的 种营养成分的数量,研究使用 搭建数据库建立个字段之间的关系,将 食物数据转换为对应的 种营养成分数据。同时提供了被调查者的血压值检测数据,据统计约有 的人进行了连续次测量,进行了第期蒋淮,等:基于 模型的营养成分分析高血压预测方案次测量,左右的人只有一次测量结果或者没有记录数据。高血压诊断需要进行多次反复测量,因此只选择了包含 次的测量结果数据。之后对高 压与 低压 分 别取平 均 值,若 高 压 或 者低压 ,则视为高血压,标记为 作为正样本;否则为非高血压,标记为 作为负样本。特征选择通过前面处理办法,将饮食数据转换为所需的营养成分数据,并首先选择了这 种营养数据作为预测模型的主要特征。考虑到不同年龄段人们的饮食习惯和结构不同,如年轻人由于工作和其他原因更倾向于食用高碳水化合物和高能量的食物,总体摄入量相对较高。老年人则倾向于食用低碳水化合物、高纤维的食物。此外,不同身形的人的饮食摄入也有差异。因此,希望将年龄和身形体态作为预测模型的辅助特征,从而使预测结果更加合理准确。数据库中给出了每个调查者的身高和体重,通过身高和体重可以计算出每个人的身体质量指数(,)来表示个人的身形。为了更好地验证上述想法,需要使用特征选择方法从全部特征中剔除不相关或者冗余的特征来减少特征个数,从而提高模型精确度及减少运行时间,使构建出来的模型更好。本实验为二分类问题,故采用单变量特征选择方法验证年龄与 值是否可作为本分类实验的特征。单变量特征选择方法有种,选择了适合二元分类任务的 方法,中的 参数选择 ,它会计算单变量与训练目标之间的方差分析值(),值越大,说明特征影响分类结果越大。选择了 数据库中提供的基本信息,包括参与者的性别、出生年份、上臂围、三头肌皮褶、臀围、腰围以及要验证的年龄和 作为变量特征进行验证。最终将输出结果由高到低排序,如表所示。表 特征选择结果 特征名称值年龄 腰围 臀围 三头肌皮褶 出生年份 上臂围 性别 从表中可知,年龄与 的值分别为 、,明显高于其他特征的值,说明年龄与 可以作为预测高血压分类模型的特征,而性别、臀围等基本信息的值过低,则直接剔除。最终,预测高血压分类模型选择 种营养成分数据以及年龄与 共计 维,作为输入特征。数据清理与标准化在机器学习领域中获得的原始数据通常伴有缺失值,即数据集中某些特征属性的值不完全。为了保证数据完整性,利于模型准确预测,需要判断缺失值的类型并完成填充。机器学习中常用的处理缺失值的方法有人工填写、特殊值填写、均值填充、中位数填充、多重插补等。由于营养数据特征是通过饮食记录转换而来,因此若饮食记录有缺失,数据本身的性质无法使用上述方法进行填充,所以这一部分缺失数据直接删除。年龄和 个特征本身缺失值比例小于,这一部分缺失值对整体模型预测影响不大,故使用中位数填充进行替换。研究显示,岁及以下未成年人的血压会随着年龄、身高的增长以及体重的增加在标准范围内升高,若非家族遗传,很少患有高血压,所以这一部分数据不具有代表性,为了更好地评估模型准确性,删除了 岁重 庆 大 学 学 报第 卷及以下未成年人的数据。通过整个数据清理过程,最终得到了包含 个特征的 个数据样本,包括 个患高血压的正样本与 个未患病的负样本,比例接近 。由于输入特征主要是每日营养成分摄入量,种类繁多且单位不同,同时某些营养特征的总体方差过大,可能会导致一些机器学习算法的主目标函数阻止参数估计其学习其他特征,造成很难收敛或不能收敛的状况。数据标准化是将数据按比例缩放,使之落入一个小的特定区间,可以将其转化为无量纲的纯数值来去除数据的单位限制,便于不同单位或量级的指标能够进行比较和加权。因此对数据集进行了标准化处理,使每个特征值的平均值为,方差为,相当于转化成为标准正态分布即高斯分布。标准化的公式如下 ()()(),()其中:指的是数据集中特定维度的所有数据;()是数据集中同一维度的最小数据;()是数据集中同一维度的最大数据;表示标准化数据的值。模型搭建 ()又称极端梯度提升,由 等于 年开发和推出,并且在近年来的 比赛中取得非常突出的表现。是基于梯度提升决策树()的改进算法,通过 思想将个体学习器组合在一起,产生依赖关系,同时可以有效构建提升树且并行运行。算法因其运算快速、高效准确、泛化能力强等优点广泛应用于分类与回归领域。其核心概念是通过添加树,拟合最后预测的残差来学习新功能,然后获得样本得分,通过将每棵树的分数相加,可以得出样本的最终预测分数。对于具有个特征的个标记样本,使用个加法函数预测分数的公式如下?(),()()()(:,),()其中:是回归树的空间;()是其中一个回归树;()表示每个叶树的独立结构分数。的目标函数被定义为(?,)(),()(),()其中:代表了模型的损失函数;是正则化项;表示叶节点的数量;是叶节点的分数;与代表了防止过度拟合的控制系数。当生成第棵树时,预测分数公式可以写成?()?()(),()其中?()是前轮模型的预测分数,对应的目标函数可以改写为(),?()()()(),()为了加速优化,使用泰勒二阶展开式(),?()()()(),()通过添加样本的损失函数,重新组合样本,最后利用顶点公式求出最优的以及目标函数公式如下,(),(),()。()在寻找最佳分割点时结合了传统的贪心算法以及近似算法,根据百分位法列举几个可能成为第期蒋淮,等:基于 模型的营养成分分析高血压预测方案分割点的候选项,然后根据式()、()计算出最佳分割点。使用多种方法来避免过度拟合,例如引入正则化、行采样以及特征采样,同时还增加了对稀疏数据的处理。此外 还具有其他的优势,例如能进行并行处理,使速度有了很大提升;具有高度的灵活性,可自定义优化目标与评价标准;内置交叉验证,允许在每一轮 迭代中使用交叉验证。综合以上 在分类算法中的优势,选择了 作为通过分析营养成分预测高血压的模型。通过分类算法搭建模型并最终实现高血压预测,需要通过定义算法函数、调用函数搭建网络模型、训练与验证模型、期间调整参数及最后测试与评估模型等步骤。基于 的高血压预测模型的设计流程图如图所示,具体流程如下:首先定义算法函数,调用 函数搭建网络模型;随后设定初始参数并输入训练集,进行模型训练,每训练一次调整一次权值,直到训练误差最小或达到要求的最高训练次数 次;训练后存储当前网络文件,输入验证集,对比评估指标来确定需要人工手动调整的参数是否最优,如此循环直到所有参数全部最优;随后进入测试阶段,对模型评估获得相应指标,完成通过分析营养成分预测高血压的分类实