温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
乳腺癌
数据
处理
科技学院第十一组:刘晶晶 向雄峰 余 涛
乳腺癌的判别数学模型
摘要
本文解决的问题是利用9项指标,综合来判别乳腺肿瘤是良性还是恶性。我们通过初步数据分析,得出各个指标与肿瘤良恶性存在一定的线性关系,于是我们建立了多元线性回归模型。
对于问题一,我们先将附录表一中1-60组数据运用MATLAB中回归分析命令regress作初步的回归分析。根据所得的残差及其置信区间图,我们将其中6组离群点予以剔除。然后将余下的54组数据运用Excel作回归分析,由回归统计表中可以得出回归方程中常量和各个系数,由此可以得到判别乳腺癌是良性还是恶性的多元线性回归方程:
同时依据得到的回归统计、方差分析、残差分析等数据作出检验,检验,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好,均一致认为所建立的多元线性回归模型的回归效果显著,于是我们认可所得的多元线性回归方程可以依据9项指标来判别乳腺肿瘤是良性还是恶性。最后我们再将表一中61-78组数据回代入上述多元线性回归方程,经由计算分析得出所得的回归方程判别乳腺肿瘤是良性还是恶性的正确率高达100%,预测能力显著,明显可以看出所得到回归方程判别乳腺肿瘤是良性还是恶性方法是合理正确的。至此我们得到了依据9项指标综合判别乳腺肿瘤是良性还是恶性的方法:将待判别病例的9项指标的数据代入回归方程,计算出的估计值,并对其值作四舍五入取整,,肿瘤是良性; ,肿瘤是恶性。
对于问题二,将附录表二中20组需要判别的病例的数据代入模型一中所得回归方程中计算出的估计值,依据问题一的判别方法判别得出20个病例中第1,4,5,7,10,11,15,19组共8个病例是恶性肿瘤,余下12个病例是良性肿瘤。
对于问题三,回归参数表中回归系数的统计量的线性系数显著性值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度,我们通过对模型一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变量,得到最优化的线性回归模型,那些保留下来的自变量,即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。作逐步回归分析后,最终所得结果为:乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核、正常的核仁、有丝分裂是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,得到最优化的回归模型为:
关键词:多元线性回归模型 逐步回归 显著性水平检验
21
1. 问题重述
全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。
下面是某医院乳腺肿瘤患者的一组数据见附录一表一,其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。
问题一、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性” 还是 “恶性”的方法,并检验你提出的方法的正确性。
问题二、现有一组乳腺肿瘤患者的九个指标数据见附录一表二,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”。
问题三、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。
2. 模型的假设与符号说明
2.1模型的假设
假设1:题目所给数据是合理、正确的。
假设2:假设表中给出化验数据科学可信。确诊病例确诊情况(患病、健康)准确无误。
假设3:假设各位被测患者无其他疾病,不会干扰被测数值。
假设4:假设医生不会仅仅依靠化验结果对患病情况作出最终判断,化验仅仅作为医生诊断的一种辅助手段,所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。
假设5:题目中给出的原始数据有两组无效,将其舍去认为对解题无影响。
2.2符号说明
乳腺肿瘤肿块的厚度指标;
细胞大小的均匀性指标;
细胞形状的均匀性指标;
边缘的粘连指标;
单层上皮细胞的大小指标;
裸核指标;
温和的染色质指标;
正常的核仁指标;
有丝分裂指标;
诊断结果;
诊断结果估计值;
回归常数;
回归系数;
回归常数估计值;
回归系数估计值;
随机误差项;
显著性水平;
总变差平方和;
残差平方和;
回归平方和;
被分析数据的组数;
第个指标作显著性水平检验;
偏回归平方和;
3. 问题分析
此题研究的是医学上常用几个指标来综合判别乳腺肿瘤是良性还是恶性的数学模型。
针对问题一,题目要求我们提出判别方法,依据9项指标的数据,判别肿瘤病例是良性还是恶性。我们根据所提供的已确诊的病例中分析得知,肿瘤病例是良性还是恶性与各项指标呈相应的线性关系,我们初步提出否能通过病例样本中肿瘤病例是良性或恶性与各项指标来建立回归模型,再验证模型正确性后由模型来判别病例。因此,我们先选取其中一部分数据进行研究,待建立模型后,将剩余的数据代入模型检验。
针对问题二,题目要求我们利用问题一中提出的方法,对表二中的20个待判别的病例进行判别。我们分别将各元素的含量输入到在问题一建立的模型中,求出对应的值,然后和0、1进行比较,判别出哪些患者的肿瘤是良性,哪些患者的肿瘤是恶性。
针对问题三,题目要求我们根据已知数据确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,并采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。我们通过对模型一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变量,得到最优化模型,那些保留下来的自变量,即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。
4. 数据分析
在初步的数据分析下,肿瘤的良恶性与各指标间的关系还无法得到确定,这无疑给以后数学模型的建立和求解带来了不便。对于题目给出的化验结果,在一般情况下,都希望能对它们进行数据的规范化处理。
以下9张图是肿瘤良性患者和肿瘤恶性患者各个指标的坐标图,以及存有相关数据的表格,通过这些图我们可以发现,各个指标对应数与乳腺肿瘤是良性还是恶性诊断具有一定的线性对应关系,我们设想,可以用构建线性回归模型的方法来解决此问题。因此我们选择多元统计分析中利用 excel中的回归工具建立回归模型,计算出该线性方程的常量和系数,从而完成模型的初步建立。
同时,我们也看到,在图中的一些点的规律性并不明显,因此我们猜测,可以在构建的方程中忽略一些因素的影响,这就为我们提出简化模型提供了思路。回归参数表中回归系数的统计量的值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度,以此为衡量的标准来筛选9项相关指标,保留其中的主因项,去除非主因素的干扰,重新构建模型,以达到简化模型和提高精度的目的。
5. 问题一的解答
针对问题一我们建立了模型一。
5.1模型一的建立
考虑多元一次线性回归模型,我们从总体中选取1-60号病例作为研究样本,以各项指标为自变量;肿瘤的良恶性为因变量。设多元线性回归模型的一般形式为:
(1)
其中:因变量,为9个对有显著影响的自变量,是10个待估参数,是随机误差项。
5.2模型一的求解
对于组实际观察数据,由(1)式得:
(2)
根据(2)式多元线性回归模型可表示为:
(3)
令
模型的相应矩阵方程表示为:
(4)
由(4)式解得:
(5)
且
(6)
其中:当时,表示肿瘤为良性;当时,表示肿瘤为恶性。
我们将样本数据代入(5)式,利用MATLAB(求解源程序见附录)软件,用matlab对数据进行初步运算,从残差及其置信区间图找出应6组离群点予以剔除,再用Excel中‘回归’命令对剩下的54组数据组进行分析,得到回归统计表,从而得出较为精确的结论,建立起模型。
残差及其置信区间图
回归统计
Multiple R
0.952533
R Square
0.90732
Adjusted R Square
0.888363
标准误差
0.168514
观测值
54
方差分析
df
SS
MS
F
Significance F
回归分析
9
12.23202
1.359113
47.86135
8.17E-20
残差
44
1.249463
0.028397
总计
53
13.48148
Coefficients
标准误差
t Stat
P-value
Lower 95%
Upper 95%
下限 95.0%
上限 95.0%
Intercept
-0.32858
0.057305
-5.73377
8.3E-07
-0.44407
-0.21308
-0.44407
-0.21308
X Variable 1
0.060725
0.011789
5.151136
5.84E-06
0.036966
0.084483
0.036966
0.084483
X Variable 2
-0.08212
0.027772
-2.95689
0.004982
-0.13809
-0.02615
-0.13809
-0.02615
X Variable 3
0.10584
0.028061
3.771817
0.00048
0.049287
0.162392
0.049287
0.162392
X Variable 4
0.015509
0.012992
1.193681
0.238999
-0.01068
0.041693
-0.01068
0.041693
X Variable 5
0.010307
0.017921
0.575154
0.568117
-0.02581
0.046424
-0.02581
0.046424
X Variable 6
0.042092
0.009007
4.673476
2.81E-05
0.02394
0.060244
0.02394
0.060244
X Variable 7
0.001685
0.019818
0.085004
0.932644
-0.03826
0.041626
-0.03826
0.041626
X Variable 8
0.031964
0.011292
2.830663
0.006976
0.009206
0.054721
0.009206
0.054721
X Variable 9
0.034681
0.020673
1.677629
0.10051
-0.00698
0.076345
-0.00698
0.076345
求得各参数的线性回归系数分别为:
则多元线性回归方程为:
(7)
5.3模型一的检验
5.3.1对回归方程进行显著性的检验
R检验法
(8)
则
(9)
R接近于1,说明线性回归拟合效果显著;
检验法
提出假设:
线性关系不显著
线性关系显著
计算检验统计量:
, (11)
代入数据得:
查分布表表知
因为非常接近1,同时远大于,故拒绝,认为在显著性水平