第34卷第4期光散射学报Vol.34No.42022年12月THEJOURNALOFLIGHTSCATTERINGDec.2022收稿日期:(2022-10-19),修改日期:(2022-11-30)基金项目:国家自然科学基金(62105147、61378087),中央高校基本科研基金(NS2022035),南京航空航天大学前瞻布局专项基金(1003-ILA-22022)作者简介:尚慧(1998-),女,硕士,主要研究领域为生物医学光谱学及智能诊断,E-mail:sh1023_edu@163.com通讯作者:尹建华,E-mail:yin@nuaa.edu.cn;王慧捷,E-mail:wanghuijie@nuaa.edu.cn文章编号:1004-5929(2022)04-0322-06基于近红外光谱技术和机器学习的乳腺癌原位诊断研究尚慧,吴进锦,许志兵,王慧捷*,尹建华*(南京航空航天大学生物医学工程系,南京210016)摘要:近红外(NIR)光谱,可提供样本丰富的结构和成分信息。机器学习主要用于数据的分析和挖掘,可以对数据进行精确分类和信息提取。本研究采用自研的NIR光谱探针技术进行乳腺癌组织的原位光谱采集并进行癌变(光谱)分析;运用基线校正(BC)、标准正态变量变换(SNV)、一阶导数二阶多项式21点Savitzky-Golay平滑(1st-2-21SG)和二阶导数三次多项式25点Savitzky-Golay平滑(2nd-3-25SG))四种方法进行光谱预处理;结合机器学习方法,包括主成分分析(PCA)、K最近邻(KNN)、Fisher判别分析(FDA)及支持向量回归(SVR),进行乳腺癌变和癌旁组织的分类和判别。研究发现PCA-KNN模型的最优预测结果为基于BC+SNV,其准确率、敏感性及特异性达88.34%、98.21%、76.11%。PCA-FDA模型的最优结果为基于BC+1st-2-21SG,其准确率、敏感性及特异性达90.00%、98.21%、79.54%。SVR模型的最优结果为基于BC+2nd-3-25SG,其准确率、敏感性及特异性达90.00%、100.00%、79.55%。论证了机器学习方法结合NIR光谱可以实现小样本量乳腺癌的高效精确诊断。关键词:近红外光谱;机器学习;乳腺癌;诊断中图分类号:O433文献标志码:Adoi:10.13883/j.issn1004-5929.202204009StudyoninsitudiagnosisofbreastcancerbyNIRspectroscopyandmachinelearningSHANGHui,WUJinjin,XUZhibing,WANGHuijie*,YINJianhua*(DepartmentofBiomedicalEngineering,NanjingUniversityofAeronauticsandAstronautics,Nanjing,210016)Abstract:Near-infrared(NIR)spectroscopycancharacterizetherichstructureandcomposi-tionofdeepbiologicaltissue.Machinelearningismainlyusedfordataanalysisandmining,whichcanaccuratelyclassifydataandextractinformation.Inthisstudy,aself-madeNIRspectralprobewasusedtocolle...