基于
关键
特征
中药材
产地
高效
鉴别
研究
陈培辉
SOFTWARE软 件2023第 44 卷 第 1 期2023 年Vol.44,No.1基金项目:2022 年度汕尾职业技术学院校级科研课题“基于关键特征的降维技术应用研究”(SWKT22-009);2022 年广东省普通高校青年创新人才类项目“高水平专业群背景下基于数学建模对学习力机制的研究”(2022KQNCX249);2020 年度广东省普通高校创新团队项目(2020KCXTD045);2020 年度广东省高职院校高水平专业群建设项目(GSPZYQ2020076);2022 年度广东省普通高校重点科研平台和项目“智能制造执行系统(MES)单元管控及自动化应用研发产教融合创新平台”;2021 年度广东省普通高校重点领域专项(新一代信息技术)项目(2021ZDZX1101);2021 年度广东省教育科学规划课题(高等教育专项)项目(2021GXJK515)作者简介:陈培辉(1991),硕士,助教,研究方向:机器学习、模式识别、关系分类。基于关键点位特征对中药材产地的高效鉴别研究陈培辉 彭强 吴志锐 郑东荣(汕尾职业技术学院工程学院,广东汕尾 516600)摘要:特征降维能够有效地消除无关和冗余的数据,有效提升模型效率。然而,现有的降维技术对于一些特定领域下的高维数据并不适用。本文针对中药材的产地鉴别这一特定领域问题,提出了一种基于关键点位特征的降维技术方法,结合Matlab 分类工具箱开展模式识别应用研究。通过与 PCA、NMF 等降维方法进行对比,实验结果表明,本文提出的降维方法能更好地提升中药材产地鉴别模型的效率和精度。关键词:降维;关键点位;模式识别;Matlab 分类工具箱中图分类号:TP391.4 文献标识码:A DOI:10.3969/j.issn.1003-6970.2023.01.016本文著录格式:陈培辉,彭强,吴志锐,等.基于关键点位特征对中药材产地的高效鉴别研究J.软件,2023,44(01):062-065+088Research on the Efficient Identification of the Origin of Chinese Medicinal Materials Based on the Characteristics of Key PointsCHEN Peihui,PENG Qiang,WU Zhirui,ZHENG Dongrong(School of Engineering,Shanwei Vocational and Technical College,Shanwei Guangdong 516600)【Abstract】:Feature dimensionality reduction can effectively eliminate irrelevant and redundant data and effectively improve model efficiency.However,the existing dimensionality reduction techniques are not suitable for high-dimensional data in some specific fields.Aiming at the specific field of identification of the origin of Chinese medicinal materials,this paper proposes a dimensionality reduction technology method based on the characteristics of the key points,and combines Matlab classification toolbox to carry out pattern recognition research.Compared with PCA,NMF and other dimensionality reduction methods,the experimental results shows that the dimensionality reduction method proposed in this paper can better improve the efficiency and accuracy of the origin identification model of Chinese medicinal materials.【Key words】:dimensionality reduction;key points;pattern recognition;Matlab classification toolbox基金项目论文0 引言降维技术是数据挖掘领域一大重要研究方向,有效地改善了“维数灾难”这一问题,提高了机器学习的效率1-3。然而,当前通用的降维技术方法,对于某些特定领域下的高维数据问题,降维效果并不显著,模型应用效果较差4。在中药材这一特定领域,其道地性以产地为主要目标,产地的鉴别对于药材品质鉴别尤为重要。由于不同中药材的近、中红外光谱数据存在高维度、高耦合的问题,使得光谱鉴别的误差较大,常规降维技术并不能有效改善鉴别质量5,6。本文主要针对中药材的产地鉴别问题,基于中药材的红外光谱数据,提出了一种基于关键点位特征的降维方法,结合 Matlab分类工具箱开展中药材产地的模式识别应用研究7,8。结果表明,在处理中药材产地这一特定领域的分类问题63陈培辉彭强吴志锐等:基于关键点位特征对中药材产地的高效鉴别研究上,本文提出的基于关键点位特征的降维方法效果显著,有效提升了模型的鉴别效率和精度。1 准备工作1.1 数据准备本文以 2021 年高教社杯全国大学生数学建模竞赛E 题“中药材鉴别”中的附件作为研究数据,开展中药材产地的高效鉴别应用研究5。该附件数据,主要包含中红外光谱(波段区域:552cm-13999cm-1)和近红外光谱(波段区域:4004cm-110000cm-1),该数据存在以下特点:(1)数据量大,波段长,特征多;(2)部分光谱存在耦合现象,冗余度高。若直接使用该光谱数据鉴别药材产地,需耗费较大的计算资源,会导致模型复杂度高、效率较低,不符合实际应用场景,因此需通过降维手段对数据预处理。现有的 PCA9、NMF10降维算法提取主成分,会导致中药材光谱数据中某些重要特征的缺失,在模型鉴别效率和精度上都无法达到最优。1.2 模型框架针对上述情况,本文提出了一种关键点位降维应用于中药材产地的高效鉴别方法,鉴别框架如图 1 所示。首先,对于中药材的中、近红外光谱数据进行低方差过滤,减少对模型训练有负面影响的特征;其次,选择标准差差值较大的波动区间进行特征选点,获取信息量较大的特征点位;最后,使用支持向量机进行单模型和融合模型训练,实现中药材产地的高效鉴别。2 实验设计在实验设计上,本文分为 4 个部分,首先是将波数区域选择与点位提取进行模型效率和精度对比,证明关键点位的高效性;其次是将关键点位降维方法与 PCA、NMF 等现有的降维方法进行对比,证明关键点位的有效性;接着是利用方差分析对关键点位降维进行有效性分析;最后是开展单模型和融合模型的对比实验。2.1 波数区域选择与点位提取如图 2 所示是本文基于波数区域选择及其位点提取的流程框架图,其最后结果确定了波数区域选择与位点提取方案的可行性,同时证明了少数关键特征点位的降维方案对中药材产地分类模型的建立有更好的效果。在这里,就中红外光谱曲线为例做波数区域分析及关键点位提取,分别作如下两个对比实验。分类模型建立效果所有光谱曲线少数点位部分点位所有点位第二次实验结果第一次对比实验最佳提取提取少数波数区域部分波数区域全波数区域筛选过滤图 2 光谱的波数区域选择与点位提取流程Fig.2 Wavenumber region selection and point extraction process of spectrum实验 1:全波数区域 VS 部分波数区域。中药材的红外光谱曲线的各波数区域的方差、标准差在一定程度上均能反映各波数区域的信息量,方差可表示一个波数区域中某个特征的发散程度,方差太小意味着特征值很稳定,说明不同药材在这个特征上基本无差异,即这个特征对药材的分类来说没有区分价值。因此,本文先采用过滤法将光谱曲线所有位点中方差最小的位点进行过滤,如图 3 所示可以得到 3346 个位点,接着将 3346个位点所在的标准差相对较小、质量较差的波数区域进行初步处理,得到 2579 个位点及其所在波数区域,从如图 3、图 4 所示的观察中可以看到,由 2579 个位点组成的波数区域所保留的信息量与 3346 个位点组成的波数区域所保留的信息量仅有较小的差异。使用 Matlab 分类工具箱中所有的分类模型分别对其进行训练,在并行模式下,以模型选举的方式,同时设置十折交叉验证避免模型过拟合,从第一个模型训练开始,到最后一个模型训练结束的时间作为本次训练总时长,以最高模型精确度作为本次实验的效率评价指标。拼接波数区域选择近红外光谱点位提取-近红外点位提取-中红外产地未知产地已知产地已知产地已知模型A模型C选举预测预测波数区域选择中红外光谱模型B分类模型图 1 结合关键点位降维对中药材产地的鉴别框架Fig.1 Identification framework of Chinese medicinal materials origin combined with dimensionality reduction of key points64软 件第 44 卷 第 1 期SOFTWARE结论 1:经过初次波数区域选择得到的 2579 个位点及其波数区域在模型精确度上比 3346 个位点组成的波数区域在模型精确度上高了 2.5%,说明被过滤掉的位点在一定程度上对分类模型的建立具有负反馈作用,因此本次实验能初步证明波数区域选择的可行性。实验 2:关键点位特征的提取及其应用。在第一次实验中点位的过滤对模型的准确度、模型训练效率有一定的提高,但其训练总时长不符合实际应用场景,如表 1所示。因此,对图 3 中 2579 个位点的波数区域(红色曲线)进行分析评估,从中可观察到,2579 个位点中还存在着较多标准差相对较小的波数区域,需要再次对其进行处理,首先剔除掉标准差较低的波数区域,再重新对各个波数区域的标准差值进行观测评估,剔除质量差的波数区域,结果选出了质量较好的 20 个波数区域,最后采用极值法从这 20 个波数区域中选出 20 个特征值作为中药材中红外光谱曲线的特征位点,如图 5 所示。表 1 中红外光谱波段区域与位点方案的模型性能对比Tab.1 Comparison of model performance between mid-infrared spectral band region and site scheme位点数Model accuracyTIME(s)3348(原始位点)80.0%1200334681.2%1045257983.7%10302095.1%25Std:中红外光谱数据 2579点位_20点位提取2579个点位20个点位吸光度(AU)标准差0.000.080.060.040.02波数(cm-1)4008001200 1600 2000 2400 2800 3200 36004000图 5 中红外光谱的 20 个特征点位Fig.5 20 feature points in the middle infrared spectrum结论 2:与实验 1 保持一致的实验参数设置,在实验 1 波段区域的基础上,进一步验证了关键点位提取特征的可行性和高效性,相比较于原始位点,训练总时长缩短整整 48 倍,模型计算复杂度大幅减少,模型性能得到大幅提升。2.2 点位法与其他降维方法的效率对比每种数