温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
GDBT
means
玻璃
文物
划分
研究
2023 年第 7 期149计算机应用信息技术与信息化基于改进 GDBT 与 K-means 聚类的玻璃文物亚类划分研究康 斓1KANG Lan 摘要 为基于元素成分比例关系研究玻璃文物的亚类划分规律,构建了一个基于迭代与正则化改进的梯度提升决策树与 K-means 聚类的玻璃文物亚类划分模型;基于改进的 GDBT 按化学成分进行初步分类,再通过聚类出中心坐标,实现亚类划分,并选取显著性指标分析结果的合理性与敏感性。结果表明:该模型预测准确率达 95.7%,较基于传统决策树与聚类的模型下(85.6%)提升较大。同时,基于高钾玻璃中存在显著性差异的二氧化硅、氧化铁、氧化锶、氧化镁、氧化钙、氧化铝、氧化钾 7 种化学成分将其分为两个亚类;基于铅钡玻璃中存在显著性差异的二氧化硅、氧化铅、氧化锶、五氧化二磷、氧化钙、氧化铝、氧化钠 7 种化学成分将其分为三个亚类。因此,基于改进的梯度提升决策树与 K-means 聚类的玻璃文物亚类划分模型,可选得适当化学成分,实现对具备复杂成分玻璃文物的亚类划分。关键词 玻璃文物;梯度提升决策树;亚类划分;K-means 聚类;敏感性分析doi:10.3969/j.issn.1672-9528.2023.07.0381.海军大连舰艇学院 辽宁大连 1160000 引言随着我国经济水平的迅速提升与科学技术的不断进展,文物挖掘与鉴定等考古领域工作因其与历史的关联性,文物价值的独特性,得到了广泛关注且发展迅速。其中,古代玻璃文物作为数量最少,历史最为源远的品类之一,具备着极高的收藏价值与艺术价值。因此,根据其内部化学成分组成与关系,通过科学的分析与建模的方法,开展对玻璃文物分类规律的研究对进一步梳理古代玻璃器体系,深入对其工艺与构造的考古研究以及开展有针对性的玻璃文物保护工作等有着重要意义1。中国玻璃器皿的工艺自先秦时期至清代不断发展进步,且历代工艺各有特点。玻璃文物,作为现代挖掘发现的自古代存留至今的珍贵文物,数量稀少,价值珍惜。既是我国玻璃工艺发展技术与特点的记录,也是古代中西方文化早期贸易交流的鉴证。玻璃制品最早自古代西亚与埃及地区传入我国,并而随着时代的变迁与本土技术工艺的运用,我国陆续发明流行了诸多品类的玻璃器皿;再加之玻璃文物在悠久的埋藏期间,极易受环境的影响产生风化等变化。在风化过程中,其成分比例构造因内部元素与环境元素进行大量交换而发生变化。因此,基于玻璃文物的化学组成为主,结合外形特征等深入研究其亚类划分规律,对玻璃文物的考古研究与文物保护意义重大。薛吕2分析了玻璃文物损毁与衰变物理因素及化学成分上的关联,对不同环境下玻璃文物发生衰变的情况及解决办方法进行了论述;对玻璃文物分类问题,曹彩霞,郭宏3利用模糊数学构建权重,创立了较科学的分类方法及模型,对玻璃等石质文物的病害类型划分进行了研究,对玻璃文物保护意义重大,但仍存在分类指标权重矢量主观性高,易出现超模糊现象等问题。近年来,机器学习领域的相关技术发展迅速,被广泛应用与各个学科领域,发挥出重要作用。其中,梯度提升决策树算法能够较好地展现出样本的分类过程与其分类过程中各元素属性的重要程度,且对离散型与连续型数据均能较好处理;K-means 聚类算法则能够充分克服样本数据中聚类的不确定性,且可以通过迭代优化完成类别划分功能。因此,考虑到化学成分及其演变在玻璃文物考古研究中的重要价值;本文选择以玻璃文物中的化学成分作为基础,通过基于改进的梯度提升决策树与 K-means 聚类算法实现玻璃文物的亚类划分,为玻璃文物的保护与研究工作提供了更多支撑。考虑到现存玻璃文物主要可由其起源分布区分为高钾和铅钡两类,其中,铅钡玻璃作为我国本土的玻璃品种,因其烧制时中加入了作为助熔剂的铅矿石而得名;高钾玻璃以含钾量高的物质作为助熔剂烧制而成,流行于东南亚和印度以及我国岭南等地区4。本文的模型先对 GDBT 进行了基于迭代与正则化的改进,使其基于化学成分对玻璃文物实现高钾与铅钡两类的初步分类;再通过 K-means 聚类找出各簇中心坐标,完成亚类划分。通过对本模型的分类结果的合理性与敏感性检验,本文的方法在玻璃文物的亚类划分上取得了较好地成果,同时也说明了本文工作对玻璃文物考古研究与文物保护的价值意义。1 方法为基于玻璃文物的化学元素成分与比例关系实现亚类划2023 年第 7 期150计算机应用信息技术与信息化分研究,本文首先通过相关性分析选取玻璃文物中的有效化学成分,再在基于迭代与正则化5对传统梯度提升决策树进行优化与改进后,分析高钾玻璃与铅钡玻璃的分类规律;最后据两者不同的化学成分进行亚类划分,实现样本玻璃文物数据的模型构建,如图 1 所示。图 1 亚类划分模型的构建流程1.1 有效化学成分选择为筛选出化合物中与进行高钾,铅钡二分类问题有效的相关变量以确定评估指标,采用相关分析解算各化学成分与文物类型的相关系数与显著性,结果如表 1。表 1 显著性分析结果 SO2Na2OK2OCaOMgOAl2O3Fe2O3类型0.6700.1170.5830.1930.0950.2410.289CuOPbOBaOP2O5SrOSnO2SO2类型 0.227 下0.7700.7140.1570.5880.0630.065因此,选取与文物类型具备显著性即强相关性的化学成分作为构建模型的有效变量,再用信息熵解算进行验证得其同为特征重要性较强成分。故存在二氧化硅 SiO2,氧化钾 KCl,氧化铝 Al2O3,氧化铁 Fe2O3,氧化铜 CuO,氧化铅 BaO,氧化钡 BaO,氧化锶 SrO 共 8 个化学成分作为指标。1.2 改进的梯度提升决策树分类决策树算法作为典型的对离散函数值进行逼近的分类方法,其基本思想是对数据进行处理,基于信息熵选取属性进行分类,利用归纳算法生成可读的规则来完善整个决策树,再使用决策对新数据进行分析6。但由于传统的决策树算法存在过拟合等缺陷,基于集成学习使用梯度代替残差,以决策树为弱分类器采用串行方式进行迭代的梯度提升决策树算法应运而生并,被广泛应用于分类和预测问题。该算法具备较好的解释性和鲁棒性,可并且以灵活处理异构特征。为了进一步提升梯度提升决策树算法的预测准确率以及对于本文所研究问题的适应性,本文在基于 CART 回归树为基学习器的梯度提升决策树算法模型基础上进行改进,通过添加正则项函数来解决算法的过拟合问题,提升模型泛化性,从而建立对高钾玻璃和铅钡玻璃的分类评估模型。假设对于未知类型的玻璃制品 j,假设其分类后类别为高钾玻璃概率,记为 Pj,则类别为铅钡概率为(1-Pj),基于前文考虑选取的各项分类评估指标,各玻璃制品类别为高钾玻璃概率可以表示为:12345678(,)jRx x x x x x x x=(1)其中 Xi(i=1,28)分别表示二氧化硅 SiO2、氧化钾Kcl、氧化铝 Al2O3、氧化铁 Fe2O3、氧化铜 CuO、氧化铅PbO、氧化钡 BaO、氧化锶 SrO。其优化函数可以表示为:112345678(1)(,)(,)()()nijtiititRx x x x x x x xl y yf xfc=+(2)l 为损失函数,(ft)为正则项,c 为常项。(1)构建单颗 CART 决策树设 f(xi)为一颗 CART 决策树的函数,其叶子节点个数为T。基于信息增益法进行特征选择。对于决策树,设当前节点记为 C,分裂后右侧叶子节点记为 R,左侧叶子节点记为 L,则分裂的收益 G 定义为当前节点的目标函数值减去左右两叶子节点的目标函数值之和:CLRGfff=+(3)在决策树生成中,选择收益最大的特征作为树枝。(2)基于加法模型,构建集成学习决策树在建立单棵 CART 决策树模型后,基于机器7学习中集成学习框架的思想,构建结合多个学习器完成任务。而在该问题中即为将多个决策树作为弱分类器进行集成,本文采用加法模型,从而得到一个强分类器。此时目标函数即为 K 棵树组成的加法模型:1(),KkikkyfxfF=(4)其中 fx为第 k 棵决策树。接下来使用多个决策树作为弱学习器采用 Boosting 串行方式训练并对模型进行优化。由于学习的模型为加法模型,得到目标函数并进行二阶展开得:(1)21()nttjiitiiRyyf x=+=(1)2212()()()tititiniyyf xf x=+(5)其中,12tiyy即为残差,集成决策树通过不断拟合前序模型中残差不断对模型拟合并完成优化。(3)基于正则优化,改进梯度下降决策树模型为了避免决策树出现过拟合问题导致所得到模型的泛化性不足,本文在原有的决策树模型中加入正则项进行正则优化,来提高模型的泛化性与分类识别评估能力。决策树的复杂度由正则项表示为:121()2tTjfTwj=+(6)则在第 t 步时,其目标函数可以写为:11(1)1()()(,)()(),ntiittjiiintiititiRl y yfl y yf xfc=+=+(7)对于单棵决策树,定义集合:2023 年第 7 期151计算机应用信息技术与信息化|q()jiIixj=(8)该集合即为所有被划分到叶子节点的训练样本的集合。则式(7)可以根据树的叶子节点重新组织为 T 个独立的二次函数的和:221111()()22nTtjiqiiqijijRg w xhwxTw=+=211()()2jjTjijji Ii IjwTghW=+(9)定义,jjjijii Ii IGg Hh=,则式(9)可表示为:211()2TtjijijjRG wHwT=+(10)对式(10)求一阶导,令其一阶导等于 0;则此时目标函数的值为:21 12TjtjjjGRTH=+(11)由此得到每次决策树进行分裂时的收益为:222()12LRLRLRLRGGGGGHHHH+=+(12)在每次迭代时,通过式(11)计算损失函数的收益,基于梯度下降法,利用损失函数的负梯度在当前模型的值作为提升树模型残差的近似值;基于收益最大原则生成新的决策树,再通过式(12)计算各个叶结点的预测值,将新生成决策树ft(x)添加到模型中,即有:1()ttiitiyyf x=+(13)基于上述流程不断对模型进行迭代,提升其分类预测识别能力。每轮迭代产生一个弱分类器,而每个弱分类器在上一轮分类器残差的基础之上,用 7:3 的比例划分测试集和训练集进行训练,迭代至梯度提升决策树算法模型对高钾玻璃和铅钡玻璃的分类评估能力达到目标精度为止,该模型的迭代流程图如图 2。图 2 改进 GDBT 模型的迭代流程1.3 K-means 聚类亚类划分K-means 聚类算法是一种基于非监督学习进行迭代求解的聚类分析算法8。其在数据集不具备样本标签的情况下,分析数据间内在关系把样本划分为若干类别。在基于梯度提升决策树模型实现对于高钾玻璃和铅钡玻璃分类的基础上,本文采取 K-means 算法构建聚类模型对高钾玻璃和铅钡玻璃进行亚类的分化,得到各自基于 K-means 聚类9算法的亚类划分模型。玻璃的最主要化学成分是二氧化硅,其主要化学成分比例情况受到玻璃炼制时添加的助熔剂的影响而不同。由于化合物分类主要与其化学成分组成及含量有关,其亚类划分应综合考虑各化学成分。据上文分析知高钾,铅钡与各化学成分具备不同相关性和显著性。对数据集的亚类划分,适用非监督模型建模求解。本文将改进 GDBT 结果进行 K-means 聚类。通过计算每个文物到各个聚类中心的欧式距离10,在比较各文物到每一个聚类中心的距离后,将其分配到距离最近的聚类中心的类簇中。类簇中心就是类簇内所有对象在各个维度的均值;经过不断训练迭代,可得到对于高钾类与铅钡类文物的最合适k 值,即亚分类个数。2 模型结果与分析2.1 改进 GDBT 模型分类结果当梯度提升决策树算法模型进行迭代最终达到目标精度为止,所得模型即为对高钾玻璃,铅钡玻璃的分类规律进行分析后所构建的对高钾玻璃和铅钡玻璃的分类评估模型,将模型中数据集按照 7:3 的比例分为训练集与验证集,用Python 程序运行得到模型,用测试数据部分预测评估结果如表 2 与图 3 所示。表 2 GDBT 模型参数参数名训练用时数据切分 数据洗牌交叉验证损失函数参数值0.067s0.7是否deviance参数名分裂准则基学习器学习率采用比例最大深度参数值friedman1001110图 3 测试数据预测图2.2 K-means 聚类亚类划分结果经过 K-means 聚类,计算每一个文物到每个聚类中心的欧式距离后,将其分配到距离最近聚类中心的类簇,完成高钾与铅钡类玻璃文物的亚类划分如图 4 与图 5。2023 年第 7 期152计算机应用信息技术与信息化2.3 合理性与敏感性检验通过对于两类别进行亚类划分的有效成分的显著性与其成分情况综合分析,判断模型与结果合理性。在聚类分析划分高钾类别时存在显著性差异的变量为二氧化硅,氧化铁,氧化锶,氧化镁,氧化钙,氧化铝,氧化钾这 7 个化学成分;在聚类分析划分铅钡类别时显著性差异的变量为二氧化硅,氧化铅,氧化锶,五氧化二磷,氧化钙,氧化铝,氧化钠 7 个化学成分。通过样本的高钾与铅钡类玻璃文物中各化学成分比例含量情况,结合聚类分析结果可以得出,其推断时使用的有效指标与在高钾与铅钡玻璃两类化合物中含量较大的化学成分存在确定性关系,因此其他非显著性指标的影响可以进行一定忽略,故所得的高钾类与铅钡类玻璃文物的亚类划分模型具备较高合理性。将灵敏度分析与 K-means 聚类分析结果相结合,得到高钾类别文物对于二氧化硅成分灵敏度较高,对于氧化钡 PbO成分灵敏度极低;结合铅钡类文物敏感度情况,可验证得该模型分类划分效果可靠有效。3 结束语本文研究了玻璃文物基于化学成分的分类与亚类划分问题,提出了基于改进 GDBT 和 K-means 聚类的玻璃文物亚类划分模型。本文的方法首先相关分析筛选出与文物类型具备显著性的化学成分;其次通过使用基于迭代与正则化改进的梯度提升决策树,提取玻璃文物特征,完成对玻璃文物高钾与铅钡两类的大类分类;再通过 K-means 聚类,基于欧氏距离获得簇类中心,成功将高钾玻璃文物划分为两个亚类,将铅钡玻璃文物划分为三个亚类。同时,本文结果模型检验与合理性好敏感性分析,验证得本文研究分类模型较为可靠,效果良好。但由于玻璃文物在长期留存下,仍会受到表面风化等环境影响产生化学成分变化,对分类模型结果造成影响。同时,该模型依托监督学习框架,可解释性不强;且其分类工作更多仅作为文物考古与玻璃文物保护中的辅助性工作,重心仍旧是相关研究方法与保护手段的发展应用。因此,如何改进分类模型的泛化性能,并且与应用技术开展深度结合,将是未来的主要研究方向。参考文献:1 LAVINIA DE FERRI.A non-destructive approach for the characterization of glass artifacts:The case of glass beads from the Iron Age Picene necropolises of Novilara and Crocefisso-Matelica J.Journal of archaeological science:reports,2020,29(C):102124-102134.2 薛吕.玻璃文物保护与修复 C/中国文物保护技术协会第七次学术年会论文集.北京:科学出版社,2012:89-92.3 曹彩霞,郭宏.用模糊数学知识对馆藏石质、陶瓷器、玻璃文物病害类型进行分类 J.北京联合大学学报(自然科学版),2009,23(04):58-60.4 欧阳自强,郝鹏,刘沐阳.玻璃二氧化硅析晶研究与对策J.玻璃,2022,49(08):39-44.5 吕国豪,罗四维,黄雅平,等.基于卷积神经网络的正则化方法 J.计算机研究与发展,2014,51(09):1891-1900.6 韩启迪,张小桐,申维.基于梯度提升决策树(GBDT)算 法 的 岩 性 识 别 技 术 J.矿 物 岩 石 地 球 化 学 通报,2018,37(06):1173-1180.7 雷国平,肖科,罗秀英,等.基于机器学习的基础算法研究综述 J.卫星电视与宽带多媒体,2020(08):18-19.8 陈晓晓.基于聚类分析的我国商业银行盈利能力研究J.现代经济信息,2012(7):208+214.9 黄 磊,陈 浩,衣 乔 木,等.基 于 k-means 聚 类 和 BP神 经 网 络 组 合 模 型 的 用 电 负 荷 预 测 J.电 力 与 能源,2016,37(01):56-60.10 ARMAN HOSEIN et al.Revisiting the interval and fuzzy TOPSIS methods:Is euclidean distance a suitable tool to measure the differences between fuzzy numbers?J.Complexity,2022,2022:1-11.【作者简介】康斓(2001),男,湖南常德人,海军大连舰艇学院航海专业,研究方向:航海技术与深度学习。(收稿日期:2023-02-24 修回日期:2023-05-15)图 4 高钾类玻璃聚类饼状图图 5 铅钡类玻璃聚类饼状图