温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
葡萄酒
理化
指标
判别分析
红酒
品质
马东娟
现代食品现代食品XIANDAISHIPIN181181/分析检测分析检测 Analysis and Testingdoi:10.16736/41-1434/ts.2022.24.048基于葡萄酒的理化指标判别分析红酒品质Classification of Red Wine Quality Based on Physical and Chemical Indicators of Wine Using Discriminant Analysis Method 马东娟(宁夏工商职业技术学院人文教育学院,宁夏 银川 750021)MA Dongjuan(Basic Department,Ningxia Vocational Technical College of Industry And Commerce,Yinchuan 750021,China)摘 要:本文对红酒品质数据集进行数据预处理,利用影响红酒品质的 11 个指标,将红酒的品质分成 3 9共7个类别,采用多元统计分析中的判别分析,建立了基于判别函数的统计分析模型,以更好地进行红酒品质分类。关键词:理化指标;判别函数;判别分析Abstract:In this paper,the red wine quality data set was preprocessed,and the quality of red wine was divided into 7 categories from 3 to 9 by using 11 indicators affecting the quality of red wine.Using discriminant analysis in multivariate statistical analysis,a statistical analysis model based on discriminant function is established to classify red wine quality.Keywords:physical and chemical indicators;discriminant function;discriminant analysis中图分类号:F426宁夏贺兰山东麓干燥少雨、光照充足、热量适中、昼夜温差大,具有得天独厚的自然条件,是我国酿酒葡萄的最佳产区之一,被誉为中国的“波尔多”。随着宁夏葡萄酒产业的发展,酿酒产区成型,红葡萄酒产业面临的生产工艺问题亟待解决。红酒的口感促使红酒酿造工艺改进,而红酒工艺的改进又可提升红酒的口感,二者相辅相成,其中,红酒酿造工艺与口感之间的联系纽带是品酒师。由于宁夏地区品酒师少,尤其是红酒的品酒师稀缺,制约了红酒产业的发展。因此,运用数学模型和计算机软件对红酒的品质进行鉴定、分类,显得尤为重要。多元统计分析中的判别分析在识别单个个体所属类别的情况中有着广泛的应用,基于判别分析和葡萄酒的理化指标,可用 SPSS 软件对葡萄酒品质进行分类,既对葡萄酒的质量进行预测研究,又使葡萄酒品质鉴定的速度得到大幅提升,同时有较高的准确率1-2。1 模型建立回归模型的基础在于用它去预测和解释度量,但对于非度量变量,一般的多元回归不适用于解决此类问题,判别分析适用于被解释变量是非度量变量的情形。本文将红酒品质作为非度量变量,记为 3 9,共 7 个级别。利用判别分析,人们将可预测和解释影响红酒品质所属类别3-5。1.1 数据预处理考虑到数据集中 3 894 个样本及数据的量纲不统一,本文首先采用 Z 标准化方法,对原始数据进行了缺失化处理、标准化处理,即每一变量值与其平均值之差除以该变量的标准差。1.2 符号说明Qual:被解释变量红酒品质;红酒品质影响的 11个解释变量分别为 Fixe:非挥发性酸含量;Vola:挥基金项目:2022 宁夏高等学校科学研究项目“基于系统聚类的葡萄酒品鉴感官分析研究”。作者简介:马东娟(1985),女,硕士,讲师,研究方向为数学教学论与应用数学。现代食品现代食品XIANDAISHIPIN182182/分析检测分析检测Analysis and Testing发性酸含量;Ppci:柠檬酸;Resi:糖含量;Chlo:氯化物;Free:游离二氧化硫;Tota:总二氧化硫;Dens:密度;Ph:酸碱度;Sulp:表示硫酸盐;Alco:酒精。1.3 基本思想设有两个总体 G1和 G2,x 是一个 p 维样品,若定义样品到总体 G1和 G2的距离 d(x,G1)和 d(x,G2),而d2(x,Gi)=(x-i)i-1(x-i),i,i。对此,可用如下规则进行判别:若样品 x 到总体 G2的距离小于到总体 G2的距离,则 x 属于总体 G1,否则,x 属于总体 G2;若x 到总体 G1和 G2的距离相等,则待判。这个准则的数学模型可作如下描述。11221212,(,)(,),(,)(,),(,)(,)xG d x Gd x GxG d x Gd x Gd x Gd x G =待判1,()0,()0 xG W xW x =待判其中,W(x)为判别函数。2 算法模型求解数据集将 3 894 个样本的品质指标进行分类,将11 个指标作为自变量处理,将红酒品质作为非度量变量,红酒的品质分为 0 10 共 11 个等级,由于数据表现和实际问题 0、1、2 和 10 少见,故在下面问题的研究中将红酒的品质分为 3 9 个等级,记为 3 9共 7 个级别。基于此,本文将红酒品质作为分组变量处理,借助 SPSS 的分析-分类-判别模块对模型进行建立。数据模拟见表 1 组均值的均等性的检验。表 1 组均值均等性的检验表变量Wilks 的 LambdaFdf1df2Sig.Fixe0.97913.58363 8870.000Vola0.92751.08463 8870.000Ppci0.9962.44963 8870.023Resi0.97318.23363 8870.000Chlo0.95232.93863 8870.000Free0.98112.83363 8870.000Tota0.95232.54463 8870.000Dens0.87592.16363 8870.000Ph0.98410.58163 8870.000Sulp0.9953.15863 8870.004Alco0.760204.58863 8870.000输出结果表 1 分析的是各组描述统计量和对各组均值是否相等的检验。由表 1 可看出,在 0.05 的显著性水平上,拒绝 11 个变量在 7 组的均值相等的假设,即认为 11 个变量在 7 组的均值是有显著差异的。输出结果(表 2、表 3)是对各组协方差矩阵是否相等的 Box M 检验。其中,表 2 对数行列式反映了协方差矩阵的秩和行列式的对数值。表 2 对数行列式表Qual秩对数行列式39-8.01349-11.42259-13.77569-12.66279-15.29289-15.22099-11.328汇聚的组内9-12.883由行列式的值可看出,协方差矩阵不是病态矩阵;表 3 则是对各总体协方差阵是否相等的统计检验。由F 值及显著性水平可知,在 0.05 的显著性水平下拒绝原假设(原假设为各总体协方差阵相等)。表 3检验结果表箱的 M2 528.728F近似10.650df1225df231 054.169Sig.0.000根据表 4 分类函数系数,可得出分类函数为1121jijiiyk x+=+常量,其中 j=1,2,3,4,5,6,7,kij为系数。输出结果表 5 是分类矩阵表,分别预测了所属组关系,通过判别函数预测红酒品质,并对初始分组案例中的 72.7%进行了正确分类;对交叉验证分组案例中的 72.1%进行了正确分类。因此,分类函数模拟出各个红酒品质 3 9 共 7 个分类的判定。现代食品现代食品XIANDAISHIPIN183183/分析检测分析检测 Analysis and Testing表 4分类函数系数表变量Qual3456789Fixe-2 191.277-2 192.616-2 192.801-2 192.682-2 192.503-2 192.583-2 189.997Vola-1 751.188-1 746.528-1 754.914-1 760.554-1 760.965-1 759.203-1 754.628Ppci-815.649-814.451-813.5-813.895-814.273-813.726-809.942Resi-1 080.674-1 081.008-1 080.721-1 080.637-1 080.457-1 080.367-1 079.908Chlo-14 567.181-14 588.376-14 587.231-14 586.246-14 588.017-14 584.011-14 593.455Free20.64220.58920.60620.61420.6220.63820.64Tota-11.401-11.41-11.399-11.4-11.402-11.404-11.405Dens2 875 708.5732 876 398.6802 875 849.5712 875 755.9502 875 358.2312 875 213.8432 873 964.378Ph-9 913.155-9 917.394-9 917.130-9 915.898-9 913.990-9 913.344-9 900.697Sulp-4 370.556-4 369.484-4 369.431-4 368.151-4 366.035-4 366.159-4 367.673Alco3 144.9603 144.8083 144.4173 145.1133 145.4963 145.8153 144.632(常量)-1 416 867.122-1 417 525.089-1 416 975.635-1 416 894.008-1 416 512.168-1 416 375.735-1 415 185.670表 5分类结果表B,CQual预测组成员合计3456789初始计数374120141941477211663013751492434872125532101 1886197126360459250210731 67574286713016424266719880914247624155900000055%336.821.15.310.505.321.1100.0410.256.215.311.74.42.20100.0512.520.541.017.84.62.70.8100.0611.87.521.527.414.912.54.4100.075.81.19.318.122.833.79.2100.085.205.89.015.549.015.5100.09000000100.0100.0交叉验证A计数336130151941568271773013751512434852125532101 1886197126360457251210741 67574286713216224266719880914257524155910000225%315.831.65.315.805.326.3100.0410.949.619.712.45.12.20100.0512.720.540.817.84.62.70.8100.0611.87.521.527.315.012.54.4100.075.81.19.318.422.533.79.2100.085.205.89.016.148.415.5100.0920.0000040.040.0100.0注:1.仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。2.已对初始分组案例中的 72.7%个进行了正确分类。3.