温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2023
模糊
技术
甘蔗
种植
信息
分类
中的
应用
成绩:___________
管理数学根底课程报告
模糊聚类技术在甘蔗种植户信息分类中的应用
专 业:管理科学与工程
学 号:3106361
姓 名:李嘉
指导教师:武刚
日 期:2010年10月25日
模糊聚类技术在甘蔗种植户信息分类中的应用
李嘉 3106361
指导教师 武刚
聚类分析广泛应用在气象预报、地质、医学、农业、林业、网络等方面,而分类的标准及各类之间的界限并不明确,因此通常采用模糊聚类分析方法来进行研究。本文主要介绍了模糊聚类分析方法的方法和原理,包括如何对数据进行标准化、如何确定相似矩阵、如何建立传递闭包和确定最正确阈值。同时,结合了具有不同种植行为特征的甘蔗种植户群组信息,在数据规格化处理的根底上,利用模糊聚类分析,采用欧氏距离方法建立模糊矩阵,利用平方法求解模糊等价矩阵, 并按照一定的聚类水平进行模糊聚类,得到不同种植行为特征的甘蔗种植户的分类。这有助于在今后研究信息推送中对林产品信息和用户信息进行分析,从而提高推送的准确率。
关键词:模糊聚类,模糊聚类分析,数据标准化,模糊等价矩阵
目录
1选题背景与意义 1
2模糊聚类分析的原理与方法 1
2.1模糊相似矩阵和模糊等价矩阵 1
2.2模糊聚类分析步骤 1
3应用实例 3
3.1实例简述 4
3.2数据标准化 4
3.3确定模糊相似矩阵 5
3.4确定模糊等价矩阵 6
3.5聚类分析 7
4结论 8
参考文献 10
9
1 选题背景与意义
在日常生活中,我们经常要对人和事物进行分类,简单的分类很容易实现,但是稍微复杂一点的分类就会产生混乱。在信息爆炸、数据堆积的当代,除了从大量信息中找到自己需要的信息外,对信息的分类也是一件重要的事情。聚类是根据一定的规那么,按照事物某些属性,合理划分未分类事物的集合,得到确定事物分类的过程。通过聚类得到事物类,同一类中的事物之间具有较高的相似度或相关度。随着计算机技术的开展,聚类分析越来越多地用于大量的未知类别数据的分类。由于现实的分类过程往往伴随着模糊性,所以用模糊数学的方法来进行聚类分析会显得更自然、更符合客观实际。
在作者所研究的信息推送领域中,聚类分析更是有着重要的作用。本文结合了用户信息分析的实例,说明在信息推送实现过程中,需要对产品信息和用户信息分别进行聚类分析,将相似的用户分为一类,以便在推送中将信息更准确的推送给用户。
2 模糊聚类分析的原理与方法
2.1 模糊相似矩阵和模糊等价矩阵
在进行模糊聚类分析中,需要用到两种十分重要的矩阵,这决定了聚类分析的结果。分别是模糊相似矩阵和模糊等价矩阵。因此在介绍模糊聚类分析之前先对与模糊聚类分析密切相关的这两种模糊矩阵进行简单定义[1]。
模糊相似矩阵:设给定U上的一个模糊矩阵R=(rij)n×n,如果它满足:①自反性:rij=1;②对称性;rij = rji,(i,j=1,2…,n),那么称R=(rij)n×n是一个模糊相似矩阵。
模糊等价矩阵:设给定U上的一个模糊关系R=(rij)n×n,如果它满足:①自反性:rij=1;②对称性:rij = rji,(i,j=1,2…,n);③传递性:R·R R,那么称R=(rij)n×n是一个模糊等价矩阵。
2.2 模糊聚类分析步骤
〔1〕选定模糊聚类分析的统计指标,就是选定数据集。
〔2〕将统计指标的数据标准化,便于比拟和分析。在标准化时主要有两种方法:平移标准差变化、平移极差变换[2]。其中平移极差变换可以把标准化的数据压缩到[0,1]闭区间。
①平移标准差变换
〔1〕
其中i=1,2,…,n; k=1,2,…,m, ;
②平移极差变换
〔2〕
其中k=1,2,…,m。
〔3〕建立模糊相似矩阵R,主要确定其相似系数rij,即:xi与xj的相似程度,从而确定模糊相似矩阵。求相似系数rij的方法很多,现仅罗列其中常用的几种[1]:
①欧式距离法
〔3〕
其中xik为第i个点,第k个因子的值,xjk为第j个点,第k个因子的值
②夹角余弦法
〔4〕
③相关系数法
〔5〕
其中,,
④算数平均最小法
〔6〕
⑤几何平均最小法
〔7〕
本文采用欧式距离法,利用公式〔3〕先求得距离矩阵D,再用公式
〔8〕
其中c为距离矩阵D的最大值。求得模糊相似矩阵R。
〔4〕假设模糊相似矩阵R为模糊等价关系,那么可进行模糊聚类分析。否那么要对R进行改造,使其成为模糊等价关系。
〔5〕建立传递闭包。由于模糊相似矩阵不满足传递性,因此采用平方法计算传递闭包,具体方法是将R自乘得R·R=R2,再自乘得R2·R2=R4,然后再得R8,R16,……如此继续下去至某一步出现 为止,那么 便是一个模糊等价矩阵t(R)。
〔6〕λ称为置信水平或阈值,当λ取不同值可以得到不同的分类结果。确定最正确阈值λ的方法有2种:①根据实际需要和经验确定阈值λ,②用F统计量确定阈值λ,其公式为
〔9〕
其中,为总体样品的中心向量,r为对应λ值的分类数,第j类的样品数为nj,第j类的样品即为,,…, ,第j类的聚类中心向量,其中为第k个特征的平均值,F值最大时所对应的λ为最正确阈值[3]。确定了最正确阈值后,求出截矩阵,就可以得出所需分类。也可以通过选取不同的λ值,得到动态聚类图。
3 应用实例
3.1 实例简述
为了提高我国糖业的国际竞争力,进一步拓展国际市场,必然要扩大甘蔗种植面积和制糖生产规模[4]。但是目前我国甘蔗种植呈分散态势,种植户的种植行为缺乏管理和引导,直接影响甘蔗的产量和质量。为此,制糖企业应加强甘蔗种植户的信息管理,以发现潜在的有价值的种植户信息。该文主要讨论利用模糊聚类技术实现甘蔗种植户分类的整个过程,以便制糖企业发现有价值的种植户、有潜力的种植户等,并为之提供有效的奖励或扶持,从而影响相关种植户的种植行为,并且最终到达扩大甘蔗种植的目的。
本文采用5个属性作为分类指标,依次为各户适种总面积(R1)、各户拥有优质土地面积(R2)、各户平均产量高于当年总平均产量的发生率(R3)、各户全面积种甘蔗发生率(R4)、各户平均年种甘蔗面积占比(R5)。样本对象数为12 人,分别为X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11、X12,数据集如表1。
表1 甘蔗种植户数据
样本
R1
R2
R3
R4
R5
X1
20
10
0.33
0.50
0.80
X2
31
15
0.50
0.33
0.80
X3
16
16
0.83
0.00
0.90
X4
8
0
0.00
0.00
0.30
X5
3
3
1.00
0.50
0.70
X6
18
18
0.67
0.33
0.60
X7
8
4
0.33
0.17
0.40
X8
11
11
0.83
0.67
0.70
X9
7
3
0.67
0.33
0.60
X10
4
4
1.00
0.50
0.80
X11
5
0
0.17
0.17
0.30
X12
13
13
0.67
0.67
0.90
3.2 数据标准化
首先计算每个衡量指标下,所有数据的最大值和最小值,为了把数据压缩到[0,1]闭区间,使用公式〔2〕对原始数据进行标准化。可以得到将原始数据标准化后的数据如表2。
表2 标准化后的数据
样本
R1
R2
R3
R4
R5
X1
0.61
0.56
0.33
0.75
0.83
X2
1.00
0.83
0.50
0.49
0.83
X3
0.46
0.89
0.83
0.00
1.00
X4
0.18
0.00
0.00
0.00
0.00
X5
0.00
0.17
1.00
0.75
0.67
X6
0.54
1.00
0.67
0.49
0.50
X7
0.18
0.22
0.33
0.25
0.17
X8
0.29
0.61
0.83
1.00
0.67
X9
0.14
0.17
0.67
0.49
0.50
X10
0.04
0.22
1.00
0.75
0.83
X11
0.07
0.00
0.17
0.25
0.00
X12
0.36
0.72
0.67
1.00
1.00
3.3 确定模糊相似矩阵
利用欧氏距离,在B18单元格输入:
=SQRT((B$3-B3)^2+(C$3-C3)^2+(D$3-D3)^2+(E$3-E3)^2+(F$3-F3)^2),求得d11;
在C18 单元格输入:
=SQRT((B$4-B3)^2+(C$4-C3)^2+(D$4-D3)^2+(E$4-E3)^2+(F$4-F3)^2),求得d12。
同理定义D18、E18、F18、G18, H18、I18、J18、K18、L18、M18,在B18:B29区域应用数据填充,其他各列同样操作,产生距离矩阵D如图1。
利用公式〔8〕求得模糊矩阵R。在单元格B34中定义公式:=1-B18/MAX ($B$18:$M$29),应用数据填充可建立模糊相似矩阵R如图2。
图1 距离矩阵D
图2 模糊相似矩阵R
3.4 确定模糊等价矩阵
由于模糊相似矩阵R满足自反性、对称性,但不满足传递性,因此R为模糊相似关系,建立传递闭包使R满足传递性。对R去平方,经过4次迭代,得到R8=R16,这时R8是一个模糊等价关系,可以进行聚类分析。R8的求解过程如下:
B19=MAX(MIN($B3,B$3),MIN($C3,B$4),MIN($D3,B$5),MIN($E3,B$6),MIN($F3,B$7),MIN($G3,B$8),MIN($H3,B$9),MIN($I3,B$10),MIN($J3,B$11),MIN($K3,B$12),MIN($L3,B$13),MIN($M3,B$14)),应用数据填充, 求得R2,如图3。重复执行,直到出现 ,当k=3 时,R8=R16,可以得到一个模糊等价矩阵t(R)= R8,如图4。
图3矩阵R2
图4模糊等价矩阵t(R)
3.5 聚类分析
〔1〕选取0.8≤λ<1,当模糊等价矩阵中rij≥0.8时,取1,否那么取0,利用IF( ) 函数,求得