分享
模糊最小二乘孪生支持向量机聚类_朱娇.pdf
下载文档

ID:2718246

大小:1.34MB

页数:7页

格式:PDF

时间:2023-09-17

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
模糊 最小 孪生 支持 向量 机聚类 朱娇
模糊最小二乘孪生支持向量机聚类朱娇,陈素根*(安庆师范大学 数理学院,安徽 安庆 246133)摘要:孪生支持向量机聚类是一种新的基于平面的聚类方法,但其没有考虑样本数据分布对聚类性能的影响。为了解决这个问题,本文基于样本分布信息构造了一种模糊隶属度,在此基础上提出了模糊最小二乘孪生支持向量机聚类算法。该算法通过引入模糊隶属度函数,并对每个样本点赋予不同的权重,可以改进聚类性能。在人工数据集和UCI数据集上进行实验,并与K-means、KPPC、TWSVC和LSTWSVC算法进行比较,实验结果说明了本文算法的有效性。关键词:聚类分析;孪生支持向量机;最小二乘孪生支持向量机;模糊隶属度中图分类号:TP391文献标志码:A文章编号:1007-4260(2023)01-0065-07Fuzzy Least Squares Twin Support Vector ClusteringZHU Jiao,CHEN Sugen*(School of Mathematics and Physics,Anqing Normal University,Anqing 246133,China)Abstract:Twin support vector clustering is a new plane-based method,but it does not consider the effect of sample datadistribution on clustering performance.In order to address this problem,we construct a fuzzy membership based on data distri-bution information and propose a fuzzy least squares twin support vector clustering algorithm.The algorithm can improve clus-tering performance by introducing a fuzzy membership and assigning different weight to each data sample.Experiments areconducted on some artificial datasets and UCI datasets,compared with K-means,KPPC,TWSVC and LSTWSVC,the experi-mental results show the effectiveness of our proposed algorithm.Key words:clusteringanalysis;twinsupportvectormachine;leastsquarestwinsupportvectormachine;fuzzymembership聚类问题是模式识别和机器学习领域的常见问题之一,在许多方面都得到了广泛研究和成功应用1-2。它是按照某种特定标准把一个数据集分成不同的类或簇,并使得同一簇的样本相似性尽可能大,同时不同簇样本间的差异性也尽可能大。常用的聚类分析方法有基于划分方法、基于层次方法和基于密度方法等。传统的基于划分聚类方法如K-means聚类,是根据样本的K个聚类中心点并通过一个特定标准把样本划分到K个簇中。当样本点呈线性分布时,用聚类中心平面代替聚类中心点的思想,Brad-ley等3提出了K平面聚类(K-plane clustering,KPC),并开启了基于平面聚类的新思路。KPC通过最小化每个点到最近聚类平面距离的平方和,并转化为求解特征值问题来获得K个聚类中心平面。受KPC启发,Shao等4提出了基于特征值的近端平面聚类(Proximal plane clustering via eigenvalues,PPC),Liu等5提出了K近端平面聚类(K-proximal plane clustering,KPPC)等。受孪生支持向量机6(Twin support收稿日期:2021-10-22基金项目:国家自然科学基金项目(61702012),安徽省高校自然科学研究重点项目(KJ2020A0505)和安徽省自然科学基金项目(1908085MF195,2008085MF193)作者简介:朱娇(1997),女,安徽六安人,安庆师范大学数理学院硕士研究生,研究方向为模式识别与智能系统、机器学习等。E-mail:通信作者:陈素根(1982),男,安徽当涂人,博士,安庆师范大学数理学院教授,硕士生导师,研究方向为模式识别与智能系统、机器学习等。E-mail:2023年2月第29卷第1期安庆师范大学学报(自然科学版)Journal ofAnqing Normal University(Natural Science Edition)Feb.2023Vol.29 No.1DOI:10.13757/34-1328/n.2023.01.012安庆师范大学学报(自然科学版)2023年vector machine,TWSVM)的启发,Wang等7于2015年提出了孪生支持向量机聚类(Twin support vectorclustering,TWSVC),其同时考虑了类内相似性和类间差异性,并通过求解一系列有约束条件的二次规划问题以代替KPC中的特征值问题,从而求得K个聚类中心平面。为了解决TWSVC求解过程较复杂的问题,Moezzi等8提出了改进的孪生支持向量机聚类,其构造了快速求解算法并获得全局最优解。为了解决TWSVC求解过程中可能的奇异问题并通过引入正则项,Bai等9提出了孪生有界支持向量机聚类。之后,诸多学者对TWSVC进行深入研究,如Richhariya等10提出了最小二乘投影孪生支持向量机聚类,以及Ye等11提出了基于L1范数的快速鲁棒孪生支持向量机聚类等。2018年,Khemchandani等12提出了最小二乘孪生支持向量机聚类(Least squares twin support vectorclustering,LSTWSVC),其是在最小二乘意义下对TWSVC模型的改进,并用等式约束条件代替TWSVC中的不等式约束,只需求解一系列线性方程组问题而不是二次规划问题;同时引入正则项,考虑了结构风险最小化原则。然而,LSTWSVC没有考虑样本的数据分布问题,认为所有样本都有同样的重要性,且对决策平面的贡献程度相同。事实上,在具体聚类问题中,每个样本对于决策平面的贡献程度是不一样的。当对所有样本同等对待时,就忽略了样本对决策平面贡献程度的差异,这会影响聚类算法的性能。为了解决这个问题,本文根据样本的数据分布构造了一个模糊隶属度函数,且对每个样本赋予不同的权重,并在此基础上提出了模糊最小二乘孪生支持向量机聚类(Fuzzy least squares twin support vectorclustering,FLSTWSVC)。在人工数据集和UCI数据集上进行实验,结果表明所提出的FLSTWSVC具有较好的性能。1相关工作训练集X是由m个n维向量构成,记为X=()x1,x2,x3,xmT,其中xj(j=1,2,3,m)是n维的实向量。把训练集X分成k类,用Xi Rmi n表示属于第i类(i=1,2,3,k)的所有样本,-Xi R(m-mi)n表示除第i类外的所有样本。1.1TWSVCTWSVC是一种基于平面聚类的方法,其寻求k个聚类中心平面wTix+bi=0,i=1,2,3,k,并使第i类的所有样本Xi尽可能靠近第i类中心平面,其余样本-Xi与第i类中心平面保持一定的距离,其优化问题为minwi,bi,i12Xiwi+bie2+ceTis.t.|-Xiwi+bie e-i,i 0,(1)其中,c 0是惩罚参数,i是松弛变量,e是分量全为1的适当维数的向量。利用Concave-convex procedure(CCCP)13求解,可以得到一系列以w0i和b0i为初始值的凸二次子问题:minwj+1i,bj+1i,j+1i12()Xiwj+1i+bj+1ie2+ceTj+1is.t.T()|-Xiwj+1i+bj+1ie e-j+1i,j+1i 0,(2)这里,T()表示一阶泰勒展开式。将T()|-Xiwj+1i+bj+1ie=diag()sign()-Xiwji+bjie()-Xiwj+1i+bj+1ie代入(2)式,化简可得minwj+1i,bj+1i,j+1i12()Xiwj+1i+bj+1ie2+ceTj+1is.t.diag()sign()-Xiwji+bjie()-Xiwj+1i+bj+1ie e-j+1i,j+1i 0。(3)通过引入拉格朗日函数,将(3)式转化为对偶问题:min12TG()HTH-1GT-eTs.t.0 ce,(4)其中,G=diag()sign()-Xiwji+bjie-Xie,H=Xie,Rm-mi为拉格朗日乘子向量。66第1期根据(4)式求出,进一步可以求出(3)式的解:wj+1i;bj+1iT=()HTH-1GT,(5)对于i=1,2,3,k,选择合适的初始值w0i和b0i,根据(5)式计算出wj+1i和bj+1i(j=0,1,2,),不断地迭代交替更新,直到wj+1i;bj+1i-wji;bji的值足够小,停止迭代并记wi=wj+1i,bi=bj+1i。当所有的wi,bi(i=1,2,3,k)都计算出来后,对于任意x Rn,根据(6)式进行聚类:l=argmini=1,2,3,k|wTix+bi,(6)对于非线性的TWSVC算法可参考文献7。1.2LSTWSVCLSTWSVC是对TWSVC的一种改进,其通过在目标函数中增加正则项以实现结构风险最小化,同时利用等式约束条件来代替不等式约束,线性LSTWSVC的优化问题为minwi,bi,i12()Xiwi+bie2+c12()wi2+b2i+c22 i2s.t.|()-Xiwi+bie=e-i,(7)其中,c1,c2 0表示惩罚参数,i表示松弛变量,e是分量全为1的适当维数的向量。类似TWSVC的求解过程,可将(7)式转化为minwj+1i,bj+1i,j+1i12()Xiwj+1i+bj+1ie2+c12()wj+1i2+()bj+1i2+c22()j+1iTj+1is.t.diag()sign(-Xiwji+bjie)()-Xiwj+1i+bj+1ie=e-j+1i,(8)求解优化问题(8)式,可得|wj+1ibj+1i=c2()H1HT1+c1I+c2HT2H2-1HT2GTe,(9)其中,G=diag()sign()-Xiwji+bjie-Xie,H=-Xie,I为适当维数的单位矩阵。通过选择合适的初始值w0i和b0i,根据(9)式计算出wj+1i和bj+1i(j=0,1,2,),不断地迭代交替更新,直到wj+1i;bj+1i-wji;bji的值足够小,停止迭代并记wi=wj+1i,bi=bj+1i。当所有的wi,bi(i=1,2,3,k)都计算出来后,对于任意x Rn,根据(10)式进行聚类:l=argmini=1,2,3,k|wTix+bi,(10)对于非线性的LSTWSVC算法可参考文献12。2模糊最小二乘孪生支持向量机聚类2.1模糊隶属度模糊隶属度是用来刻画一个元素与模糊集相似程度的一种重要度量。在聚类问题中,为了反映数据的分布特征,并体现每个样本对聚类性能的影响程度,本文构造了一个模糊隶属度,并对每一个样本赋予不同的权重。具体地讲,模糊隶属度公式定义如下,si=1-xi-CD()i=1,2,3,m,(11)其中,表示每个样本到样本中心的欧氏距离,xi表示输入的训练样本,C表示样本的中心()C=1mxi,D表示所有样本到样本中心距离的总和()D=xi-C。2.2线性的FLSTWSVCTWSVC和LSTWSVC没有考虑样本的数据分布,且对所有样本同等对待,影响了聚类性能。

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开