一种
基于
EFD
混合
属性
算法
第2 9 卷第1期2024年1月doi:10.13682/j.issn.2095-6533.2024.01.012西安邮电大学学报JOURNAL OF XIAN UNIVERSITY OF POSTS AND TELECOMMUNICATIONS一种基于EFD的混合属性聚类算法Vol.29No.1Jan.2024王文庆12,向孜瑞1,2(1.西安邮电大学自动化学院,陕西西安7 10 12 1;2.物联网应用技术联合示范实验室,陕西西安7 10 12 1)摘要:为了提高混合属性聚类效率,提出一种基于扩张翻转距离(Expand Flip Distance,EFD)的混合属性聚类算法。以信息及嫡权法为基础,通过定义扩张属性和属性扩张量得到EFD,将其作为待聚类对象属性区分的依据,进行聚类对象的属性约简,最终对约简后的属性构建混合属性聚类模型,实现混合属性聚类。实验结果表明,所提算法获得的聚类谱系图和聚类结果均优于对比算法,验证了该算法的合理性和有效性。关键词:混合属性聚类;扩张属性;属性扩张量;扩张翻转距离;属性差异化中图分类号:TP181Clustering algorithm for mixed attribute based on EFD(1.School of Automation,Xian University of Posts and Telecommunications,Xian 710121,China;2.Internet of Things Application Technology Joint Demonstration Laboratory,Xian 710121,China)Abstract:In order to improve the clustering efficiency of mixed attributes,a mixed-attribute cluste-ring algorithm based on the expand flip distance(EFD)is proposed.Based on the information entro-py and entropy weight method,the EFD is obtained by defining the expansion attribute and the at-tribute expansion amount,which is used as the basis for the attribute differentiation of the object tobe clustered,and the attribute reduction of the clustered object is carried out,and finally the mixedattribute clustering model is constructed for the reduced attribute to realize the mixed attribute clus-tering.Experiment results show that the clustering pedigree map and the clustering results obtainedby the proposed algorithm are better than those of the comparison algorithms,which verifies its ra-tionality and effectiveness.Keywords:mixed attribute clustering;expansion properties;the amount of attribute expansion;ex-pand flip distant;attribute differentiation随着数据获取的便捷化,混合属性数据不断增加1。聚类分析作为数据研究领域的基本技术,可从复杂数据中提取有价值的信息,被广泛应用于数据挖掘和数据聚类的研究中2 混合属性数据聚类问题主要包括聚类融合算法的研究3、数据距离计算的研究以及对特定性质混合数据的研究等。文献4利用基于聚类的相似度分区算法计算出多个聚类结果之间的相似度,进收稿日期:2 0 2 3-0 9-0 2基金项目:陕西省重点研发计划项目(2 0 18 ZDXM-GY-039)引文格式:王文庆,向孜瑞。一种基于EFD的混合属性聚类算法J.西安邮电大学学报,2 0 2 4,2 9(1):10 3-110.WANG W Q,XIANG Z R.Clustering algorithm for mixed attribute based on EFDEJJ.Journal of Xian University of Posts and Tele-communications,2024,29(1):103-110.文献标识码:AWANG Wenqingl2,XIANG Ziruil.2文章编号:2 0 9 5-6 533(2 0 2 4)0 1-0 10 3-0 8而通过层次化的分割算法将相似度进行叠加,通过对聚类结果合成提高化学结构聚类的质量。谱聚类和量子聚类融合算法5对具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集更显优势。文献6 通过定义名义尺度变量的距离度量,改善了经典聚类分析技术,如系统聚类法和K-means 等处理名义尺度变量不适合的问题。文献7 对有相似趋势的数据流提出了时间距离度量的方法,改善104.了数据对象值域差距悬殊的多数据流聚类问题。文献8 对混合型数据的概率据基聚类进行了扩展,适用于连续数据的聚类,具有模糊隶属度和鲁棒性的优点。文献9通过扩展模糊C-means,探究了针对周期型名义变量的模糊聚类方法,获得了最佳聚类数。然而,上述算法虽不同程度探究了分类数据或混合数据的聚类,但均没有考虑数据属性的差异化,忽略了特殊属性对数据聚类结果的性能影响10。当前大多数据是以混合类型为主,在连续性、周期型和有序性等方面有所欠缺,使得处理过程变得相对复杂和困难11。同时,混合属性数据中的分类属性存在概念界定不清楚、难以度量的问题12,且分类属性在不同场景中,表达的待分类对象的特征敏感程度不同,因此,合理体现分类属性之间的差异,区分属性特征对于高效聚类显得尤其必要。区分属性特征包括属性数据重要程度的确定、属性参数的计算和属性特征对目标结果的影响等因素。为了改善上述混合属性数据存在的聚类问题,拟提出一种基于扩张翻转距离(Expand FlipDistance,EFD)的混合属性聚类算法。通过定义扩张属性和属性扩张量得到EFD,以差异化区分待聚类对象的属性,进而构造混合属性聚类模型,分析属性扩张处理后对聚类结果的影响,以期提高混合属性数据聚类效率。1度量指标定义数据聚类中常用的度量指标主要应用于数值型属性数据,通过精确的距离度量实现数据的定量分析13。而混合属性数据特征多样化,通常无法进行数值运算,因此很难进行度量选择。扩张翻转距离14类似于生物学上的“放大镜”,其思想是通过将重要属性的细微差别放大,便于观察事物内在的联系,以及在海量信息中进行检索,判断出扩张属性对聚类效果的影响,达到快速聚类且准确聚类的目的。下面将通过定义扩张翻转距离,对分类型属性数据特征进行度量。定义1扩张翻转距离。给定两个名义尺度变量1 和2,基于翻转距离6 概念,利用翻转次数定义i和2的距离度量,从而定义扩张翻转距离为ai-az=w.d(ar,a2)(1)式中:W为属性扩张量,用于区别特定的分类属性,即在一定程度上放大其对整体数据的影响度。例如,两个待聚类样本的分类属性分别为1,2,3)和西安邮电大学学报(1,1,2),其名义尺度变量依次为a1,a 2,a 3,通过扩张量的计算得出对2进行扩张,则其扩张翻转距离为0+w1+1=w十1。假设待聚类样本总数为N,分类属性的总数为P,待聚类样本个数为i,分类属性个数为i,则两个样本间的扩张翻转距离可以表示为NP2D=ai-ai+wat-a(2)i=1j-1式中:i为第i个样本的第个分类属性;K为扩张属性。信息熵15是描述信息源可能发生的不确定性,将其作为属性区分的依据定义扩张属性及属性扩张量。扩张属性依据信息摘的大小确定,就属性值而言,重复值越多,信息熵越低,也就越容易预判。对易预判的属性进行扩张,才更易分类。因此选取信息小的属性作为扩张属性。定义2 扩张属性。设数据集中含有N个待聚类样本i=1,2,N,P个分类属性j=1,2,P,其扩张属性K可定义为e(K)=e(at)=-22式中:R为第i个样本的第i个分类属性的类别样本属性值个数;D丨为样本元组数;RiD 丨为类别样本概率。例如,待聚类样本分别为(1,2,3)、(2,1,1)、(2,3,2),其分类属性依次为ai,a,a,则e(a)=e(1,2)=0.9,e(a?)=e(a)=e(1,1,1)1.59。由此可得为扩张属性。定义3属性扩张量。在给定数据集中,分类属性的间隔能力和属性值的疏密存在差异。根据属性扩张量偏重于选择属性间隔能力比较弱或属性值比较单一稀疏的情况,其属性扩张量W定义为w(ak)=-e-de-e(K)其中,d=I 1-e(K)I1=NPi-1j-1式中:d为信息效用值;为影响因子。例如,待聚类样本的分类属性分别为(1,2,3)、2,1,1)、(2,3,2),根据已选取的扩张属性l,计算其扩张量w(al)=e-(1-0.9)/(1/3)X e-0.9 6.68。属性扩张量依据熵权大小确定,属性在综合评价中所能起到的作用越大,则其权即扩张量也就越大。因此,一个属性重复的内容越多,不确定性2024年1月N-1NP2R-1og2TDTR(3)D(4)第2 9卷第1期越小,则信息越小,待估事件需要查询该属性信息量越少16,即该属性在待估事件本身存在的信息量大,则该属性在综合评价中所起到的作用越大,其扩张量也就越大,所得到的聚类结果更具代表性。2混合属性聚类算法在确定了待聚类样本的扩张属性后,基于EFD的混合属性聚类算法借鉴基于目标函数聚类的思想,构建数值型属性与分类型属性的混合属性聚类模型,并分析模型的收敛性及算法复杂度。2.1模型描述设数据集有N个待聚类样本,每个样本有P个属性,其中Pi个属性为数值型,P个属性为分类型,混合属性数据集记为H:R P),R 为实数域,P=Pi+P2 0.样本s的属性满足s=(,v)EN式中:为数值型属性样本数据点;v为分类型属性样本数据点。第i个待聚类样本的完整属性可表示为si=(ci,c?,afi,i,i,f2)式中:pi为第i个样本的第P1个数值型属性;v2为第i个样本的第P个分类型属性。利用混合属性聚类模型对混合属性数据进行聚类的具体步骤如下。步骤1对数据集H进行标准化数据预处理。步骤2 对P个分类属性进行量化处理。根据属性值划分区域,给予特定的量化值,得到分类属性量化后的数据集。步骤3根据式(3)确定扩张属性K,从中得到更有用的聚类信息。步骤4根据式(4)确定属性扩张量w,从中判断扩张属性对聚类效果的影响。步骤5根据式(2)计算扩张翻转距离,结合欧氏距离,对混合属性数据进行聚类,并绘制聚类谱系图17。2.2模型收敛性分析基于聚类代价18 的概念,给出混合属性聚类模型的目标函数,分析模型的收敛性。2.2.1目标函数确定目标函数包括数值型属性和分类型属性两部分,通过计算样本数据点的类代价和确定最终目标函数。王文庆,等:一种基于EFD的混合属性聚类算法类的总代价为G=2(-2)i=1j=0cEi对于分类型属性,采用EFD进行计算。假设分类型属性样本数据点EC,则与类C的距离可看作该数据点与类C内所有数据点之间的距离之和,即类C的代价为Z=D(vC)P2(5)由式(9)可得到分类型属性样本数据点的所有类的总代价为NP2G-22w v,i=0j=0P2(6)最终混合属性聚类模型的目标函数为T=Gi+G2在对分类属性进行扩张处理19后,目标函数式(11)中G的敏感属性会被提取出,聚类结果的子类簇将得到优化。假设待聚类数据点以数列形式(;)存在,那么在二维视角中,其聚类中心值属于待聚类样本点所在的方形区域内,如图1所示。4第1类3F第2 类*聚类中心21F0-1-2-3-3图1中,数列(i)中的点被聚成的每一类,类内所有点的距离之差都最大程度靠近聚类中心。,且满足。Ea i,p,即0aamax105.对于数值型属性,采用欧氏距离的平方进行计算。假设数值型属性样本数据点EC,则与类C之间的距离可看作该数据点与类C的类中心之间的距离,即类C的代价为Z=D(x,C)=(-)2式中,为类C的类中心,cEi。由式(7)可得到数值型属性样本数据点的所有NP(8)P22w.v.v.1P2-2-1图1聚类中心区域(7)(9)(10)(11)101X轴234(12)106式中,max为最大待聚类数据点。目标函数极值f()Eo,m a x T 与聚类中心。的关系为函数极值点存在,则聚类中心存在。2.2.2收敛性分析混合属性聚类收敛思想为在非空有限集上,对任一函数值数列(f(),若(;)为函数f()的定义域内有限集,且满足(i)=(i,2,,n)可被分为若干个类,则每一类存在唯一常值。属于定义域,则该函数值数列收敛。设a1,2,,p,是欧氏空间的Pi个数值属性数据点,对式(8)中(一z.)求偏导,即=Z-2(-2.)可得式(8)为严格凸函数,因此Gi存在唯一最小值点。当式(13)结果为0 时,G可以取最小值,计算PI得到。=1/;是该函数的一个驻点,且满足i=1。Ea i,a p,是这组数据点的中心位置,即为类中心。分类属性扩张后,对式(11)分母部分进行偏导求解,可得G2亦是严格凸函数。根据定义2 和定义3可知,式(2)满足定义1,可作为样本分类属性的相似性度量依据2 0,其目标函数必定存在最小值(最小值不唯一)。考虑到混合属性聚类模型复杂度较高,无法直接求出目标函数的极值点,因此选择从Gi、G 2 出发逐步进行迭代,求得使目标函数T代价最小时的极值点,即为聚类中心,由此得出混合属性聚类模型收敛。2.3算法复杂度分析假设数据集中包含N个数据点,P1个数值属性,P个分类属性,k为聚类数,I为迭代次数。若只考虑其中个分类属性进行聚类,则所提算法的时间复杂度为O(kNI(Pl十m)。将所提算法的时间复杂度与文献5中翻转聚类法的时间复杂度O(kNIP),以及在此基础上融合后的传统混合属性聚类算法的时间复杂度O(kNI(P1十P2)对比可知,所提算法时间复杂度相对较低,这是因为所提算法在分类属性的维度从P减少到m,通过加入属性扩张量对敏感属性扩张,达到对分类属性进行缩减的目的,即只考虑对其中剩余部分属性进行聚类,复杂度有所降低。2.4算法实现基于EFD的混合属性聚类算法伪代码如下。西安邮电大学学报算法:基于EFD的混合属性聚类算法输人:一个混合属性数据集H,N个待聚类样本,包含P1个数值属性和P2个分类属性。输出:扩张属性e(K),属性扩张量w和聚类谱系图。1:A-H;/数据预处理并且对分类属性量化2:shuzhi=A(:,1:Pi);3:fenlei=A(:,Pi:P2);/区别数值属性和分类属性4:repeatif shuzhi(l)=s h u z h i(?)shuzhi=dist(shuzhi(l),s h u z h i(?));/计算数值属性if fenlei(以)=fenlei()e(K),w;/计算扩张属性,属性扩张量fenlei=w(l);/计算分类属性扩张翻转距离(13)5:s h u z h i十fenlei;/欧氏距离距离与扩张翻转距离结合6:dendrogram(shuzhi+fenlei);/得到聚类结果基于EFD的混合属性聚类算法流程如图2所示。开始数据采样和预处理数据量化及标准化构建量化后数据集数值型属性分类型属性区分属性类型确定扩张属性立确定属性扩张量计算欧氏距离计算扩张翻转距离绘制聚类谱系图结束图2 混合属性聚类算法流程3仿真实验及结果分析为了验证所提算法的有效性,将进行两组对比仿真实验,实验硬件配置环境为Intel(R)C o r e(TM)i5-11400H处理器、16 GiB内存和Windows11操作系统。3.1第1组实验选取文献2 1中某小区保安预警系统采集的门禁抓拍出入小区人员体貌特征数据作为采样2024年1月第2 9卷第1期数据集,并将所提算法与文献2 1算法进行仿真实验对比。该数据集是混合属性数据集,采样所得的原始数据集如表1所示,其中9号数据为公安系统发布的犯罪嫌疑人体貌特征。表1原始数据集数值属性分类属性序号体重/年龄/身高/性别胖瘦用肤色衣着发型脸型kg岁cm168277368469576673769880979应用基于EFD的混合属性聚类算法对原始数据集进行分类属性量化,如表2 所示,得到量化后的数据集如表3所示。表2 分类属性的量化属性(指标)量化处理(用字符代替特征)性别男:1,女:2胖瘦胖:1,中;2,瘦:3肤色黄:1,白:2,黑:3衣着长袖:1,中袖:2.短袖:3发型长:1,中:2,短:3脸型长:1,圆:2,方:3表3量化后的数据集数值属性分类属性序号体重/年龄/身高/性别月胖瘦肤色衣着发型脸型kg岁cm168277368469576673769880979计算各分类属性的信息嫡,如表4所示。依据属性的不确定性越小,纯度越高,聚类效果越好原则,选取信息小的性别属性作为扩张属性,并计王文庆,等:一种基于EFD的混合属性聚类算法351734117737183411783817127174351764318245183男瘦黑长袖中圆351734117737183411783817127174.35176431824583107算性别属性扩张量,如表5所示。表4各分类属性的信息熵分类属性类别样本概率性别e(8,1)胖瘦e(4,2,3)肤色e(1,4,4)衣着e(4,2,3)发型e(4,3,2)脸型e(2,5,5)男胖白短袖短圆男瘦黑短袖长圆男胖白长袖中圆男中白长袖长长男胖黑中袖长方男中黄短袖中方女胖白中袖长长男瘦黑长袖短圆112131112113122121331331信息嫡0.501.531.391.531.531.42表5属性扩张量分类属性信息效用值性别0.50胖瘦0.53肤色0.39衣着0.53发型0.53脸型0.42对混合属性进行度量,采用Matlab软件对其进行聚类分析,绘制文献2 1算法和所提算法的聚类谱系图,分别如图3和图4所示。6.0F5.55.04.54.03.53.02.52.0F1.5F1.0E892513746嫌疑人序号图3文献2 1算法聚类谱系图9F8F3323312212112113213222扩张量67622132311432F892513467嫌疑人序号图4所提算法聚类谱系图由图3和图4可以看出,8 号与9 号的嫌疑人目标特征最为相似,在纵坐标上的数值最为接近且优先聚为一类2 2,可以确定出8 号为重点监控108.对象。但是,图3中文献2 1算法仅可确定重点监控对象,无法排除明显特征人群,而图4中所提算法不仅可以确定出重点监控对象是8 号,还可以根据目标嫌疑人的男性特征排除7 号女性,聚类效率有所提高,实际应用性更强。3.2第 2 组实验选用美国加州大学欧文分校提出的适合模式识别和机器学习方向的开源数据集UCI(Universi-ty of California,Irvine)中 Cleveland Clinic Founda-tion库下的CHeart心脏病子数据集和GC231心脏病子数据集测试所提算法,并与文献2 4和文献2 5算法进行对比分析。两个数据集来源于心脏病患者检查采集的相关数据,属于典型的混合属性数据集,包括数据集名称、样本总数、属性个数和类别数等,相关信息如表6 所示。表6 两数据集相关信息样本属性数值分类正常异常数据集总数个数属性属性个数个数CHeart303GC1000对分类属性进行量化,计算各属性的信息熵。CHeart数据集中部分分类属性的信息摘如表7所示。表7 CHeart数据集中部分分类属性的信息焰分类属性类别样本概率sexe(97,206)Cpe(23,50,86,144)fbse(258,45)restecge(151,148)exange(204,99)slopee(142,140,21)thale(166,18,177)从表7 可以看出,sex、f b s 和exang等分类属性的信息熵较小,根据扩张属性选择原则,可将其作为扩张属性,并计算属性扩张量,如表8 所示。表8 CHeart数据集部分分类属性的扩张量分类属性信息效用值Sex0.10cp0.74.fbs0.39restecg0.52exang0.53slope0.42thal0.25西安邮电大学学报在GC数据集上计算过程与CHeart数据集计算过程类似,此处不再详细列举。利用所提算法进行聚类,在聚类结果仍为正常者和异常者两类的情况下,将准确度、精确率和召回率2 6 作为评价指标,分别对比所提算法与文献2 4、文献2 5算法在CHeart数据集和GC数据集上的性能,结果如表9所示。表93个算法在数据集上的评价指标对比结果数据集算法CHeart文献2 4文献2 5所提算法GC文献2 4文献2 5所提算法由表9 可知,所提算法对分类属性经过确定扩1352072024年1月准确度精确率0.54130.54280.59410.58930.600 60.602 60.700.00.656.00.70000.65280.69700.678 0816413700信息熵0.901.740.611.910.911.291.25扩张量10一911一召回率0.50000.586 10.58580.50000.50000.551 2139张属性以及计算属性扩张量进行属性约简,在两个300数据集上均可以达到最大程度区分正常者与异常者的目的,准确度的提高可以达到并以筛查的目的,精确率和召回率也优于其他两个对比算法。由此可得,所提算法的整体评价指标更优,算法性能更好,聚类效果更佳。4结语基于EFD的混合属性聚类算法,通过对翻转距离扩张得到EFD,并给出扩张属性和属性扩张量的概念,从而构建混合属性聚类模型对混合属性数据进行聚类。实验结果表明,该算法将属性间的差异性考虑到混合属性聚类中,不仅区别了不同场景下分类属性之间的差异,还保证了数据完整且被有效利用,提高了聚类效率。参考文献1李海林,张丽萍.时间序列数据挖掘中的聚类研究综述J.电子科技大学学报,2 0 2 2,51(3):416-42 4.LI H L,ZHANG L P.Summary of clustering researchin time series data miningLJJ.Journal of University ofElectronic Science and Technology of China,2022,51(3):416-424.(in Chinese)2李国良,周煊赫,孙估,等.基于机器学习的数据库技术综述J.计算机学报,2 0 2 0,43(11):2 0 19-2 0 49.第2 9卷第1期LI G L,ZHOU X H,SUN X,et al.A survey of ma-chine learning based database techniques J.ChineseJournal of Computers,2020,43(11):2 0 19-2 0 49.(i nChinese)3PITCHANDI P,BALAKRISHNAN M.Documentclustering analysis with aid of adaptive Jaro Winklerwith Jellyfish search clustering algorithmJ.Advancesin Engineering Software,2023,175:103322.4SAEED F,SALIM N,ABDO A.Combining multipleclusterings of chemical structures using cluster-basedsimilarity partitioning algorithmJJ.International Jour-nal of Computational Biology and Drug Design,2014,7(1):31-44.5马宇红,李兴义,薛生倩,等,一种基于流形距离核的谱聚类和量子聚类融合算法.西北师范大学学报(自然科学版),2 0 2 3,59(2):37-46.MANG Y H,LI X Y,XUE S Q,et al.A fusion algo-rithm of spectral clustering and quantum clusteringbased on manifold distance kernel J.Journal ofNorthwest Normal University(Natural Science Edi-tion),2023,59(2):37-46.(in Chinese)6许洪波,卜东波,白硕一种针对名义尺度变量的优化聚类算法J.微电子学与计算机,2 0 0 3,2 0(12):8-11.XU H B,BU D B,BAI S.An optimization-based clus-tering algorithm for nominal scale variants J.Microe-lectronics&.Computers,2003,20(12):8-11.(in Chi-nese)7RACHIT,BHATT S,RAGIRI P R.Security trends inInternet of Things:A surveyLJJ.SN Applied Sciences,2021,3:1-14.8TORTORA C,PALUMBO F.Clustering mixed-typedata using a probabi-listic distance algorithmJ.Ap-plied Soft Computing,2022,130:109-704.9 TOTH B,VAD J.A fuzzy clustering method for peri-odic data,applied for processing turbomachinery beam-forming maps JJ.Journal of Sound and Vibration,2018,434:298-313.10刘建华,任丹丹,王国铭.一种基于属性的两级敏感度计算模型J.西安邮电大学学报,2 0 2 1,2 6(6):8 2-8 8.LIU J H,REN D D,WANG G M.A two level sensitiv-ity calculation model based on attributesJ.Journal ofXian University of Post and Telecommunications,2021,26(6):82-88.(in Chinese)11 ZHANG X,YAO H,LV Z,et al.Class-specific infor-mation measures and attribute reducts for hierarchy王文庆,等:一种基于EFD的混合属性聚类算法563:196-225.12J AHMAD A,KHAN S S.InitKmix-a novel initial parti-tion generation algorithm for clustering mixed data u-sing k-means-based clusteringJ.Expert Systems withApplications,2021,167:114-149.13J MOUSAVI E,SEHHATI M.A generalized multi-as-pect distance metric for mixed-type data clusteringJJ.Pattern Recognition,2023,138:109-353.14 BALAJI K,LAVANYA K.Cluster analysis of mixeddata based on feature space instance cluster closenessmetricJJ.Chemometrics and Intelligent LaboratorySystems,2021,215:104-370.15 SHANNON C E.A mathematical theory of communi-cationJJ.The Bell System Technical Journal,1948,27(3):379-423.16张雪锋,惠嘉珺,范九伦.基于模糊嫡的组合混沌映射及其性能J.西安邮电大学学报,2 0 2 2,2 7(4):35-42.ZHANG X F,XI J J,FAN J L.Combined chaotic mapbased on fuzzy entropy and its performanceJ.Journalof Xian University of Post and Telecommunications,2022,27(4):35-42.(in Chinese)17兰蓉,韩天玥.融合特征自适应抑制式模糊聚类彩色图像分割J.西安邮电大学学报,2 0 2 1,2 6(5):8 9-10 0.LAN R,HAN T Y.Adaptively suppressed fuzzy clus-tering color imag segmentation with fused featuresJJ.Journal of Xian University of Post and Telecommuni-cations,2021,26(5):89-100.(in Chinese)18邱保志,张瑞霖,李向丽.基于残差分析的混合属性数据聚类算法.自动化学报,2 0 2 0,46(7):142 0-1432.QIU B Z,ZHANG R L,LI X L.Clustering alogrithmfor mixed data based on residual analysisJ.Acta Au-tomatica Sinica,2020,46(7):1420-1432.(in Chinese)19 LI Q,XIONG Q,JI S,et al.,Using finetuned conditionalprobabilities for data transformation of nominal attrib-utes J.Pattern Recognition Letters,2019,128:107-114.20J HUANG Z.Extensions to the k-means algorithm forclustering large data sets with categorical valuesJ.Data Mining and Knowledge Discovery,1998,2:283-304.21王文庆,薛飞.混合尺度聚类模型收敛性分析及仿真J.西安邮电大学学报,2 0 14,19(3):58-6 3.WANG W Q,XUE F.Convergence analysis and simu-lation of mixed-scale clustering modelJ.Journal of109and systematicness JJ.Information Sciences,2021,110.Xi an University of Post and Telecommunications,2014,19(3):58-63.(in Chinese)2 2 吴成茂.鲁棒模糊聚类图像分割理论进展J.西安邮电大学学报,2 0 2 0,2 5(6):1-2 5WU C M.Progress on robust fuzzy clustering for im-age segmentationJJ.Journal of Xi an University ofPost and Telecommunications,2020,25(6):1-25.(inChinese)23朱宵彤,庞春颖,朱涵.基于深度学习的心血管疾病预测模型J.计算机应用,2 0 2 1,41(S2):346-350.ZHU X T,PANG C Y,ZHU H.Prediction model ofcardiovascular disease based deep laerningJ.Journalof Computer Applications,2021,41(S2):346-350.(i nChinese)24 LIANG J,ZHAO X,LI D,et al.Determining the num-ber of clusters using information entropy for mixed da-taJJ.Pattern Recognition,2012,45(6):2251-2265.25李顺勇,张苗苗.一种带权的混合数据聚类个数确定算法J.计算机应用与软件,2 0 19,36(1):2 8 4-2 90.LI S Y,ZHANG M M.A weighted clustering numberdetermining algorithm for mixed data J.ComputerApplications and Software,2019,36(1):284-290.(in西安邮电大学学报Chinese)26J HAMID R,NEGIN D.Mixed data clustering based ona number of similar featuresJ.Pattern Recognition,2023,143:109815.作者简介2024年1月王文庆(196 4一),男,北京房山人,博士,西安邮电大学教授,主要研究方向为复杂系统结构分析与鲁棒控制,智能信息处理,信息系统分析、设计与开发等。E-mail:向孜瑞(1998 一),女,陕西渭南人,西安邮电大学硕士研究生,主要研究方向为机械。E-mail:责任编辑:祝剑