随着工艺和装备技术水平的提升,大断面型钢生产稳定性和产品质量控制水平有了显著的提高,积累了丰富的生产经验。但由于型钢产品的断面形状复杂,控制参数和尺寸数量较多,同时要考虑通长规格尺寸的合格情况,岗位人员一次调整合格率不高,伴随而来是成本损失,相关技术人员生产压力大,人才培养梯度层次不齐,往往要通过“废钢”来出人才。如何将规格尺寸调整算法化、模型化,成为解决这一问题的主要方法。现场实际生产数据在完备性和准确性两个方面存在一定问题,其中准确性问题主要为数据测量异常,这与检测设备运行稳定性和机械装备劣化有关,需定期进行设备校验或标定,才能得以修正。而数据完备性问题主要表现为规格控制方法解释差,即控制方法差异性大,这主要与测量装备缺失,以及无法直接测量有关,继而这些因子对规格尺寸控制有多大影响无法定量评估。在欠特征情况下,为提高模型准确性,本文通过数据聚合分类等数据集划分方法,在大类数据集上进行建模和验证,以消除小类异常样本的影响。1数据集划分算法由于型钢规格为尺度参数,且轧制工艺相对固定后,对规格的调整在一个相对狭窄的线性空间内进行,历史调整数据之间存在相对集中的特性。同时调整工况相近时,调整过程具有较高的重现性,因此本文采用原型聚类算法进行数据集划分。原型聚类具有代表性的两个算法是K均值聚类(Kmeans)和高斯混合聚类(GM)。1.1K均值聚类算法[1]J=Nn=1∑Kk=1∑γnk‖xn-μk‖2(1)μk=∑nγnkxn/∑nxn(2)μk=μk-1+ηn·(xn+μk-1)(3)式中μk为第k个原型向量,x为第n个样本,γnk∈{0,1},为第n个样本是否属于第k个原型向量的率属度。算法具体执行过程为:选定原型向量,计算原型向量与各数据点之间的距离J,即式(1);令J关于原型向量的偏导数为零计算μ,如式(2),可令μ为新的原型向量,如此迭代,直至满足收敛条件为止,具体收敛条件一般为最大类别数,以及轮廓系数为代表的距离度量指标。该算法的特点式计算简单,容易达到局部最优,后面有学者采用批处理的方式(Kmeans-bat)将整个数据集一起用于更新原型向量,保证了一定的全局性,但整体搜索原型向量速度过慢。为了加快搜索算法,学者提出了LVQ算法[2],采用式(3)进行对原型向量进行更新,求解速度大幅度提升。1.2高斯混合聚类算法[3]该算法的前提是假设观察样本集存在潜变量,且数据集是由以潜变量所划分的多个高斯分布混合而成,此处原型指高斯分布。pM(x)=Ki=1∑αi·...