分享
基于卷积神经网络的结构化非平衡数据分类算法_徐红.pdf
下载文档

ID:2253478

大小:1.80MB

页数:9页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 卷积 神经网络 结构 平衡 数据 分类 算法
第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于卷积神经网络的结构化非平衡数据分类算法徐红1,矫桂娥2,3,张文俊2,陈一民3(1.上海海洋大学 信息学院,上海 201306;2.上海大学 上海电影学院,上海 200072;3.上海建桥学院 信息技术学院,上海 201306)摘要:卷积神经网络具有高效的特征提取能力和较少的参数量,被广泛应用于图像处理、目标跟踪、自然语言等领域。针对传统分类模型对于结构化非平衡数据分类效果较差的问题,提出一种基于卷积神经网络的二分类结构化非平衡数据分类算法。设计结构化数据处理算法 Data-Shuffle,将原始非平衡一维结构化数据转换为三维数组形式的多通道非平衡数据,为卷积神经网络提供更多的特征值,通过改进的 VGG 网络构建适合非平衡数据的网络结构卷积组,以提取不同的特征。在此基础上,提出更新权重加权采样算法 UWSCNN,在每个迭代次数之后,根据模型的训练结果对易错样本进行重新加权,以优化训练结果。在 adult、shoppers和 diabetes数据集上的实验结果表明,相比逻辑回归、随机森林等传统机器学习模型,所提的 Data-Shuffle算法的 F1值提升了 1%19%,G-mean提升了2%24%,相比 SMOTECNN、BSMOTECNN、SMOTECNN+CS 等采样算法,所提的 UWSCNN 算法对非平衡数据的分类效果提升了 1%13%,有效提高模型对非平衡数据的分类性能。关键词:非平衡数据;结构化数据;VGG网络;深度学习;卷积神经网络开放科学(资源服务)标志码(OSID):中文引用格式:徐红,矫桂娥,张文俊,等.基于卷积神经网络的结构化非平衡数据分类算法 J.计算机工程,2023,49(2):81-89.英文引用格式:XU H,JIAO G E,ZHANG W J,et al.Classification algorithm for structured imbalanced data based on convolutional neural network J.Computer Engineering,2023,49(2):81-89.Classification Algorithm for Structured Imbalanced Data Based on Convolutional Neural NetworkXU Hong1,JIAO Guie2,3,ZHANG Wenjun2,CHEN Yimin3(1.College of Information Technology,Shanghai Ocean University,Shanghai 201306,China;2.Shanghai Film Academy,Shanghai University,Shanghai 200072,China;3.College of Information Technology,Shanghai Jian Qiao University,Shanghai 201306,China)【Abstract】Convolutional Neural Network(CNN)are widely used in image processing,object tracking,natural language,and other fields because of their efficient feature extraction capabilities and their use of fewer parameters.To address the problem in which traditional classification models have poor classification effects on structured imbalanced data,this study proposes a two-tier structured imbalanced data classification algorithm based on CNN.The study designs a structured data-processing algorithm called Data-Shuffle and converts the original imbalanced one-dimensional structured data into multi-channel imbalanced data in the form of a three-dimensional array.The study also introduces a greater number of possible eigenvalues for the CNN and builds a network structure convolution group suitable for imbalanced data through an improved VGG network to extract different features.Accordingly,an updated weighted sampling algorithm UWSCNN is then proposed.With each iteration of the algorithm,error-prone samples are reweighted based on the training results of the model to obtain optimized results.Experimental results on datasets of adult,shoppers,and diabetes show that,compared with traditional machine learning models such as logical regression and random forest,the F1 and G-mean values of the proposed Data-Shuffle algorithm are increased by 1%-19%and 2%-24%,respectively.Compared with sampled algorithms such as SMOTECNN,BSMOTECNN,and SMOTECNN+CS,the classification effect of the proposed UWSCNN algorithm on imbalanced data is improved by 1%-13%,effectively improving the classification performance of the model on imbalanced data.【Key words】imbalanced data;structured data;VGG network;deep learning;Convolutional Neural Network(CNN)DOI:10.19678/j.issn.1000-3428.0063871基金项目:国家自然科学基金(61572434);上海市科技创新行动计划项目(19511104502,16511101200);上海科学技术委员会基金(19DZ22048)。作者简介:徐红(1994),女,硕士研究生,主研方向为大数据挖掘、数据分析;矫桂娥,副教授;张文俊、陈一民,教授、博士、博士生导师。收稿日期:2022-01-30 修回日期:2022-03-10 Email:人工智能与模式识别文章编号:1000-3428(2023)02-0081-09 文献标志码:A 中图分类号:TP1832023年 2月 15日Computer Engineering 计算机工程0概述非平衡问题在现实生活中普遍存在,数据集中不同类别的样本量差异较大,数据量较多的是多数类,数据量较少的是少数类。在实际生活中通常采用的非平衡数据集都是结构化形式。当算法对非平衡数据进行分类时,会受到多数类的影响,而忽略少数类特征,导致对少数类分类错误。但是,在非平衡数据集中少数类往往较重要。文献 1-3 提出在设备故障检测、罕见疾病诊断等方面,少数类比多数类更具有意义。因此,对于非平衡数据集的准确分类十分重要,这也是非平衡数据分类成为大数据挖掘和人工智能领域研究热点的原因。研究人员主要从两个方面处理非平衡数据的分类问题:一方面通过改变原始数据的分布,在数据预处理阶段降低数据不平衡程度;另一方面是通过改进分类算法,使算法适应非平衡数据的分类,准确地学习少数类特征。在数据加载阶段采样算法主要有欠采样、过采样和加权随机采样算法,其作用是降低原始数据集的非平衡度,数据采样算法主要有过采样算法和欠采样算法。文献4 提出结合合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)的重采样算法,其特点是分析少数类并生成少数类,但是该算法生成的新样本会对分类模型产生过拟合问题。文献 5 提出结合 SMOTE算法和边界信息生成新样本的 Borderline-SMOTE 过采样算法。文献 6 提出的ADASYN 与 Borderline-SMOTE 算法相似,通过对不同的少数类样本赋予不同的权重,以生成不同数量的样本,但通过这类采样算法重采样生成的少数类样本容易成为噪声样本,混淆分类模型对少数类样本的分类,从而影响模型的分类准确率。欠采样方法的特点是通过随机减少多数类样本数量以达到类别间平衡分布的目的,并在此基础上进行分类,该方法可能会导致部分重要信息被删除以影响分类效果。文献 7 提出在部分特殊情况下,随机欠采样算法有可能取得较优的分类效果。文献 8 提出加权随机采样算法,根据数据集内不同样本权重进行随机采样,但是该算法中的样本权重是研究人员主观设置的,不同权重的设置会得到不同的重采样数据集。文献 9 采用过采样小于所需样本量的采样算法,该采样算法同时考虑了不平衡度和分类复杂度,但适用范围较小,难以泛化作用于普通数据集。此外,文献 10 提出在数据加载阶段将欠采样和过采样算法融合为一个框架,对非平衡数据集进行处理,但是该融合算法会产生大量的少数类噪声样本。在算法层面,文献 11 通过对传统分类算法进行改进,提出代价敏感方法,通过对不同的样本赋予不同的损失权重,若模型对少数类分类错误,其代价就会增大,对多数类分类错误,其代价较小或者不变,同时将损失值反馈到分类模型中,更加关注对少数类样本的特征学习,使算法在非平衡数据集上能够准确地分类少数类。数据处理方法具有一定的泛化能力,可以用于不同的数据集,但是对算法的改进通常只适用于某一个或某一类非平衡数据集。卷积神经网络因其高效的特征提取能力和较少的参数量被广泛应用于图像处理、目标跟踪、自然语言等领域,并且涌现了许多经典的深度学习模型,例如 AlexNet 网络12、VGGNet13等。研究人员将卷积神经网络应用到大数据挖掘领域中14,在解决非平衡问题时也取得了一定的成果。但是卷积神经网络一般用于对视觉和图像等类型数据的训练处理。本文提出一种基于卷积神经网络的结构化非平衡数据分类算法。对于非平衡分布的结构化二分类数据集的分类,设计 Data-Shuffle 算法,将原始非平衡一维结构化数据转换为多通道非平衡数据,使原始的一维结构化数据能够适用于深度学习模型,提升分类模型的分类性能。通过改进的 VGG 网络构建适合非平衡数据的网络结构卷积组,以提取不同的特征。1本文算法1.1分类网络本文主要的研究对象是非平衡结构化数据集,在数据预处理阶段提出 Data-Shuffle算法,通过构建

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开