第30卷第4期北京电子科技学院学报2022年12月Vol.30No.4JournalofBeijingElectronicScienceandTechnologyInstituteDec.2022基于VAE-GAN算法的信用卡欺诈检测模型严嘉钰贝世之章乐北京电子科技学院,北京市100070摘要:信用卡欺诈检测数据集是典型的离群点分布极度不平衡的高维数据集,信用卡交易中被盗刷的交易占比非常小,但每一笔被盗刷的交易都影响重大。针对传统离群点检测算法难以学习到极度不平衡的高维数据集中离群点的分布模式,导致检测率低的问题,本文应用一种基于变分自编码器(VariationalAuto-Encoder,VAE)和生成对抗网络(GenerativeAdversarialNetwork,GAN)相结合的VAE-GAN算法进行无监督学习,算法首先将数据集输入VAE型生成器中进行训练,生成大量潜在的离群点,然后令判别器学习正常点与离群点的分类边界,最后将测试数据输入训练后的模型中,将离群值高的测试数据判定为离群点。在信用卡欺诈检测数据集上与现有的无监督学习所得结果相比,VAE-GAN在尽可能更多地检测出离群值的同时,尽量减少误判,AUC达到0.9581,Recall达到0.9118,ACC为0.9468,优于目前的最优模型,证明VAE-GAN算法在信用卡欺诈检测中的优越性。关键词:信用卡欺诈检测;变分自编码器;生成对抗网络;无监督学习中图分类号:TM344.1文献标识码:A文章编号:1672-464X(2022)4-70-81∗作者简介:严嘉钰(2001-),男,信息管理与信息系统专业2019级本科生。贝世之(2000-),男,通信作者,信息管理与信息系统专业2019级本科生。章乐(1987-),男,讲师,博士,主要研究方向:深度强化学习,理论计算机科学,计算机视觉。引言随着人们对美好生活需要的进一步提高,经济市场化程度不断提升,信用卡这一支付手段也日益普及,其为人们带来便利的同时,由伪造、冒用信用卡和伪装持卡人所造成的信用卡欺诈问题也为人民财产安全和市场交易秩序带来了严重危害,因而信用卡欺诈检测也成为亟需解决的主要问题。信用卡欺诈检测,本质上是一个分类问题,就是将信用卡消费行为分为有欺诈风险和无欺诈风险的两类,其重点在于对信用卡交易中的异常数据进行识别。近几年来,随着数据量和计算机计算能力的提升,越来越多的学者开始将机器学习方法应用于信用卡欺诈检测中。莫赞等人[1]针对传统单个分类器在处理不平衡数据中的局限性,提出对抗生成网络-自适应增强-决策树算法,即GAN-AdaBoost-DT。Zhang等人[2]研究出基于加权支持向量机的信用卡欺诈检测方法,通过加权支持向量机SVM算法,提高了异常数据检测性能。陈荣荣等人[3]采用XGBoost...