温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
OSS
域反诈
模型
应用
研究
OSS域反诈模型应用研究第22卷第2期2023年6月Vol.22 No.2Jun.2023湖南邮电职业技术学院学报Journal of Hunan Post andTelecommunication CollegeOSS域反诈模型应用研究唐燕*(中国电信股份有限公司湖南分公司,湖南长沙 410011)【摘要】为应对电信诈骗的隐蔽性和难防性,提出了一种基于运营商OSS域数据的反诈模型,目的是满足大众日益增长的电信诈骗防控需求。利用OSS域用户行为数据,结合电信网络诈骗行为特征,采用机器学习方法构建了一套网络诈骗洞察与防范软件,可实现对诈骗行为的有效识别。采用国内知名互联网信息安全平台数据进行交叉验证,结果表明该模型能够有效鉴别恶意用户,具有较高准确率,具有较强可操作性,为电信诈骗防范提供了有力支撑。【关键词】OSS;运营支撑系统;反诈模型;机器学习【doi:10.3969/j.issn.2095-7661.2023.02.008】【中图分类号】TP311.13;D631.2【文献标识码】A【文章编号】2095-7661(2023)02-0031-04Research on the Application of Anti-fraud Model in OSS DomainTANG Yan(Hunan Branch of China Telecom Co.,Ltd.,Changsha,Hunan,China 410011)Abstract:In order to deal with the concealment and difficulty of communication fraud,this study proposes an anti-fraud modelbased on operator OSS domain data to meet the growing demand for communication fraud prevention and control.This model usesOSS domain user behavior data,combined with the characteristics of network telecom fraud behavior,using machine learning methodsto build a set of network fraud insight and prevention software,to achieve effective recognition of fraud.The research uses the data ofdomestic well-known Internet information security platform for cross-validation.The results show that the method can effectivelyidentify malicious users and has high accuracy and strong operability,providing strong support for communication fraud prevention.Keywords:OSS;operation support system;anti-fraud model;machine learning近年来我国电信诈骗案件频发1,电信诈骗已经成为信息社会的一个难题,对公众财产安全和社会诚信体系造成了危害2,同时也给运营商形象带来了负面影响。基于这些现实问题,本研究拟采用大数据、机器学习等方法,研究面向网络诈骗的识别方法,有以下几个创新点:利用运营商OSS域数据作为反诈模型的输入,这是一种相对稳定、可靠、全面的数据源,可以有效提高数据质量、完整性、时效性等,提高反诈模型的准确性和实用性;采用机器学习方法构建反诈模型,可以自动学习和更新识别诈骗行为的特征和规律,有效应对电信网络诈骗的多样化、复杂化,提高反诈模型的智能性和灵活性;采用互联网信息安全平台的数据进行交叉验证,提高反诈模型的可信度和公正性。本研究与现有的反电信网络诈骗工作相辅相成,为电信网络诈骗治理提供了新的思路和方法,模型准确度高达 95%,12321 的投诉数量大幅下降,成效显著。1 数据驱动方法构建流程现有研究显示,大多数电信反欺诈模型基于业务经验规则,比如根据用户呼叫行为进行分析,基于手机号码特征等构建模型等。然而,这些研究忽视了数据源类型的多样性,可能导致模型的准确度降低。目前,基于数据挖掘的大数据分析方法已被大量运用于反诈骗领域,如采用决策树方法建立电信诈骗犯罪预测模型,并采用随机森林方法提高预测精度等。基于以往的研究,提出了一个基于OSS域数据的反欺诈模型,旨在通过数据挖掘收稿日期 2023-03-09作者简介 唐燕(1976),女,湖南长沙人,中国电信股份有限公司湖南分公司工程师,学士,研究方向:互联网信息技术。31湖南邮电职业技术学院学报第22卷和机器学习算法实现对欺诈用户的精准识别。新反欺诈模型的特色在于:1)充分发挥电信大数据的作用,以普通用户呼叫数据为依据,融合多种数据来源(如流量、位置、设备等),对其进行全面评价与筛选。2)在关联分析的基础上,利用逻辑回归算法构建欺诈用户识别规则。通过结合两种方法的结果,提高了模型的精度。3)由于欺诈用户与正常用户相比比例较小,正负样本比例极不平衡。该研究为了解决这个问题,采用了业内公认的网络安全平台来检验区别结果,把被标记为“骚扰/欺诈”的用户纳入模型的正样本,并不断优化模型性能。2 数据准备本节介绍特征筛选和数据处理的流程。其中,业务知识是挑选诈骗用户相关因素的依据。数据预处理是为了去除脏数据并进行欠采样,以降低极度不平衡数据的影响。提取重要特征和关联规则是为了确定分析要素。1)因素选取,包含运营商各市级分支机构网络运维管理经验及初步资料的统计分析指标。经过对电信诈骗电话的案例研究,发现电信诈骗电话的非正常表现有:非正常的通信流量,大部分都是零通信量;呼叫行为的不正常,其特点是呼叫地点集中,呼叫中心(主叫)数量少,呼叫基站集中;大量的漫游者呼叫,而欺诈的一方不拨打漫游者所在地区的电话用户;电话的频度很高,每一次打电话的人都很多。在此数据指标基础上,对移动电话用户的时间段话务进行了分析,选择了 LBS位置、主被叫频率度特征、通话时长特征、外呼终端(手机或猫池卡呼)特征、互联网流量特征等指标作为基本算子。2)通过对数据进行预处理,可以有效防止模型的过拟合,并增强影响因素的重要程度。在此过程中,原始因素进行了降维处理并生成了衍生因素,例如,主被叫占比、主叫接通率和主叫重复拨打率等。此外,null值和有逻辑问题的数据都要被处理,比如把 null值转化成0,然后从有逻辑问题的数据中取出。3)对非均衡的数据集合进行处理。本研究模型训练自学习过程中正样本只有0.01%(绝大部分为正常手机用户,诈骗分子数据样本少),这导致正向和负向样本极度不均衡。在此情况下,传统基于整体分类精度的方法往往侧重于“多类别”,导致小类别样本下的分类精度降低。最普遍的机器学习算法对于不平衡数据集不能很好地分析。因此,对正样本进行欠采样,从负样本中删除属于多数类别的样本,使正负样本比例达到1 1。4)特征提取。根据专家经验和相关的业务调研,对特征提取设置以下规则:一是高频率呼叫非特定对象,诈骗分子周期性、高频率地向群体(非特定对象)拨打电话,采用套路和话术逐步地获取受害人的信任;二是隐藏真实号码,诈骗电话会使用虚假或隐私号码,以避免被受害人追踪和发现;三是高危地区呼叫,诈骗电话往往会从高风险地区呼叫,如犯罪团伙集中的区域;四是时间集中呼叫,诈骗电话往往在特定时间段内集中呼叫,如节假日、深夜等;五是语音提示和自动回复,诈骗电话往往使用语音提示和自动回复来欺骗受害人,让他们相信自己正在与真正的机构或人员通话;六是涉及敏感信息,诈骗电话往往会涉及受害人的敏感信息,如银行卡号、密码等,以进行诈骗。3 建模过程本研究提取多个因素作为输入因素,包括主叫通话数、对端号码数、基站使用数等,这些因素能够反映出欺诈行为的特征,从而为模型提供丰富的信息。为了建立和训练模型,研究人员采用了逻辑回归算法,并且采用极大似然估计方法进行参数权重的估计,以提高模型的精确度和准确性。模型构建、迭代、应用如图1所示。采用Logistic回归算法和极大似然估计方法进行相关分析参数权重的估计。针对漫游到 CS、SN欺诈和SW欺诈三种情况,分别使用逻辑回归算法进行模型训练3,得到回归方程f1、f2和f3。计算函数f1的表达式为:f1=权重1主叫呼叫次数-系数1信令对端号码个数-权重2信令使用基站数-系数2同号码换终端次数+权重3漫游用户呼叫非漫游地号码次数+系数3流量-权重4主叫接通率-系数4主被叫占比+权重5拨打不同号码率-系数5(1)计算函数f2的表达式为:f2=权重 1同号码换终端次数+系数 1流量+权重 2主叫呼叫次数-系数 2信令对端号码个数-权重3信令使用基站数+权重4主叫接通率+权重5主被叫占比-权重6拨打不同号码率+权重7被叫通话次数-系数3(2)计算函数f3的表达式为:f3=权重1同号码换终端次数-权重2主叫通话次数+权重3被叫通话次数+权重4漫游用户呼叫非漫游地号码次数+权重5对端号码个数-权重32第2期OSS域反诈模型应用研究6流量+权重7主被叫占比-系数1拨打不同号码率-系数2(3)建立计算函数p来预测用户是否属于欺诈者,表达式为:p=exp(fx)/exp(f1)+exp(f2)+exp(f3)(4)其中,x=1、2、3,分别代表漫游到 CS、SN 欺诈和SW欺诈三种情况。通过综合利用关联规则以及上一阶段训练得出的模型运算结果,最终判定或预测用户是否为欺诈者。图1反诈骗模型构建、验证优化迭代、部署应用全过程图4 结果验证模型软件是数据分析的核心工具之一,可以通过算法和统计学来挖掘数据背后的规律,为反诈业务提供更加精准的决策支持。然而,模型软件的结果并非总是正确的,需要进行验证,以确保其准确性和可靠性。为了验证本模型软件的结果,研究过程中采取了交叉比对验证的方法,并引入了具有互联网公信力的第三方平台,如图2所示。通过12321平台中被举报欺诈的电话号码历史资料,来对天翼云、360、百度等三个互联网平台进行电话号码标注状况的调查,其中包括诈骗电话、广告宣传、房产中介、骚扰电话等。从对比的结果可以得出该模式模型的正确率与错误率。经比较后发现,模型运算结果集在各个互联网公信平台的数字标签中,交叉率为90%以上,效果明显。这说明模型软件在识别恶意号码方面的误差在可容忍范围内,可以启动下一步的模型软件部署和应用。图2模型运算结果与互联网公信平台交叉验证图33湖南邮电职业技术学院学报第22卷同时,为逐步求精,在初步结果验证的基础上持续优化和升级,迭代集成,研究过程中把模型软件分为两个版本,即当前DMP运用版(A版)和下一代实验室探索版(B 版)。对于 B 版采取以下方法:首先,增加数据量,加强数据的全面性和多样性。其次,逐步探索追加更复杂的算法和模型,提高数据挖掘的深度和广度。后续,引入机器学习和自然语言处理等技术来提高模型的准确率和精度。总之,在进行数据挖掘及分析时,验证工作非常重要。通过交叉比对验证等手段,数据分析结果的准确性和可靠性可以得到保证。同时,也需要不断优化和升级模型软件,以适应不断变化的诈骗技术、手段。5 模型上线模型部署到LT路由器的旁路服务器内,采用C+代码直接在物理机集群上运行,同时对接分光流量(行为分析系统)、NOC中心网管、MBOSS-B域信息,独立子网半物理隔离,信息安全满足等保二级标准要求,满足运营商网络安全规范要求、数据安全规范要求。模型软件自上线试运行以来,每日平均输出移动网络疑似诈骗用户约100个,模型查准率95%以上。试运行期间经过对疑似电信诈骗用户的累计监测,