分享
2023年CART算法对航空公司客户流失的应用.docx
下载文档

ID:1254301

大小:15.67KB

页数:8页

格式:DOCX

时间:2023-04-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2023 CART 算法 航空公司 客户 流失 应用
CART算法对航空公司客户流失的应用 为了降低客户的流失造成公司的巨大损失,构建了客户流失模型。通过航空公司的客户信息、数据预处理、属性规约、数据离散化以及样本选取构建数据集,并利用CART算法进行客户流失的猜测,利用混淆矩阵和ROC曲线评估模型的性能,证明该模型的可行性和良好性,为航空公司开展持续改良的营销活动供给参考。 关键词客户流失;分类猜测;混淆矩阵;ROC曲线;CART算法 1引言 随着大数据时代的到来,航空公司把握隐蔽在数据的有价值信息成为猎取商机的关键因素,客户流失是造成公司利润损失的重要缘由。客户与公司保持的关系越良好,带给公司的利润就越高。但是不少客户成为新客户的同时,又有一大批的客户流失,一个老客户的关系维护比猎取一个新客户的本钱更小〔1〕。这就需要猜测的方法,如何在客户即将流失前有效地觉察,并对客户特征进行精确     的分析,从而关心营销部门确定可能流失的目标客户群体,制定有针对性的策略是关留意点。基于决策树建立航空公司客户流失模型,将具有不同特征的客户划分为不同客户类型,分析不同客户群体特征,为制定营销策略供给参考。 2预备工作 2.1客户流失类型 由于不同的业务所对应的客户流失的定义不一,这里对客户流失类型的定义:把客户类型MEMBER_TYPE分为三类。第一类:其次年飞行次数和第一年飞行次数的比例大于或者等于90%的客户为未流失客户,标记为0;其次类:其次年飞行次数和第一年飞行次数的比例大于或者等于50%小于90%的客户为准流失客户,标记为1;第三类:其次年飞行次数和第一年飞行次数的比例小于50%的客户为已流失客户,标记为2. 2.2猜测客户流失的重要性 获得新客户,一般需要在销售、市场、广告和人力等方面花费很多,然而大多数新客户白喉产生的利润往往不如流失的老客户。然而,在航空市场竞争日益剧烈的今日,航空公司在客户流失方面应当引起自购的重视,如何改善流失问题,进一步提升客户的满足度。忠诚度是航空公司保持自身核心竞争力的一大关键因素。因此,航空公司要做好客户流失猜测工作。 2.3CART决策树 决策树是由内部节点、分支和叶子组成一种树状结构。由根节点开头,叶节点结束。决策树在数据分类和猜测中是最简洁易懂的数据挖掘方法,同时也是一种特殊有效的分类算法。CART算法可用于分类和回归,相对ID3算法和C4.5算法应用更加广泛,目前已经成功应用于医学疾病猜测〔2,3〕、鱼种丰富度猜测〔4〕、客户流失分析〔5-7〕、土壤湿度分析〔8〕等多个领域。 3分析方法与过程 大数据时代的迅猛进展,使得公司客户数据呈数量级增长,如何快速并有效地开掘隐蔽在数据的价值,是公司必抓的重点之一。目前航空公司客户数据主要表现出为数据量大、属性多而余。由于客户信息包括了MEMBER_NO、GFFP_TIER、SUM_YR_1、SUM_YR_2等44个属性。从系统中直接抽取的数据不能直接表示客户的流失特征,需要对样本数据进行探究性分析与预处理,包括数据缺失值与特殊值探究行分析,数据的属性构造、清洗和变换等、对已完成预处理的数据进行建模,构建客户流失模型、评估模型性能、调用模型实现实时诊断,渐渐完善该模型。 3.1数据来源 从某个航空公司抽取了2023-04-01至2023-03-31的客户数据,共有62,988条记录,其中包含了44个属性,由于篇幅限制,给出局部属性名称以及说明如表1所示。 3.2数据探究性分析 原始数据中存在大量的缺失值与特殊值,需要分析数据的分布规律。数据探究结果如表3所示。原始数据中存在票价为空值,最小票价为0,最小票价折扣率为0,总飞行公里数大于0的状况。票价是空值可能是客户没有乘机记录,其他的可能是客户乘坐免费机票或者积分兑换造成的。原始数据中某些属性数据的取值范围差异比拟大,为了消退数量级数据造成的影响以及数据变换的属性取值分级,所以需要对数据进行离散化〔3.3.2小节提及〕。 3.3数据预处理 客户流失分析一般是针对老客户而言,这里定义飞行次数FIGHT_COUNT大于6次的客户为老客户。由于客户类型MEMBER_TYPE是由其次年飞行次数以及第一年飞行次数的比例确定的,那么第一年飞行次数等于0的记录不满足分母不为零的条件。觉察数据中存在缺失值,原始数据中存在票价为空值,最小票价为0,最小票价折扣率为0,总飞行公里数大于0的状况。由于原始数据量很大,这类数据占比比拟小,对于问题的分析影响很小,所以对这些记录直接删除,即删除票价为空的记录;删除票价是0、平均折扣率是0、总公里数大于0的数据。经过数据的简洁处理后,剩余数据是31,272条记录。3.3.1属性规约原始数据中包含了太多的属性,选取客户的关键属性。即需要选取与MEMBER_TYPE相关性比拟强的变量,计算不同的变量与MEMBER_TYPE的相关性。对原始数据集中数值型变量,通过双变量Pearson相关性检验来说明变量间的相关性。从44个属性中选取相关性比拟高的20个属性〔这里选取相关性确实定值大于等于0.13〕,如表4所示。其他属性对MEM8259;BER_TYPE的影响很小,可以无视不计,因此直接剔除。3.3.2数据变换数据变换目的是将数据转化成“适宜的〞格式,以便适应数据挖掘的需要。这里接受的是属性构造以及数据离散化,接受聚类算法的方式将除了客户级别、客户类型的其他属性分成3类。3.3.2.1属性构造为了降低属性的维度,通过原始数据计算以下指标。5〕综上,最终确定的数据属性个数为12,第13列为标签列。3.3.2.2数据离散化通过聚类算法将数据集进行离散化处理,每个属性〔除了客户级别〕分成3类,其离散表如表5所示。3.3.3样本平衡对于教育的数据,数据正负样本比例并非确定是相同或等比的才是样本平衡。这里最终得到的数据一共31272条记录,标记为0的数据未流失客户为17396,标记为1的数据准流失客户是7252,标记为2的数据已流失客户是6624,样本比例大致是:2.6∶1∶1,决策树正负样本比例最正确时1∶2.5〔9〕接近数据样本最正确比例,所以直接用数据进行教育以及测试。 4模型的建立以及实现 混淆矩阵是表示真实属性与识别结果类型之间关系的一种常用表达形式,也是评价分类器性能的一种常用方式。经过数据预备工作,预处理后的样本数据到达了建模数据质量要求,在此根底上直接通过PYTHON包含的Scikit_Learn利用教育样本构造CART算法决策树模型,建立客户流失猜测模型,默认叶子节点包含的最小样本数为2。选择10-fold交叉验证方式,即随机选择80%为教育样本,20%为测试样本,得到混淆矩阵,即可获得分类器的正确识别率和错误识别率。由图1可知,随机选择教育样本为25017,那么整体分类精确     率是〔14998+6012+2977〕/25017=95.88%。第一行说明,有12998个样本分类精确     ,占据99.04%,属于未流失客户,有141个样本被误判为准流失客户,有5个样本为误判为已流失客户;其次行说明,有6012个样本分类精确     87.23%,属于准流失客户,有675个样本被误判为未流失客户,有205个样本被误判为已流失客户;第三行说明有2977个样本分类精确     ,占据99.87%,属已流失客户,有1个样本被误判为未流失客户,有3个样本被误判为准流失客户。三类客户类型的平均正确识别率为95.88%,说明该模型效果良好。 4.1模型评估 受试者工作特性ROC曲线〔10〕反映了分类器正确的体积概率,其值越是接近1说明该结果越好。为了进一步评估模型分类的性能,用测试样本对其接受ROC曲线进行评估,一个优秀的分类器所对应的ROC曲线应当是尽可能的靠近左上角。由图2可知,该模型效果优良,对客户流失猜测是合理、精确     的。 4.2模型应用 航空公司客户流失分析的最终目标是要给公司的营销规划赐予指导,从以下几方面进行阐述。由于本模型接受历史的数据进行建模与猜测,对于新增的老客户信息,假设猜测结果与实际状况差异大的话,需要航空公司重点分析,查看实际的缘由以及确定模型的稳定性。假设模型稳定性变化大,那么需要重新教育模型。一般建议每隔半年教育一次〔11〕。整个客户流失分析的过程应当是一个可持续循环利用的过程。确定客户类型,特殊是准流失客户。可以通过客户流失概率来确定可能流失的客户,并对该客户群进行追踪与关心。会员级别的升级与保存。如今对于会员级别的管理,根本是大同小异的。在航空行业,一般要求客户在规定时间,如一年,累计到达相对应的飞行里程或单位里程票价,到达此要求后在有效期内〔通常为两年〕可进行会员级别的升级,以便享受更人性化的效劳。有效期结束时,依据确定的评价方式,对客户的级别进行调整。但是大局部客户往往不关注或者无法猎取航空公司对会员级别调整制度,而导致错过以至于对航空公司的不满而转向在其他公司消费。因此,航空公司可以在有效期结束之前对即将满足评价要求的客户进行提示以及实行相应的促销,如降低折扣,刺激客户消费。积分兑换。航空公司可以通过累计的飞行里程或单位里程积分来兑换免机票或者升级舱位,特殊是首次兑换,当到达航空公司的标准,首次兑换的力度往往会比其他营销活动力度要大。但是,航空公司也对客户积分的进行削减,一般会在年末进行清零,导致了很多客户好不简洁积累的积分白白损失,总是难以到达首次兑换的标准,造成客户的不满。可以对即将满足首次兑换的客户进行提示或者进行促销活动,积分兑换实际上在确定程度上实现了本钱转移,由于往往再次积分兑换的客户在本公司比在其他公司消费的可能性大。捆绑销售。增加与非航公司的合作,使得客户在其他公司消费的同时获得本航空公司的积分或其他福利。与客户的互动价值往往高于猎取新客户的价值,也避开了客户流失的利润直接损失。 5结束语 论文利用CART决策树算法结合航空公司客户数据进行客户流失分析,争辩航空公司客户流失的行为特征,利用属性构造等方式总结出客户流失的特征属性,依据CART决策树算法在航空公司的识别效果,接受ROC曲线进行模型评估,对客户进行建模分析能很好的猜测其流失状况,利用CART决策树算法进行航空公司客户流失猜测分析具有现实意义。 余思东 黄欣 单位:广西农业职业技术学院信息与机电工程系

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开