温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
电信
客户
流失
预测
模型
客户流失是所有与消费者挂钩行业都会关注的点。因为发展一个新客户是需要一定成本的,一旦客户流失,成本浪费不说,挽回一个客户的成本更大。今天分享一个电信行业的用户流失分析案例。所以,电信行业在竞争日益激烈当下,如何挽留更多用户成为一项关键业务指标。为了更好运营用户,这就要求要了解流失用户的特征,分析流失原因,预测用户流失,确定挽留目标用户并制定有效方案。一、提出问题1、哪些用户可能会流失?2、流失概率更高的用户有什么共同特征?二、理解数据1、采集数据本数据集来自 DF,数据源地址:https:/ 7044 条数据,共20 个字段,介绍下各个字段:customerID:用户 ID。gender:性别。(Female&Male)SeniorCitizen:老年人(1 表示是,0 表示不是)Partner:是否有配偶(Yes or No)Dependents:是否经济独立(Yes or No)tenure:客户的职位(0-72,共 73 个职位)PhoneService:是否开通电话服务业务(Yes or No)MultipleLines:是否开通了多线业务(Yes、No or No phoneservice 三种)InternetService:是否开通互联网服务(No,DSL 数字网络,fiber optic光纤网络 三种)OnlineSecurity:是否开通网络安全服务(Yes,No,No internetserive 三种)OnlineBackup:是否开通在线备份业务(Yes,No,No internetserive 三种)DeviceProtection:是否开通了设备保护业务(Yes,No,No internetserive三种)TechSupport:是否开通了技术支持服务(Yes,No,No internetserive 三种)StreamingTV:是否开通网络电视(Yes,No,No internetserive 三种)StreamingMovies:是否开通网络电影(Yes,No,No internetserive 三种)Contract:签订合同方式(按月,一年,两年)PaperlessBilling:是否开通电子账单(Yes or No)PaymentMethod:付款方式(bank transfer,credit card,electroniccheck,mailed check)MonthlyCharges:月费用TotalCharges:总费用Churn:该用户是否流失(Yes or No)2、导入数据3、查看数据集信息三、数据清洗1、查找缺失值数据集中有 5174 名用户没流失,有 1869 名客户流失,数据集不均衡。2、查看数据类型TotalCharges 表示总费用,这里为对象类型,需要转换为 float 类型3、转换类型再次查找缺失值:这里存在 11 个缺失值,由于数量不多我们可以直接删除这些行4、处理缺失值5、数据归一化处理四、数据可视化呈现1、查看流失客户占比由图中结果可以看出,流失客户占整体客户的 26.6%。2、性别、老年人、配偶、亲属对流客户流失率的影响性别、老年人占比结果配偶、亲属占比结果可以看出,男性与女性用户之间的流失情况基本没有差异,而在老年用户中流失占比明显比非老年用户更高,在所有数据中未婚与已婚人数基本持平,但未婚中流失人数比已婚中的流失人数高出了快一倍,从经济独立情况来看,经济未独立的用户流失率要远远高于经济独立的用户。3、提取特征4、构造相关性矩阵5、使用热地图显示相关系数结论:从上图可以看出,互联网服务、网络安全服务、在线备份业务、设备保护业务、技术支持服务、网络电视和网络电影之间存在较强的相关性,多线业务和电话服务之间也有很强的相关性,并且都呈强正相关关系。6、使用 one-hot 编码7、电信用户是否流失与各变量之间的相关性由图上可以看出,变量 gender 和 PhoneService 处于图形中间,其值接近于0,这两个变量对电信客户流失预测影响非常小,可以直接舍弃。8、网络安全服务、在线备份业务、设备保护业务、技术支持服务、网络电视、网络电影和无互联网服务对客户流失率的影响由上图可以看出,在网络安全服务、在线备份业务、设备保护业务、技术支持服务、网络电视和网络电影六个变量中,没有互联网服务的客户流失率值是相同的,都是相对较低。这可能是因为以上六个因素只有在客户使用互联网服务时才会影响客户的决策,这六个因素不会对不使用互联网服务的客户决定是否流失产生推论效应。9、签订合同方式对客户流失率的影响由图上可以看出,签订合同方式对客户流失率影响为:按月签订 按一年签订 按两年签订,这可能表明,设定长期合同对留住现有客户更有效。10、付款方式对客户流失率的影响由图上可以看出,在四种支付方式中,使用 Electronic check 的用户流流失率最高,其他三种支付方式基本持平,因此可以推断电子账单在设计上影响用户体验。五、数据预处理由前面结果可知,CustomerID 表示每个客户的随机字符,对后续建模不影响,我这里选择删除 CustomerID 列;gender 和 PhoneService 与流失率的相关性低,可直接忽略。对客户的职位、月费用和总费用进行去均值和方差缩放,对数据进行标准化:使用箱线图查看数据是否存在异常值:由以上结果可以看出,在三个变量中不存在明显的异常值。查看对象类型字段中存在的值:综合之前的结果来看,在六个变量中存在 No internet service,即无互联网服务对客户流失率影响很小,这些客户不使用任何互联网产品,因此可以将 Nointernet service 和 No 是一样的效果,可以使用 No 替代 No internetservice。使用 Scikit-learn 标签编码,将分类数据转换为整数编码:六、构建模型1、建立训练数据集和测试数据集2、选择机器学习算法3、训练模型4、评估模型召回率(recall)的含义是:原本为对的当中,预测为对的比例(值越大越好,1 为理想状态)精确率、精度(precision)的含义是:预测为对的当中,原本为对的比例(值越大越好,1 为理想状态)F1 分数(F1-Score)指标综合了 Precision 与 Recall 的产出的结果F1-Score 的取值范围从 0 到 1 的,1 代表模型的输出最好,0 代表模型的输出结果最差。综上所述,在 10 种分类算法中朴素贝叶斯(Naive Bayes)的 F1 分数最大为63.31%,所以使用朴素贝叶斯模型效果最好。七、实施方案八、结论通过上述分析,我们可以大致勾勒出容易流失的用户特征:老年用户与未婚且经济未独立的青少年用户更容易流失。电话服务对用户的流失没有直接的影响。提供的各项网络服务项目能够降低用户的流失率。签订合同越久,用户的留存率越高。采用 electronic check 支付的用户更易流失。针对上述诊断结果,可有针对性的对此提出建议:推荐老年用户与青少年用户采用数字网络,且签订 2 年期合同(可以各种辅助优惠等营销手段来提高 2 年期合同的签订率),若能开通相关网络服务可增加用户粘性,因此可增加这块业务的推广,同时考虑改善电子账单支付的用户体验。最后,分享源码:https:/