温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
XGBoost
算法
商用
重复
购买
行为
预测
收稿日期:基金项目:中央高校基本科研业务费专项资金资助项目()广州市哲学社会科学发展“十四五”规划课题()深圳市哲学社会科学规划课题()作者简介:景秀丽()女辽宁营口人博士硕士生导师副教授研究方向:大数据文本处理电子商务等.辽宁大学学报 自然科学版第 卷 第 期 年 .基于 算法的电商用户重复购买行为预测景秀丽史明曦(.暨南大学 深圳旅游学院广东 深圳.圣路易斯华盛顿大学奥林商学院美国密苏里州 圣路易斯)摘 要:机器学习算法广泛应用于电商用户行为数据分析及商业预测.其中 算法作为一种常用的有监督机器学习算法能够实现电商用户行为特征最优选择与行为模型构建、评估消费价值、预测重复购买行为概率、提高商业决策的精准性与可行性.本研究采用阿里云天池大数据竞赛“天猫复购预测”所提供的“双十一”电商购物节关联数据集中约 万电商平台用户产生的 万条行为数据基于促销活动情境完成特征构造实现有监督分类学习.本研究实现了 算法的参数优化与数据特征值处理过程优化完成了促销活动后 个月内电商用户重复购买行为的预测模型演算.结果表明:优化后的 算法能够比较精准地预测电商用户重复购买行为、评估在线用户潜在购买价值、实现精准营销以及真正促进促销活动的长期投资回报率提高.关键词:算法集成学习特征工程重购预测精准营销中图分类号:文献标志码:文章编号:()(.):.“”.().:引言我国电子商务行业的发展历经二十多年在线零售市场不断创新和扩展推动了新经济业态的成长与进步.全球统计数据库的 年电子商务报告显示中国是目前世界最大和渗透率最高的电子商务市场.国内各大在线零售平台发展迅速在激烈竞争中为了吸引用户源和争夺市场份额积极探索促销活动形式与种类例如天猫淘宝的“双十一购物狂欢节”、京东的“”购物节等.多样化高频率的购物节给平台引流了大量新用户(促销活动中出现首次购买行为的用户)和短期高成交额.陈可旺分析促销作为一种短期刺激性工具虽然能够有效激发用户对特定商品服务进行立即购买的欲望但是电商平台更需要锁定长期持续的有效收益.等提出企业重视客户留存并且开发一个新客户所需的成本是维护一个老客户所需成本的 倍.陈龙研究表明电商平台及商家有必要确定哪些用户有可能转化为重复购买者并对这些潜在忠诚用户进行精准营销降低促销成本提高投资回报率.蔡一凡做了用户聚类和特征选择的在线购买行为研究.张李义等聚焦新消费者重复购买意向的预测研究.当前对用户重复购买行为预测方法主要有两类方法一是以/()、()/为代表的概率模型二是以决策树、逻辑回归、()为代表的机器学习模型.基于海量数据的机器学习算法为电商平台精准地把握消费者偏好需求、预测消费者行为、评估客户价值提供了有效分析方法采用数据挖掘技术能够运用多维变量进行预测结果更加客观真实.电商平台用户数据对象涵盖用户信息、商品信息、商家信息用户在网站上浏览商品时产生的一系列在线行为数据(如登录、点击、收藏、购买、评论、咨询客服等)并且实时在网站日志中进行同步构成了海量丰富的大数据集.通过对大数据集进行分析电商平台可以提取出用户的需求、偏好、购买能力等价值信息完成重复购买行为预测模型设计.消费者重复购买的预测问题转化为消费者是否将重复购买的分类问题运用机器学习中的分类算法进行有监督训练.例如 等基于()模型研究客户重复购买行为运用 算法和决策树算法对客户进行分类准确率超过了.相比单种算法构建的预测模型集成学习方法通过串行或并行的方式将多个弱监督模型进行组合可以进一步提高模型预测的准确性代表算法有随机森林算法和()算法等或运用多模型融合策略将不同类型算法训练出的模型以、等方法进行 第 期 景秀丽 等:基于 算法的电商用户重复购买行为预测 融合提高模型的准确率和泛化能力.胡晓丽等基于集成学习对用户重购行为进行预测引入“分段下采样”的方法解决类别不平衡问题并用 融合了、构建预测模型结果表明 方法能够带来.至 的()提升.吕泽宇等使用了 和 两种方法构建模型并用 进行参数搜索证明该方法只需少量特征即可达到较好的预测效果.基于先进的机器学习算法引入特征工程设计也是数据挖掘的关键技术之一.机器学习算法用于解决多个领域多个方向问题学习效果如何很大程度上依赖于特征工程中提取的特征是否真正贴合业务需要这一过程需要结合许多研究领域的专家知识.文献研究发现针对电商购物节后消费者重复购买行为预测研究不多通过提取特征值结合促销活动变量对消费者行为产生的特殊影响可构建更精准的重复购买预测模型.此外运用天猫大数据平台提供的公开数据集针对促销前和促销中的用户短期行为等数据维度提取更加详细的特征值运用 集成学习算法构建电商购物节后新用户重复购买行为预测模型提高预测能力.算法背景决策树算法在机器学习中常用于预测和分类是一种有监督的机器学习方法.在数据复杂的情况下使用单一决策树进行预测有时无法取得较好的效果.等认为可通过集成学习将弱学习算法提升为强学习算法.集成算法主要有 和 两类.其中 提升算法由通过构造多项式级算法率先提出验证 弱学习算法提升的思路其各个相互依赖的分类器串行根据预测能力的不同预测函数的权重也不同.陈凯等研究表明在训练的过程中增加对分类错误样本的学习权重在迭代中能够不断调整和持续提高准确度将各个基学习器进行加权集成输出最终结果.算法全称 由 等在经典 算法 的基础上改进提出在计算速度上表现优秀.的核心思想是采用向前分布算法每轮迭代产生的弱分类器都在上一轮迭代的残差基础上继续训练通过不断减小残差来实现回归和分类并将()分类回归树作为基学习器.算法的目标函数由损失函数和复杂度函数相加而成模型误差小更加简单可防止过拟合使用梯度提升法可使目标函数最小化.其目标函数在经过泰勒二次展开后可以简化为 ()式中:为叶子节点数 为学习率限制叶子节点个数 为正则化参数限制叶子节点分数为一阶导数为二阶导数.在每棵树选择特征进行分裂时 使用的是贪心法遍历特征计算每个节点的分裂收益选择增益最大的特征进行分裂:()()即用分割后的目标函数值减去分割前的目标函数值当增益大于 阈值时树才分裂这样目标函数在优化的同时也实现了预剪枝.当数据量极大时贪心算法十分耗费内存对此 算法还提出了一种近似搜索方法在难以精确搜索情况下运用全局近似或者局部近似选取候选分裂点再从中选择最佳分裂点结果同样具有准确性.通过调用 开发环境的 工具包进行重复 辽宁大学学报 自然科学版 年 购买行为的预测.数据采集与分析.数据集数据集来源于阿里云天池大数据平台“天猫复购预测大赛”的公开数据集.该数据集包含了 名匿名用户的基本信息以及他们在“双十一购物狂欢节”前 个月以及“双十一购物狂欢节”当天的交互行为记录和购物记录同时标记了这些用户在购物节后 个月是否有重复购买行为.数据集一共包括“用户信息表”“用户行为日志表”“用户 商家消费行为表”张数据表提供了“用户编号”“用户年龄范围”“用户性别”“商品编号”“商品类别编号”“商品品牌编号”“商家编号”“行为时间”“行为类型”个属性.数据初筛发现数据集的样本用户皆有过一次以上的购买记录且“双十一购物狂欢节”期间都有首次进行消费的商家.用户信息表和用户行为表包含了所有样本用户的相关数据.为满足模型训练及测试的需求天池大数据平台提供的数据集将样本用户分为数量相当的两部分并分别归入电商用户行为模型的训练集和测试集之中.其中训练集中的 字段已经完成对用户的标签化即标明用户在“双十一购物狂欢节”后是否会重复购买用于有监督学习对模型进行分类训练而测试集中的 字段表示预测用户是否在促销活动后重复购买在模型训练后对无标签对象进行预测.数据清洗.缺失值处理原数据集用户信息表中的(用户年龄范围)字段有 条缺失值、(用户性别)字段有 条缺失值缺失值在属性中占比较大使用均值替换法在已有数据中寻找缺失数据的最可能值.购买同一产品的用户群体往往具有相似的年龄和性别.对应数据处理流程包括:首先在用户信息表中获取缺失年龄或性别属性用户对应的(用户编号)通过这些 在用户行为日志表中寻找属性值缺失用户购买过的所有商品的(商品编号)其次在用户行为表中寻找购买过这些商品的其他用户的编号通过用户信息表得到这些用户的年龄范围或性别属性以此计算商品用户群的平均年龄范围或性别属性最后以所有已购商品的平均用户年龄和性别的平均值填补该用户缺失的年龄或性别属性.用户行为日志表中的(商品品牌编号)字段有 个缺失值但由于同一商家售卖同一类别的同一商品其品牌应当是相同的其中大部分的缺失值可以通过与(商品编号)(商品类别编号)(商家编号)进行匹配找回.数据转换在特征构造过程中需要按照时间进行数据提取而原字段“”时间戳以 标识如 月 日记为“”的 类型数据来记录用户在线行为发生时间无法进行数学运算因此在数据集成时对“”时间戳进行转换并添加一个 类型的新字段“”用来表示用户在线行为发生时间在从 月 日至 月 日这 的时间周期内所处的位置如将“”转化为“”将“”转化为“”这样就不必考虑每月天数之间的差异并可以按时间进行数据提取.特征工程特征工程即对原始数据进行一系列处理的工程最大限度地提炼出特征作为输入供模型和算 第 期 景秀丽 等:基于 算法的电商用户重复购买行为预测 法使用.特征工程是对数据进行理解、表示和展示的过程其在实际过程中要求尽可能地去除原始数据里的噪声提炼出更加高效的特征以供预测模型调用解决问题.高质量特征对于提高模型的性能和精准度有很大意义.特征工程需要结合多学科知识首先对电商用户重复购买行为的影响因素模型进行分析.用户自身属性方面徐鹏鹏构建结构方程模型研究用户重复购买电商品牌的影响因素认为客户的个人特征、质量关注、感知价值、网购依赖及购物满意度会造成影响.商品属性方面李海霞根据环境心理学理论和社会交换理论认为客户面对与商家在口碑、技术、人员、产品等服务接触时产生的刺激会对社会关系及经济关系进行是否满意和信任的考量从而决定是否重复购买.在用户与商家间的交互关系上经典的 模型通过客户最近一次的消费时间、消费频度和消费金额对客户价值进行衡量.针对电商行业特点李敏等在 模型的基础上加入客户对商品满意度和关注度的考量构建()模型对用户忠诚度进行分类.薛红松等验证了电商客户重购行为和商家商品销量和排名符合幂律分布重购行为倾向于在一定时期内集中发生且随着购买次数增加重购周期将缩短状态趋向稳定.由此可见当前针对电商用户重复购买行为影响因素的研究很多学者尚未将商家推广促销和电商平台购物节活动等纳入具体分析.促销刺激可以加速新用户与商家产生交互关系也增加了对新用户价值判断的难度.对新老客户重复购买意愿的不同特点卢美丽等考虑了购买强化效应并验证受此影响顾客购买次数可呈幂律分布或广延指数分布即可将客户分为易受促销影响的提升区顾客和已形成购物惯性的稳定区顾客.结合上述研究以及数据集提供的有限信息本研究将在特征提取时构建 大类特征即用户特征、商家特征、关系特征、促销特征.原数据集的可用特征维度较低因此在提取原特征之外还需要通过对原属性进行分割和结合构造出新的特征.商家特征考虑商家热度、口碑、产品对重复购买的影响用户特征考虑其人口特征、网购依赖度、网购信任度、稳定忠诚度交互特征考虑用户对商家的交互时间、交互频次促销特征考虑商家的促销力度以及用户的价格敏感度.如图 所示.图 特征工程设计.用户特征用户特征是对用户个人属性和购物偏好的描述包括人口特征、网购依赖度、网购信任度、稳定度会对其是否重复购买造成影响.多数研究者会从原始数据集的用户信息表中提取用户人口特征数据参照此方法本研究基于所用数据集中的用户信息表提取用户年龄和性别数据探究其对消费 辽宁大学学报 自然科学版 年 者的购买行为和购买偏好的影响作用即将上述两类数据属性作为原特征进行提取.网购依赖度则体现用户是否为电商平台的重度使用者主要考虑其活跃度和使用深度.用户行为日志表中记录了用户在促销活动前和促销活动中的 个月内在平台内点击、加入购物车、购买收藏的行为.用户各类行为频次越高登录天数越多说明其对平台越忠实具有更高的维护价值.因此可以从行为日志表统计出用户的点击总次数、加入购物车总次数、购买总次数、收藏总次数、登录总天数、购买总天数作为特征.另一方面相较于只在平台购买小部分类别产品的用户部分用户对平台使用程度更深运用平台满足其大部分购物需求有更高的重复购买可能性.可以据此统计用户购买类别总数、购买品牌总数、购买不同商品总数这几个特征.网购信任度代表用户对电商产品可靠性的认知以及对性价比的敏感度.一些用户属于冲动型消费者在电商平台上查询到喜欢的商品之后无需多做了解就能提交订单一些用户属于理智型消费者在选购商品时习惯货比三家争取最大可能以更优惠的价格买到性价比高的商品.通过用户行为日志表可以计算用户购买行为和非购买行为所有操作的比例即购买行为占比和非购买行为占比以及非购买行为的购买转化率计算公式为用户操作行为占比 用户某种操作行为总次数用户所有操作行为总次数()非购买行为转化率 购买行为次数各种非购买行为总次数()用户稳定度说明用户转移购买的难易程度.电商平台产品质量相对难以直接判断一些高稳定度用户在积攒购物经验找到自己满意的商家后会倾向于在该商家进行持续的购买以节省搜寻试错成本有更高的重复购买可能性.此处重复购买者指的是在某商家购买天数超过两天的用户可以对用户购买商家总数、用户重复购买次数、用户重复购买商家总数、重复购买率进行统计计算公式如下:用户重复购买率 所有重复购买过的商家所有购买过的商家().商家特征商家特征描述的是商家的形象和吸引力商家的热度、口碑以及产品特征会对重复购买决策造成影响.商家热度反映商家的客户及潜在客户数量商家的热度越高说明其吸引顾客完成订单的能力越强.可以构建出商家被点击总次数、被加入购物车总次数、被购买总次数、被收藏总次数等特征.商家口碑及其客户满意度是用户决定是否重复购买的关键因素.如果有更多用户在查看、加购、收藏商家商品进行多重信息搜集和产品比较后最终能够完成转化进行购买说明商家在信誉、价格等方面能够让顾客信任有较好的口碑这也将增加再次购买的可能性.据此构造商家的点击购买转化率、加购购买转化率、收藏购买转化率.此外购买者总数和重复购买者总数也是商家口碑的一个重要考量因素重复购买率越大说明其客户满意度越高.可构建的特征有商家购买者总数、重复购买者总数、重复购买率.重复购买率的计算公式是重复购买率 重复购买者总数购买者总数()商家产品类型和特点也会影响用户在店内重复购买的意向商家的产品种类越丰富越能吸引 第 期 景秀丽 等:基于 算法的电商用户重复购买行为预测 用户进行搜索.因此统计出商家种类总数、品牌总数、商品总数的特征将商家对用户吸引力进一步量化.交互特征交互特征描述的是每条记录中指定用户和商家之间存在的关系关系越强再次购买的可能性越大.关系强度可以通过最近一次交互行为的时间、交互频次体现.最近一次行为发生的时间越相近说明用户近期对商家越关注因此要计算用户最近一次与商家发生交互行为距离“双十一狂欢购物节”促销活动的天数.而用户对商品进行点击、加入购物车、收藏等操作的频次越高说明用户对商品和商家越关注可以构造出特定用户在特定商户中的点击总次数、点击总天数、加购商家总次数、收藏商家总次数等相关特征.用户单次在商家内部购买的商品数量会影响消费者与商家之间的关系深度用户对商家内的多种不同商品有购买意向会影响未来重购行为的发生概率.从用户行为日志表中可以构造出用户在商家的购买总件数、购买不同商品数、购买品牌数、购买类别数等特征.促销特征促销帮助商家吸引了更多新用户所以有必要针对促销构建特征帮助判断新客户重复购买的可能性主要观察商家的促销力度及用户的价格敏感度.当商家活动力度大时可能会导致短期购买量大涨但在活动后一段时间内客户由于反差过大而不愿再次购买.可以通过比较商家近期关注度与长期关注度进行观察构造商家促销月被点击次数、被加购次数、被购买次数、被收藏次数促销月被点击占比、被加购占比、被购买占比、被收藏占比特征.当用户价格敏感度高时在促销的驱动下可能会在短期内活跃度提高产生更多交互记录而促销结束后可能受价格影响不选择重复购买.对此可以在用户行为日志表中构造一些趋势特征来对用户的促销敏感度进行衡量如促销月用户点击、加入购物车、购买、收藏行为的次数以及这 种行为的次数在所有对应行为次数中的占比即用户促销月点击占比、加购占比、购买占比、收藏占比.最终一共提取了 类 个特征.促销月某行为占比 促销月(商家受到或用户进行)某行为次数(商家受到或用户进行)某行为总次数()通过对数据集直接分析构造出来的特征往往在取值范围上存在着较大的落差.如果某一特征的量级过大、方差过大很有可能导致该特征在模型训练时发挥主导作用从而使得其他特征失效.为了避免这一情况发生在模型训练之前对特征值进行均值归一化处理使所有特征值呈服从均值为、标准差为 的标准正态分布.运用 中 包的 完成这一操作.模型构建训练与预测.模型构建.样本划分与比例调整通过 程序中的 包和 包对预测模型进行构建与训练.运用 算法进行有监督训练.阿里云天池大数据平台“天猫复购预测大赛”数据集提供了带有用户分类标签的训练表一共包含 条数据数据量较为充足可以按照标准形式将样本划分为训练集和测试集比例为.样本数据中的正样本即重复购买用户样本为 条负样本即非重复购买用户样 辽宁大学学报 自然科学版 年 本为 条.样本数量正负样本比例约为 数量差距较大存在类别不平衡的问题.严重的类别不均衡在机器学习的过程中可能会导致模型倾向样本数量多的类别引起过拟合问题影响模型预测结果的准确性因此通过一定的采样策略保证模型训练时正负样本比例协调.的 包为解决数据类别不均衡的问题提供了方法.如果只考虑模型的()、召回率指标而不关心样本为某一类别的概率大小可以通过将 参数中的“”设置为数据负样本数量/正样本数量为比例小的样本赋予更大的权重改变样本在训练中的贡献减弱类别数量不平衡的影响即将“”的参数值设置为.参数设置 程序中的 包对学习目标参数 设置指定分类器训练情况的输出指标再调用 包中的 选择整个模型需要输出的评估指标.一共有通用参数、参数、学习目标参数 类.)通用参数对模型宏观功能进行控制.决定的是迭代所用的模型有树模型和线性模型本实验使用的是树模型.决定运行时是否输出信息默认值 输出.决定运行时使用的线程数默认值为 代表自动获取最大值.)参数用于控制每一步(树或回归)的生成如表 所示.即学习率决定每次迭代的收缩步长参数值越大越难以收敛因此将参数值设置为偏小值.提升学习过程的精细化.为最小叶子节点样本权重和当一个叶子节点的样本权重总和小于该参数值时则停止分裂取值范围为 )取值越大越保守可以防止过拟合默认值为.为树的最大深度该值越大模型则越复杂越容易导致过拟合默认值为.控制构建每棵树时采用的样本比例可以防止过拟合取值于(之间此处设为值.控制构建每棵树时随机抽取的特征占比取值于(之间此处设为值.指的是节点分裂要求的最小损失函数减少值参数越大越能避免过拟合默认值为.为控制复杂度的权重的 正则化项参数值越大越能避免过拟合可以加快高维度数据的运算速度此处设为值.可在类别样本数不平衡时加快算法收敛速度此处设为值.表 参数初始值设置参数名参数值.)学习目标参数确定模型学习目标.确定需要被最小化的损失函数由于研究的问题是二分类问题并要求以概率的形式输出结果因此将此参数设定为:即二分类回归.定义的是分类器的评估指标可以同时添加多种指标此处添加常用的、(负对数似然函数值)、(二分类错误率).为随机数种子该参数值能使随机数据复现此处设置为.模型训练.初始参数训练 包中的.()用于对分类器进行训练参数主要包括、()、.指的是被训练的数据.指的是 第 期 景秀丽 等:基于 算法的电商用户重复购买行为预测 循环迭代的次数首次将迭代次数设置为 后续观察情况再进行调整.()以列表的形式对模型训练过程中需要输出评估指标的元素进行设置如设置 ()可以在训练中查看训练集的学习效果.指的是早停次数当指定的训练指标在该参数设置的次数内没有得到提高将自动停止运行防止模型过度训练并返回一个不一定是最好的迭代次数此处首次参数值设定为 后续根据具体情况调整.使用初始参数对模型进行训练模型在迭代第 次时因为指标没有明显的提升而停止了训练说明初始设置的 次的训练次数过多后续应该设置更小的值.运用 包中的 输出评价指标 值为.还可以通过参数调整进一步提高输出评价指标程序和参数调整如图 所示.图 初始参数评价指标值.参数优化 模型的优化主要通过调整参数完成采用先粗略调整后精细调整的方法.影响训练表现的参数主要有、.各参数选择范围和过程如下:)首先选择一个比较高的学习率初始值.是一个默认常用的初始学习率在此基础上调节循环次数即训练中的分类器个数.尝试不同的分类器个数选择出最优参数如表 所示.测试可知当学习率为.时分类器个数设定为 时表现最为理想.辽宁大学学报 自然科学版 年 表 参数调整.)在确定分类器个数之后对 类参数进行调优.由于 和 对结果影响较大首先对这两个参数进行调整如表 所示.表 与 参数调整.经过遍历搜索得到当 时模型表现最为理想.)接下来对 参数进行调整.在尝试将 参数值设为 后发现该参数对模型表现无明显影响因此将 取为默认值.)再对 参数和 参数进行调整.经过搜索可知 .时模型表现最为理想.表 调整后的参数设置参数名参数值./图 参数优化后的 曲线)接着对 进行调整调整后可知当.时模型表现最为理想.)最后将学习率降低使学习更加精细同时增加分类器个数.将学习率定为.再下调至.经过观察可知将学习率下降后模型表现是有提升的最终将学习率下调至.当模型学习率为.分类器个数为 时表现最好.经过调整后模型的参数设置如表 所示.结果分析经过参数调整后最终使得模型的 值达到.曲 线 如 图 所 示.特 征 工 程 和 算法在有限的条件下达到了比较理想的效果.使用的 个特征在模型训练中的重要程度不同 中的 包可以查看各特征在模型训练中的贡献从而提示对所研究对象具有较大影 第 期 景秀丽 等:基于 算法的电商用户重复购买行为预测 响力的因素.对预测模型贡献最大的 个特征如表 所示.数据结果表明:第一平台商家产品的回购率用户从浏览商品到购买的转化过程以及用户本身活跃度等特征会对预测结果有更大的影响.第二用户在临近购物节时的在线交互行为是否与无促销时的行为有较大差异也对重购可能性有很大影响.表 特征重要程度排名排名特征名称特征分数 商家重复购买率 用户十一月非购买行为占比 用户购买行为占比 用户点击行为占比 用户在商家的总点击数 商家十一月被购买占比 商家加购 购买转化率 商家点击 购买转化率 商家总商品数 商家收藏 购买转化率 商家十一月被收藏占比 用户十一月点击占比 商家十一月被加购占比 用户总点击数 商家十一月被点击占比.模型预测将分类模型训练好之后可以导入没有标签的数据进行验证以概率形式预测无标签用户的重复购买行为.基于原始提供的无标签测试集 提取相同的特征集成特征表进行标准化处理并导入已经训练好的模型中进行预测得到的结果是用户在购物节期间首次购买的商家重复购买的概率模型预测结果数据如表 所示.表 重复购买行为预测 .将结果提交到大赛官方网站后 模型得分为.在 支参赛队伍中排名 名模型的预测效果比较理想.结语研究选取阿里云天池大数据平台“天猫复购预测大赛”的公开数据集以天猫平台的用户样本数据完成了用户促销活动后重复购买行为的预测设计与 算法优化实践.本研究对 万条数据进行清洗和组织对用户重购行为特征集构建并对特征值进行均值归一化处理基于特征集进行预测模型的训练与测试.研究结论包括:第一基于数据特征优化构建后的 算法运行有效提升电商用户重复购买行为预测模型的准确度同时基于优化参数调试在数据质量有限的情况下可以达到.的 值有效提升电商用户重复购买行为预测模型的总体性能表现.第二研究模型完成了特征贡献值的优化排序检验了促销前短时间内的行为变化对用户重复购买行为的影响作用以及证明了特征工程设计对模型预测结果的影响效果同时完成了用户重复购买行为预测模型的特征提取路径优化设计与实践检验过程探索.下一步工作 辽宁大学学报 自然科学版 年 将采集实效性更强的真实商业环境数据探索数据缺失值更有效的填充方式进一步丰富特征工程的数据维度等.参 考 文 献:陈可旺.在线促销方式对消费者购买意愿的影响研究.市场周刊():.():.陈龙.基于机器学习方法的用户复购行为预测.天津:南开大学.蔡一凡.基于用户聚类和特征选择的在线购买行为预测研究.武汉:华中科技大学.张李义李一然文璇.新消费者重复购买意向预测研究.数据分析与知识发现():.王子君梁峰.基于/模型的客户购买行为预测.中国市场():.夏子涵.基于数据挖掘的用户重复购买行为预测研究.大连:大连理工大学.张震.基于机器学习算法的重复购买行为预测研究.重庆:重庆工商大学.:.:.胡晓丽张会兵董俊超等.基于集成学习的电子商务平台新用户重复购买行为预测.现代电子技术():.吕泽宇李纪旋陈如剑等.电商平台用户再购物行为的预测研究.计算机科学():.():.():.陈凯朱钰.机器学习及其相关算法综述.统计与信息论坛():.:/:.:.徐鹏鹏.电商自营品牌重复购买行为与影响因素分析.商业经济研究():.李海霞.电商服务接触对消费者重购意愿的影响:以生鲜为例.商业经济研究():.李敏张玉莹于欣雨.基于聚类分析的电子商务客户忠诚度研究.哈尔滨商业大学学报(自然科学版)():.薛红松苏国伟张李义.基于数据挖掘的客户复购行为分析.武汉大学学报(工学版)():.卢美丽叶作亮曹翠珍.在线零售市场顾客重复购买行为建模与实证研究.软科学():.(责任编辑 郑绥乾)第 期 景秀丽 等:基于 算法的电商用户重复购买行为预测