温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
LDA
模型
产品
服务
需求
识别
第 28 卷 第 1 期2023 年 2 月工业工程与管理Industrial Engineering and ManagementVol.28 No.1Feb.2023基于改进的LDA模型的产品服务需求识别黄琳,王丽亚*,明新国(上海交通大学 机械与动力工程学院,上海 200240)摘要:在线评论作为客户购后主要的信息分享方式,潜藏着大量的客户需求,LDA模型常被用来挖掘评论主题,以此导出客户需求。但客户对于产品服务的在线评论往往会与有关产品自身性能的评论混杂在一起,直接应用LDA模型会存在主题指代不明、关键词混乱的问题。本文提出了一种改进的LDA模型,该模型将根据客户-产品服务画像得来的先验知识整合进LDA模型中,以此来引导模型学习与产品服务相关的特定主题,进而使导出的产品服务需求更贴合实际需要且更具预测性。关键词:产品服务需求;在线评论;改进的LDA模型;主题挖掘;需求识别中图分类号:C 93 文献标识码:AProduct Service Requirement Identification Based on Modified-LDA modelHUANG Lin,WANG Liya*,MING Xinguo(School of Mechanical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)Abstract:Online reviews,as the main way of information sharing after purchase,are latent with a large number of customer requirements.The LDA model is often used to mine review topics to derive customer requirements.However,customers online reviews on product services are often mixed with reviews about the performance of the product itself,and the direct application of LDA model will cause problems such as unclear topic references and confusing keywords.A modified-LDA model was proposed,which integrated the prior knowledge obtained from customer-product service portrait into LDA model to guide the model to learn specific topics related to product service.So it can make the derived product service requirements more consistent with the actual needs and more predictable.Key words:product service requirement;online reviews;modified-LDA;topic mining;requirement identification1 引言 产品服务是指围绕产品提供的一系列服务活动,如产品维修保养、产品使用培训等,能帮助提高客户对于产品的满意度和忠诚度,增强产品的市场竞争力1。客户服务需求是所有设计的根本输入2,只有充分挖掘和理解了客户的真实需求,才能设计和提供令客户满意的产品服务。目前专门针对产品服务需求识别的研究较少,大多研究都集中于产品需求识别领域。现有文献中,SONG等3提文章编号:1007-5429(2023)01-0042-09DOI:10.19495/ki.1007-5429.2023.01.006收稿日期:2021-04-15基金项目:国家重点研发计划资助项目(2018YFB1402500)作者简介:黄琳(1996),湖北天门人,硕士研究生,主要研究方向为服务互联网理论与技术。E-mail:。*通信作者:王丽亚,教授,博士,主要研究方向为服务互联网理论与技术。E-mail:。-42第 1期工 业 工 程 与 管 理出了基于工业客户活动周期模型的产品服务需求识别方法,该方法包含了工业客户使用产品全生命周期的相关活动及涉及的相关利益方,用一种系统的方式帮助制造商探索价值链上潜在的服务机会。YAN等4利用层次或树形结构导出客户的产品服务需求,如产品服务需求属性层次结构、功能需求和拓扑结构等。张先燏5通过分析客户与产品的交互全过程,提出了基于系统工程与物元理论的产品服务需求识别方法。但这些方法均需要具备丰富经验的需求工程师团队来完成。王丹丹6结合内容分析法、结构化访谈法和问卷调查法对图书馆科学数据管理的用户服务需求进行了识别。这些方法的数据获取过程费时费力且获得的样本数量有限。在线评论作为客户购前重要的参考依据和购后主要的信息分享方式7,包含着大量的客户真实感受和购买使用体验。因此成为越来越多企业研究客户需求、把握甚至预测市场风向的重要渠道8。然而,产品服务是无形的,是与产品绑定在一起的,具有一定过程形,所以客户在对产品服务进行表述和评论时,会更加模糊和主观。此外,对于绝大多数产品,目前没有专门针对其产品服务的在线评论专区,普遍存在的情况是有关产品自身性能的评论与有关过程中产品服务的评论混杂在一起。因此,种种这些特性都使得基于在线评论的产品服务需求识别相较于产品需求而言更加困难。LDA(latent dirichlet allocation)模型9是一种无监督机器学习技术,常被用来识别大规模文档集中潜藏的主题信息10。LDA模型是根据词共现关系将文档集中语义相关的词分类到单个主题当中,进而确定文档主题,所以该模型的目标是最大限度地提高主题与词、文档与主题的契合概率,会更倾向于解释文档集中更明显共现的词11,而忽略那些在文档集中较少出现但又可能具有关键意义的词。因此LDA模型在主题识别过程中存在着一定的盲目性12,其识别结果也非常依赖于文档集的数量和质量。此外,LDA模型并没有提供工具来调优生成的主题以适应实际研究期望,所以常常导致识别出的主题结果难以解释13。若利用LDA模型处理前面所述的那类在线评论,会存在主题指代不明、关键词混乱的问题。表1是利用LDA模型对5 002条汽车产品在线评论进行处理后,输出的某一主题-词分布结果,可以发现10个词当中有7个是关于汽车本身轮胎质量的词,另外 3个词“电话”“救援”“客服”则是与道路救援服务相关的。这是因为单独针对道路救援服务的评论内容很少,但却会常常与汽车轮胎质量被同时提及,例如“汽车的轮胎质量不好,开了没几天就磨损严重,之后在一条没有多少坑坑洼洼的路上还爆胎,爆胎后给客服中心打电话,打了几次才接,救援速度也慢,非常耽误行程”。LDA模型识别到这些词会经常共现,因而将其归为同一主题。但是,这样的主题-词分布结果与预期不符,并不能有效区分和提炼出与产品服务相关的主题和词,从而导致客户真实的产品服务需求被遗漏。本文提出了一种改进的LDA模型CPSP-LDA 模型,该模型将根据客户-产品服务画像(customer-product service portrait,CPSP)得来的先验知识整合进 LDA 模型中,将其变成一种可选的半监督主题识别模型。CPSP-LDA模型能更深入地挖掘评论文档中的潜在语义关系,更针对性地从在线评论中识别与产品服务相关的主题和关键词,进而使导出的产品服务需求更贴合实际需要且更具有预测性,因此该模型非常具有应用价值和发展前景。本文剩余部分的安排如下:第 2 节介绍了CPSP-LDA模型和应用于识别产品服务需求的具体步骤,第3节通过实例验证了所提方法的有效性和实用性,第4节给出了结论。2 基于CPSP-LDA模型的产品服务需求识别 2.1客户-产品服务画像将传统的无监督的LDA模型变成半监督LDA模型,需要将少量的先验知识(如自定义的种子主题和种子词)整合进模型进行训练,以提高主题识别的有效性和准确性,因此种子主题和种子词的确表1利用LDA模型处理汽车产品在线评论的某一主题-词分布结果词轮胎电话概率0.041 90.021 8词爆胎轮毂概率0.035 00.021 7词鼓包救援概率0.029 00.019 7词磨损客服概率0.027 90.019 3词异常胎压概率0.025 60.018 3-43第 28 卷 黄琳,等:基于改进的LDA模型的产品服务需求识别定尤为重要。针对此,本文构建了客户-产品服务画像,如图1所示。由于客户与产品服务的整个交互过程中既涉及客户信息,也涉及产品服务信息,同时产品服务是具有一定应用场景的,所以该画像被设计为2大类3部分。其中,标签体系是基于当前在线评论平台的特点,对客户及产品服务定义的相关标签。关于客户的标签有:基础信息、身份信息、消费信息和评价信息。关于产品服务的标签有:基本信息、成交信息和被评价信息。标签体系应用场景是指标签体现在客户的各类需求7阶段的应用,这里基于产品生命周期的思想,将应用场景划分为4大阶段:售前阶段、售中阶段、售后阶段和重购阶段。基本上客户购买使用产品都会经历这4大阶段,所以该阶段划分具有通用性和普适性。各大阶段下细分的小阶段见图1。在这些不同的阶段,客户的产品服务需求千差万别,对相应服务的评价也会涉及不同的关键词。由此,借助客户-产品服务画像,结合所研究的产品服务的对象特征和实际需要,便可确定先验种子主题和种子词,表2所示的是针对汽车产品的部分种子主题和种子词。2.2CPSP-LDA模型文档生成算法本文提出CPSP-LDA模型文档生成算法,其图模型表示见图2。图2中空心圆表示随机变量,实心圆表示可观测变量(如词w),长方形线框表示循环执行过程,箭头指向表示条件依赖关系。模型中除了可观测变量外,其余变量都是未知的,需要根据已有知识进行推断,其中各参数名的说明见表 3。CPSP-LDA模型文档生成算法如下。图1 客户-产品服务画像表2针对汽车产品在线评论的部分种子主题和种子词示例种子主题123种子主题内容道路救援汽车金融汽车维护种子词事故、道路、救援、电话金融、保险、基金维护、美容、洗车、保养算法:CPSP-LDA模型文档生成算法1 对于每一个主题k,k=1,K 选择表示种子主题中各词的概率分布sk,skDir(s)选择表示结果主题中各词的概率分布rk,rkDir(r)选择参数k,kBeta(1,1)2 对于每一个的种子主题s,s=1,S 选择种子主题-结果主题的概率分布s,s长度为K,sDir()3 对于每一篇文档d,d=1,D 选择文档长度Nd,NdPoisson()选择一个长度为S的向量?d=(1d,Sd),sd 0,1 计算d=?ds 选择文档-主题的概率分布d,dDir(d)对于文档中的每一个词,i=1,Nd 选择一个主题zi,ziMult(d)选择一个参数i,iBern(i)如果i=1,则从种子主题中选择一个词wi,wiMult(szi)如果i=0,则从结果主题中选择一个词wi,wiMult(rzi)-44第 1期工 业 工 程 与 管 理CPSP-LDA 模型描述的文档生成过程为:首先,确定该文档的长度Nd,即文档中的总词数;然后,随机生成一个长度为S的二进制向量?d,表示该文档中包含有哪些种子主题,例如对于表 2 中的3个种子主题,向量(1,0,1)表示种子主题1和主题3中的词有出现在该文档,所以?d也是一个可观测变量;最后,通过文档-主题分布确定文档中每个词的主题,通过主题-词分布确定每个具体的词。而模型中种子主题和种子词的引入则可以有效改进主题-词分布和文档-主题分布,以引导模型学习