分享
基于税收数据的协同过滤推荐算法设计与实现.pdf
下载文档

ID:2641176

大小:1.33MB

页数:8页

格式:PDF

时间:2023-08-20

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 税收 数据 协同 过滤 推荐 算法 设计 实现
长沙民政职业技术学院学报Journal of Changsha Social Work CollegeVol.30 No.1March.2023第30卷第1期2023年3月基于税收数据的协同过滤推荐算法设计与实现张作玲123(山东经贸职业学院,山东 潍坊 261011)摘要:针对商品流通环节采购商与供应商信息不对称问题,采用现阶段主流的协同过滤推荐算法设计个性化推荐方案,为供应商匹配“资信良好”的采购商信息,为采购商提供“质优价廉”的供应商信息,有效沟通供求双方需求。文章首先介绍了基于税收数据进行协同过滤推荐算法设计的必要性,然后设计了基于近邻的协同过滤推荐算法,分别论述了基于用户的协同过滤和基于物品的协同过滤;为克服数据稀疏问题,进一步设计了基于模型的协同过滤推荐算法,通过隐语义模型构建User与Item的关联,详细阐述了基于用户相似度的IncrementalSVD推荐算法实现过程,丰富了个性化推荐的应用场景。关键词:个性化推荐;协同过滤推荐算法;隐语义模型;税收数据中图分类号:TP391文献标识码:A文章编号:1671-5136(2023)01-0117-08生产要素是资源,但资源却不一定是生产要素1。数据作为一种新型生产要素,其价值的释放在于通过分析挖掘技术建立起数据间的关联关系2,将数据资源转化为现实生产力。孤立静止的数据是没有价值可言的,税收数据尤其是增值税发票数据能够对纳税人的生产经营活动进行全链条、立体化的正向追踪和反向溯源,具有时效性强、覆盖面广、颗粒度细的优点,能够对纳税人的生产经营活动进行全链条跟踪,为基于协同过滤的个性化推荐奠定了数据基础。“金税四期”已经开启了“千人千面”个性化定制的道路,在决策指挥端“重大事项”模块,已经能够根据税务人员岗位、职务、偏好等数据进行差异化的信息资源推送,有效提高了工作人员信息获取的效率和质量。随着“金税四期”建设的深入推进,完全可以站在纳税人的角度,为纳税人提供“千企千面”的个性化定制服务,向纳税人推送其可能感兴趣的原材料供应商和潜在的商品采购商,一方面帮助采购商获取“质优价廉”的原材料,另一方面向供应商推送“资信良好”的潜在客户信息,在供应链环节实现优胜劣汰的生物进化,优化要素资源配置。基于此,本文运用协同过滤推荐算法设计基于税收数据的个性化推荐方案,将数据要素转化为现实生产力。1协同过滤推荐算法协同过滤利用了两个非常朴素的哲学思想:“群体的智慧”和“相似的物体具备相似的性质”3。从概率上讲,大多数人的决策要比单一个体的决策更为理性和高效。群体智慧便是通过共享集体智能,实现高效决策和结果优化。协同过滤在税务服务个性化推荐中的思想是:相似的物体具备相似的化学或物理结构,其在最终用途或性能方面也具有相似性。协同过滤包括协同和过滤两个环节。所谓协同就是利用群体智慧来做决策(推荐),类似于生物学的进化论,通过协同作用让群体进化到性能更佳的状态。对于税务推荐系统来说,就是通过纳税人的持续协同,为目标客户提供最符合其偏好的推荐组合。而过滤就是在可供选择的推荐组合中,根据目标客户行为偏好,确定最优的TopN进行推荐。基于税收数据的协同过滤推荐方案设计是通过群收稿时间:2023-02-15基金项目:山东省人文社会科学课题“山东省环境保护税的绿色创新效应评估研究”(2022-YYJJ-25);山东省社会科学规划研究项目“税收大数据赋能山东省产业链微循环的机制研究”(20CSDJ40)。作者简介:张作玲(1985),女,山东经贸职业学院副教授,博士研究生。E-mail:长沙民政职业技术学院学报2023年体的行为来找到某种相似性(既可以是纳税人之间的,也可以是标的物之间的),通过该相似性来做决策或推荐。协同过滤推荐算法分为基于近邻的协同过滤和基于模型的协同过滤4。其中,基于近邻的协同过滤又分为基于用户的协同过滤(User-based CollaborativeFiltering,简 称 User CF)和 基 于 物 品 的 协 同 过 滤(Item-based Collaborative Filtering,简称Item CF);基于模型的协同过滤又可以进一步划分为基于用户相似度的 Incremental SVD推荐和基于物品相似度的 Incremental SVD推荐。2基于近邻的协同过滤推荐算法基于近邻的协同过滤推荐算法是利用集体智慧的典型5。例如,当我们周末想去看电影,但又不知该看哪部电影的时候,通常会在微信朋友圈里问一句“朋友们,最近有什么好看的电影?求推荐”,并且在众多的推荐结果中,我们更倾向于与我们“志趣相投”的朋友们的推荐,他们的建议被采纳的概率更高,因为我们与朋友们拥有更多共同的兴趣爱好。基于近邻的协同过滤推荐算法基本思想是:如果纳税人 Taxpayer NO.1 喜欢商品 Goods NO.1,纳税人Taxpayer NO.2 喜欢商品 Goods NO.1、Goods NO.2、Goods NO.3,Taxpayer NO.3 喜 欢 Goods NO.1 和Goods NO.3,那 么 认 为 Taxpayer NO.1 与 TaxpayerNO.2 和 Taxpayer NO.3 相似,因为他们都喜欢 GoodsNO.1,而喜欢 Goods NO.1 的用户同时也喜欢 GoodsNO.3,所以把 Goods NO.3 推荐给纳税人 TaxpayerNO.1。基于近邻的协同过滤推荐算法前提假设是:纳税人的生产经营范围具有相对稳定性,相应其生产资料消耗也具有延续性,即纳税人以前经常采购某商品,其在未来对该类商品也具有偏好,不会随着时间推移而发生变化。因此,我们就可以根据纳税人历史采购记录,获取纳税人偏好的商品。同时,纳税人对某种商品的购买次数可在一定程度上反映纳税人对该商品优劣的评价。因为纳税人作为理性经济人,愿意从某公司重复采购某商品,可以在一定程度上说明该商品质量上乘且价格合理。本文以交易次数作为纳税人对商品进行综合评价的替代指标,并进行归一化处理,以20%为间隔,5代表交易次数最多的前20%的商品,1代表交易次数最少的后20%的商品,中间分别是4,3和2。假设纳税人Taxpayer NO.1NO.4与商品Goods NO.1NO.5之间存在如表1所示的历史交易行为,其中,“?”代表未发生过交易行为的商品。表1纳税人对某商品的综合评价纳税人商品纳税人:Taxpayer NO.1纳税人:Taxpayer NO.2纳税人:Taxpayer NO.3纳税人:Taxpayer NO.4商品名称:Goods NO.13253商品名称:Goods NO.2?535商品名称:Goods NO.35535商品名称:Goods NO.4?422商品名称:Goods NO.55234我们要做的是根据“纳税人商品”历史交易数据矩阵,计算纳税人 Taxpayer NO.1 对商品 GoodsNO.2 和 Goods NO.4 的潜在购买可能性,并向 Taxpayer NO.1推荐购买可能性较高的商品。本文用余弦相似度衡量纳税人间的相似性(User CF)以及商品间的相似性(Item CF),余弦相似度的计算方法如下:D(A,B)=a*b a*b=x1x2+y1y2x21+y21*x22+y22(1)2.1基于用户的协同过滤(User CF)基于用户(User-based)的协同过滤主要考虑的是纳税人和纳税人之间的相似度6。首先找出与目标服务对象纳税人A相似的纳税人群组B,然后分析群组中纳税人经常采购的物资名单,预测纳税人A对它们的评分,找到评分最高的若干个物品推荐给纳税人A。以表1中的数据为例,基于用户的协同过滤实现过程如下:第一步:采用余弦相似度衡量纳税人间的相似性,计算结果如表2所示:表2纳税人间的相似性TaxpayerNO.110.92920.89340.9942TaxpayerNO.1TaxpayerNO.2TaxpayerNO.3TaxpayerNO.4118张作玲:基于税收数据的协同过滤推荐算法设计与实现第1期TaxpayerNO.2TaxpayerNO.3TaxpayerNO.40.92920.89340.994210.822980.96010.8229810.90580.96010.90581(续表)TaxpayerNO.1TaxpayerNO.2TaxpayerNO.3TaxpayerNO.4提取与纳税人 Taxpayer NO.1 相似的 3 个纳税人Taxpayer NO.2NO.4 有 过 交 易 行 为 的 商 品 GoodsNO.1NO.5。因 为 纳 税 人 Taxpayer NO.1 对 商 品Goods NO.1、NO.3和NO.5有过交易行为,不需要重复推荐,只需要计算纳税人Taxpayer NO.1对未曾接触过的商品 Goods NO.2和 Goods NO.4的潜在购买可能性,并根据交易可能性的大小进行推荐优先级排序。方法是通过纳税人Taxpayer NO.2NO.4,建立起纳税人 Taxpayer NO.1与商品 Goods NO.2和 NO.4的联系。纳税人与商品之间的关系如图1所示。图1基于用户的协同过滤(UserCF)第二步:加权排序推荐。对纳税人i已经有过交易记录的物品的交易次数进行加权求和,权值为与纳税人i相近的n(n从1开始)个纳税人的相似度,然后对所有纳税人的相似度的和求平均值,计算得到纳税人i对商品g的潜在购买可能性,计算方法如下:纳税人对商品的潜在评分为:Pi,g=n N(i)Ti,n*Sg,nn N(i)Ti,n(2)Pi,g为纳税人i对商品g的潜在购买可能性,N(i)为与纳税人i相似的纳税人,Ti,n为纳税人i与纳税人n的相似度,Sg,n为纳税人n对商品g的评分。第三步:计算纳税人Taxpayer NO.1对商品GoodsNO.2与 Goods NO.4的综合评价并排序。纳税人 Taxpayer NO.1对商品Goods NO.2和Goods NO.4的潜在综合 评 价 分 别 为 4.3657 和 2.6598,所 以 相 对 于 商 品Goods NO.4,更应该向纳税人Taxpayer NO.1推荐商品Goods NO.2。2.2基于物品的协同过滤(Item CF)基于物品的协同过滤和基于用户的协同过滤类似,只不过在Item CF中,计算的是物品与物品之间的相似度7。例如当我们从电商平台购买了一本涉税服务实务方面的书籍,网站后续会向我们推荐税收法律法规、财务与会计等相关的书籍,这便是基于物品信息的协同过滤推荐。Item CF在为纳税人提供推荐服务中的应用是:首先根据纳税人的历史交易数据,确定纳税人偏好的商品信息,然后从商品库中筛选与纳税人偏好商品相近的商品组合,推荐与其偏好商品相关度最高的商品给他。基于物品的协同过滤计算步骤如下:第一步:采用余弦相似度衡量商品间的相似度。计算结果如表3所示:表3商品间的相似度GoodsNO.1GoodsNO.2GoodsNO.3GoodsNO.4GoodsNO.5GoodsNO.110.84480.84480.79470.9338GoodsNO.20.8448110.95670.9428GoodsNO.30.8448110.95670.9428GoodsNO.40.79470.95670.956710.8339GoodsNO.50.93380.94280.94280.83391根据纳税人Taxpayer NO.1以前有过交易行为的商品 Goods NO.1、NO.3 和 NO.5,计算纳税人 TaxpayerNO.1对商品Goods NO.2和Goods NO.4的潜在购买可能性,并根据可能性大小进行推荐优先级的排序。方法是通过商品Goods NO.1、NO.3、NO.5建立起纳税人 Taxpayer NO.1与商品 Goods NO.2和 NO.4的联系,如图2所示:图2基于物品的协同过滤(Item CF)119长沙民政职业技术学院学报2023年第二步:加权排序推荐。

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开