分享
《美团机器学习实践》_000017426147.pdf
下载文档

ID:2324991

大小:175.20MB

页数:323页

格式:PDF

时间:2023-05-07

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
美团机器学习实践 机器 学习 实践 _000017426147
仅供非商业用途或交流学习使用(主团技水丛书m圄要原刨美团算法团队。著美团机器学习实践美团Al+020智慧结晶机器学习算法落地实践涵盖搜索、推荐、风控、计算广告、图像处理领域由中国工信出版集团多人民邮电出版社仅供非商业用途或交流学习使用 美团算法团队由数百名优秀算法工程师组成,负责构建美团这个生活服务亘联网大平台的“大脑”,涵盖搜索、推荐、广告、冈控、机器学习、计算机视觉、语言、自然语言处理、智能调度、机器人和无人配送等多个技术方向,在帮助美团数亿活跃用户改善用户体验的同时,也帮助餐饮、酒店、婚庆、丽人、亲子等200多个行业的数百万商户提升运营效率。我们致力于通过算法和人工智能技术,帮大家吃得更好,活得更好。更多详情请关注微信公众号:meituantech。11:i hv费刊出6EU川剧iQO!.捕。仅供非商业用途或交流学习使用仅供商业用途或交流学习使用 仅供非商业用途或交流学习使用回国圄要原副美团机器学习实践仅供非商业用途或交流学习使用美团算法团队。著人民邮电出版社北京 仅供非商业用途或交流学习使用图书在版编目(C I P)数据美团机器学习实践美团算法团队著北京人民邮电出版社,2018.8(图灵原创)ISBN 978一7-115-48463-5I.美II.美III.机器学习一应用一网络营销凹F713.365.2中国版本图书馆CIP数据核宇(2018)第086804号内容提要人工智能技术正以一种前所未有的速度深刻地改变着我们的生活,引导了第四次工业革命。美团作为国内020领域领先的服务平台,结合自身的业务场景和数据,积极进行了人工智能领域的应用探索:在美团的搜索、推荐、计算广告、风控和图像处理等领域,相关的人工智能技术得到广泛的应用。本书包括通用流程、数据挖掘、搜索和推荐、计算广告、深度学习以及算法工程6大部分内容,全面介绍了美团在多个重要方面对机器学习的应用。本书非常适合有一定机器学习基础的工程技术人员和在校大学生学习和阅读。通过本书,有经验的算法工程师可以了解美团在这方面的做毯,在校大学生可以学习机器学习算怯如何在具体的业务场景中落地。仅供非商业用途或交流学习使用著美团算法团队责任编辑陈兴璐责任印制周异亮人民邮电出版社出版发行北京市丰台区成寿寺路11号邮编100164 电子邮件31 S 网址h忧p:/北京鑫正大印刷有限公司印刷开本:80010001/16 印张:20字数:450千字印数:I-4 000册2018年8月第1版2018年8月北京第l次印刷定价:79.00元读者服务热线:(010)51095186转600印装质量热线:(010)81055316反盗版热线:(010)81055315广告经营许可证:京东工商广登字20170147号 仅供非商业用途或交流学习使用序被邀请作为美团工程师的代表为本书写篇简单的序言,我深感荣幸。本书是一本关于机器学习和数据挖掘在真实的业务场景如何落地、如何发挥作用的书。它是美团的算法工程师们利用工作之余的时间,集体创作完成的。作者来自美团公司的各个部门,既包括负责用户画像、文本图像理解这样偏基础的研发部门,也包括广告、搜索以及推荐这样的产品研发团队。本书的写作内容和过程也充分体现了美团工程师团队的气质一一踏实务实,同时又热爱学习和分享。机器学习以及数据挖掘相关技术如今在美团公司内的几乎所有环节和场景都有应用,从直接关系到用户体验的搜索和推荐,再到提高配送人员效率的智能配送和调度算法,以及商家端的广告系统和智能选址等服务,甚至App的bug分类,这些你能想到或者不能想到的机器学习乃至人工智能相关技术都发挥了巨大的价值。当然,我们做的这些工作还远远不够,越是在020领域持续工作,我们越能感受到人工智能技术可能给这个行业带来的巨大改变和广阔前景。机器学习、运筹调度、IOT、AR、语音以及视觉感知等所有这些方向,都还有巨大的技术挑战和应用空间等着我们去突破,从而让人们“吃得更好,活得更好”。和传统的机器学习相关的理论教科书相比,本书侧重于这些理论如何在真实的业务场景落地,所使用的都是美团公司内的真实案例。这也是我们编写本书的初衷。我们注意到在这个人工智能技术成为中国的国家战略的时代,有很多卓越的国内外学者贡献了大量的机器学习和人工智能的理论书籍,但作为第四代工业革命浪潮的代表技术,其在各行各业内的具体应用案例和工程实践也同样重要,而这方面的书籍是相对较少的。希望我们在这本书中的分享能够起到抛砖引玉的作用,同时也能在这方面给广大读者带来一定的收获。最后,也非常欢迎对本书有任何建议或者意见的读者,联系美团技术团队。机器学习以及人工智能技术,一方面理论还在飞速发展,另一方面新的应用也层出不穷。作为这方面从业者的我们,尤其希望和大家产生交流和碰撞。我们深信,交流和碰撞是促使我们进步的动力。仅供非商业用途或交流学习使用张锦悲美团首席科学家 仅供非商业用途或交流学习使用目IJ言人工智能技术正以前所未有的速度深刻地改变着我们的生活,引导了第四次工业革命。在这次技术革命中,为了抢占人工智能发展的战略机遇,构筑我国在人工智能的领先优势,国务院制定了新一代人工智能发展规划,体现了我国政府对人工智能的高度重视。未来这个领域将迎来重大的发展机遇,同时也面临着巨大的挑战,这就对每一位人工智能领域的从业人员和有志于在这个领域发展的科技人员的技术水平和专业领域知识提出了更高的要求。机器学习是人工智能领域最重要的方向之一,它分为三个主要的研究领域:监督学习、非监督学习和强化学习。监督学习可以细分为分类和回归,它需要有样本标注,样本的质量和规模决定了模型的复杂度和效果,这也是为什么人工智能需要大数据作为支撑的重要原因。监督学习是目前应用最广泛的一种机器学习方法,比如我们常见的广告点击率预估、商品推荐、搜索排序等。非监督学习可以细分为聚类、降维等方向,它可以发掘在大量未标注数据中的规律。强化学习是智能系统从环境到行为映射的学习,以使奖励函数值最大,被认为是最接近人类的学习行为,在工业控制、机器人行为决策等领域得到广泛的应用。近年来深度学习的提出和普及,使得一些在传统的机器学习领域解决不好的问题得到极大的改善,比如图像识别ImageNet使分类的错误率已经缩小到原来的1/10,并超过了人类的识别准确率。深度学习是目前人工智能领域发展最为活跃的领域。大量的模型和理论不断地涌现,比如媒体常报道的机器画画就是GAN模型的应用。还有所说的机器作诗、机器写新闻,也是基于深度学习的RNN模型。深度学习已经完全统治了图像和语音识别的机器学习领域,井且在自然语言处理领域也在不断发掘新的应用。深度学习和强化学习相结合极大地影响了强化学习领域,采用深度网络来改造强化学习中的函数值拟合,取得了非常不错的效果,比如大名鼎鼎的AlphaGo和AlphaZero的本质都是深度强化学习的应用。深度学习领域现在还在迅速发展之中。反向传播是深度学习的根基之一,有几十年的使用历史。但是最近深度学习之父Hintonn于吁对反向传播保持怀疑态度,并提出了新的Capsule网络。传统的神经网络中,每一个神经元输入和l输出都是标量,而Capsule网络中是一个或一组向量,每一层之间通过迭代路由协议机制激活更高层的Capsule。这有可能成为深度学习领域的重大变革。美团作为国内020领域领先的服务平台,结合自身的业务场景和数据,积极进行了人工智能领域的应用探索。在美团的搜索、推荐、计算广告、风控、图像处理等领域,相关的人工智能技术得到广泛的应用,并取得了不错的效果。我们组建了算法技术通道,并制定了相关的课程体系仅供非商业用途或交流学习使用仅供非商业用途或交流学习使用2前主D 和分享机制。经过多年的努力,美团在人工智能和020的结合上,积累了丰富的经验。写作本书的目的之一就是与业界分享这些经验,共同推进AI+020的发展。本书分为6大部分,全面介绍了美团在多个重要方面对机器学习的应用。口第一部分是通用流程,包括第14章。这里讲述了机器学习解决实际问题的通用流程:如何分析问题,如何进行特征工程、常见模型的比较和选择,以及如何进行效果评测;最后还介绍了在各类机器学习竞赛中常用的模型融合技巧。口第二部分是数据挖掘,包括第57章。用户画像在业务上有着重要的作用,是个性化推荐排序的基础。曾经出现网上流传的百度内部截图、搜狗上市新闻为什么没有推荐给CEO的情况,解决这类问题的关键在于用户画像技术。这里详细介绍了美团在这方面的实践。实体链接是知识图谱和POI数据建设的重要基础,评论挖掘是UGC内容挖掘的常见应用,这里也介绍了我们关于UGC内容挖掘的做法。口第三部分是搜索和推荐,包括第810章。不同于全网网页搜索、垂直搜索和商品搜索,020领域的搜索排序有着自身的特点,面临的挑战也存在差异。本部分分享了关于搜索排序中常见的查询分析、用户意图识别、机器学习排序的做法和实践。推荐在020场景下有着非常关键的作用,最后对推荐部分也作了介绍。口第四部分是计算广告,包括第11章和第12章。计算广告是互联网目前主流的盈利模式之一,这里从广告设计的机制特点、定向方式、用户偏好、损失建模等方面,详细地介绍我们在这个领域的实践。口第五部分是深度学习,包括第1315章。这里介绍了美团在计算机视觉和自然处理领域的深度学习实践。深度学习在业务上的应用非常多,限于篇幅,我们主要分享了在图像分类、OCR识别、图像质量优化、情感分析、机器学习排序方面的应用。口第六部分是算法工程,包括第16章和第17章。机器学习算法要在实际应用中更好地落地,相关的工程也非常重要。这里我们主要介绍了在大规模机器学习、特征的生产和监控、模型线上效果实验和评测等方面的工作。本书并不是一本机器学习的理论教材,它的内容非常广泛,主要侧重工业界的业务实践。本书非常适合有一定机器学习基础的工程技术人员和在校大学生学习和阅读。通过阅读本书,有经验的算法工程师可以了解美团在这方面的做法,在校大学生可以学习机器学习算法如何在具体的业务场景中落地。本书内容涉及美团多个事业群的工作,得到了美团技术委员会、技术学院和算法通道的大力支持。非常感谢参与本书编写和校对的算法工程师们,你们平时的工作已非常繁忙,正是因为你们利用自己的休息时间辛勤地参与本书的编写和校对,无私地分享自己的经验和智慧,本书才得以完成。本书由陈华清统一规划、整理、主持编写。参与本书写作的作者还有易根良、陈振、石晓巍、聂鹏宇、由思聪、袁博、朱日兵、仙云森、周翔、唐金JiI、刘铭、曹浩、戚亦平、魏晓明、蒋前二.,.-n,J昌J程、付晴川、雷军、李彪、燕鹏、顾吴和王磊。本书从开始规划、斟酌内容、反复修改,到最终定稿,历时一年的时间。在此对参与写作的所有作者们表示诚挚的敬意和感谢。陈华清2018年5月目第一部分通用流程第1章问题建模.2 1.1 评估指标.3 1.1.1 分类指标.4 1.1.2 回归指标.7 1.1.3 排序指标.9 1.2 样本选择.10 1.2.1 数据去嗓.II1.2.2 采样12 1.2.3 原型选择和训练集选择13 1.3 交叉验证 14 I 3.1 留出法.14 1.3.2 K折交又验证.15 1.3.3 自助法.16参考文献。17 第2章特征工程.18 2 I 特征提取.18 2.1.1 探索性数据分析19 2.1.2 数位特征20 2.1.3 类别特征22 2.1.4 时间特征.24 2 1.5 空间特征252.1.6 义本特征.25 2.2 特征选择.27 2 2.1 过滤方法.282.2.2 封装方法312.2.3 嵌入方法31 录2.2 4 1J、结322.2.5 工具介绍.33 参考文献.33 第3章常用模型35 3 I 逻辑回归353.1.1 逻辑回归原理35 3.1.2 逻辑回归应用38 3.2 场感知因子分解机39 3.2.1 因子分解机原理 39 3.2.2 场感知因子分解机原理-40 3.2.3 场感知因子分解机的应用413.3 梯度提升树42 3.3.1 梯反提升树原理423.3.2 梯度提升树的应用44 参考文献.44 第4章模型融合.的4

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开