温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
行业
数据
AI
实战
阿里云实时计算MaxCompute 开发者交流钉钉群DataWorks 开发者交流钉钉群扫码关注阿里技术扫一扫二维码图案,关注我吧直播行业混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践 4多媒体行业基于 MaxCompute 的媒体大数据开放平台建设 10 基于实时计算(flink)打造舆情分析平台新华智云 16新零售行业MaxCompute 助力衣二三构建智能化运营工具 22物联网行业塑云科技:性能突破,基于 KafKa+OTS+MaxCompute 完成了 一次物联网系统技术重构 29金融科技行业交易数据清算从 8 小时缩至 1.5 小时,飞天大数据平台 MaxCompute 解决余额宝算力难题 33社交行业小打卡:基于 MaxCompute+PAI 的推荐算法实践 37小打卡:快速部署大数据计算平台实践 42基于 MaxCompute 搭建社交好友推荐系统 49发光的二次元克拉克拉上云实践 58家居服务行业万师傅大数据体系实践案例 68互联网行业基于实时计算(Flink)的商场实时客流分析系统上海鸥新 74泛娱乐行业基于 MaxCompute 构建 Noxmobi 全球化精准营销系统 78目录混合云模式下MaxCompute+Hadoop混搭大数据架构实践张龙斗鱼大数据高级专家简介:2019 杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以“混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践”为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。斗鱼大数据架构发展历程在 2014 年中期,斗鱼就开始使用大数据,最开始使用的是简单的 HBase 和Hadoop。在 2015 年,开始使用 CDH 运维大数据集群,主要针对可视化运维。在2017 年的下半年,斗鱼开始接触阿里云大数据的一些产品,并且与其他产品做了对比。最终选择了阿里云的 MaxCompute。Apache Hadoop 阶段由于业务场景比较简单,组件较少,并且使用的人也少,但可以灵活的操作,同斗鱼斗鱼是非常关键的。其次是如何保持数据同步,是因为云上云下存在着海量数据。最后,因为云下存在大量的历史业务,那该如何将业务安全迁移到云上也是一个问题。如何保证数据安全?对于数据丢失的问题,阿里使用原始数据进行备份,这是很关键的。对于核心数据泄露问题,几率是很小的,因为泄露数据之后所要承担的风险远大于打败竞争对手所提供的收益。对于云环境面向外网,如何保证安全访问的问题,可以增加账号访问IP 白名单及审计,设置公司内部才可访问。如何保持数据同步?由于每天会产生 PB 级历史数据和 TB 级数据增量。如何快速准确同步数据问题,可以使用数据同步工具,主要是基于 DataX 的改造。同时提高网络专线能力,增加多根专线,自动地进行异常切换,与云上平台业务进行隔离。利用数据校验工具,校验数据同步任务以及数据量。如何安全迁移业务?业务的安全迁移需要做到三个要求:1.不能引起故障,保证迁移可行性验证。2.迁移成本不能太高,业务侧尽量少改动。3.能上云也要能下云,尽量保证云上云下操作一致性。为了做到不引起故障,要做到三个需要:需要做业务场景测试,保证业务场景全部覆盖到,并且能够识别能够迁移的业务场景。需要数据质量检验,确保相同业务云上云下产出数据的一致性。需要数据效率验证,确保云上任务数据产出时间,同时不影响业务。如何保证较低的迁移成本?斗鱼在 IDC 中运行的任务主要分两部分,第一部分是 Java 任务,占比很小,特点是基于封装的 HiveClient 工具进行查询计算。第二部分是 XML 配置化任务,特点是基于自定义 XML 文件,支持 HiveSQL 统计后导入其他存储。针对这些任务的特点,斗鱼也做了相应的改造。针对封装 OdpsClient,可以将 HiveClient 改成 Odp-斗鱼斗鱼一些变化,包括提前半年或一年提预算变成按量付费,采购耗时 1 到 3 个月变成资源可以无限使用,机房上架 1 周以上变为无机房概念。相比于 IDC 自建集群,MaxCompute 每年大概节约 1000w 成本,保障集群零故障。同时也有一些附加的收益,包括阿里云的专业服务,当遇到技术问题时可以请教阿里的专家来帮助解决,以及计算资源可以量化,可以知道钱花在哪些业务了,以及与阿里专家交流,帮助解决业务难题。在自建机房时,斗鱼也做了一些开发,下图所示为数据开发,包括基于 Hue 的查询计算和云上的 DataStudio 数据开发,然后将 Hue 的 API 和 DataStudio 的API 集中起来形成斗鱼的大数据开放平台,作用是可以提供给数据部门的人使用,也可以提供给业务部门的分析人员使用。斗鱼9此外,斗鱼也做了一些实践,称为多活数据中心,如下图所示。斗鱼通过确立自建机房的数据和阿里云数据在这两个数据中心的角色,保证可以在多活数据中心的状态下支撑更多的业务。混合云带来的变化总结起来,资源成本和资源效率是最大的两个变化,还有可量化的成本、增值服务、额外的专业服务等,不仅可以给我们自己部门人员用,还可以给其他业务部门的人来用,并且他们对使用成本也是直接可见的。以上就是我今天的分享,谢谢大家。基于 MaxCompute 的媒体大数据开放平台建设李金波新华智云首席数据官摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于 MaxCompute 做媒体大数据开放平台建设。本次的分享主要围绕以下五个方面:一、关于新华智云二、数芯-媒体大数据开放平台三、媒体大数据平台能力四、Project 依赖五、几点小提示一、关于新华智云新华智云是新华社与阿里巴巴合资成立的一家公司,主要面向运用大数据和人工智能技术,致力于为媒体行业赋能。随着自媒体的发展,自媒体公司非常的火热,如今日头条,抖音等。对传统媒体来说,面临着巨大的压力和挑战。传统媒体急切的希望互联网的技术帮助他们赋能。媒体大脑-数芯媒体大脑是新华智云底层的产品品牌,数芯是媒体大脑基础的数据平台。数芯定新华智云新华智云版权检测,传播分析等能力。媒体数据特征媒体大数据有三大特征,第一,媒体数据是非结构化性非常强。与传统行业数仓最大的区别是媒体行业 90%以上数据都是非结构化的,如文本,图片,视频等等。第二,数据来源多样性。媒体行业数据有多种外部的数据源,它们有不同的数据提供的方式,提供不同的数据能力。所以必须要有强大的数据汇总能力才能将所有数据汇总在一起并服务好下游客户。另外,数据效性要求非常高。媒体行业天然追逐新闻热点,假如知道一个事件是潜在的热点,媒体希望第一时间对热点进行追踪,报道和解读。媒体机构希望通过数芯平台,能够最快的发现互联网上发生的事情,发现热点之后以最快的方式,将结构化后的数据给到用户。批流处理结合基于媒体行业数据的特征,数芯平台采取批,流结合的方式解决目前客户和业务场景对数据的要求。批指的是大量的计算,基于平台特征完成复杂的模型,算法训练,长周期计算,文本实体识别,文本挖掘,借助批量的能力解决数据更深度,更大规模的加工。流指的是流式的计算,完成数据的清洗,结构化,轻计算和实时统计。出来一篇新闻,在整个新闻流传的过程中实时的将信息处理好。目前数芯整体的流计算大概需要 300 毫秒,即一篇新闻从源头过来,存储到平台,服务化出去中间需要经过 300 毫秒的时间。批流结合的数据架构数据从不同数据源过来,如 API,OTS,ROS,log,file 等,一方面数据要在实时计算当中做 URL 去重,正文结构化,标记来源,垃圾识别,实体识别和轻度的实时统计。另外基于 MaxCompute,利用 DataHub 将数据存储在批处理平台中,由于流计算本身不做持久化存储,所以所有数据都将存储在 MaxCompute 上。数据存储之后做主题建设,关系挖掘,知识图谱计算,算法训练。通过批流结合的的处理新华智云新华智云很多品牌会瞄准自己的竞争对手,调整品牌战略,实体关系图谱对很多公司品牌运营的推广有很大的帮助。情感分析情感分析也是媒体大数据平台中比较通用的能力,当一篇新闻出来之后,用户需要知道是情感上褒义还是贬义。信息数量少的信息可以人工判断,但是如果每天有上千篇,上完篇的内容就无法通过人工来判断。媒体行业的情感分析与学术上的情感分析有差异。目前,自媒体出来之后短文本的内容越来越多。短文本的情感分析和长文本的情感分析不同,以往都是采用同一个算法实现情感分析,但发现效果并不好。现在,数芯将情感分析场景分开,微博短文本的情感分析用 Word2vec+LSTM,新闻类的长文本的情感分析用 Word2vec+CNN+RNN。分开之后发现每一类情感分析的效果都有所提升。内容去重内容去重是媒体大数据平台非常重要的一部分。去重能力是对于常见的新闻摘录,编辑,删减有准确的判重能力。一篇新闻并不是只由一个人写,它会被很多机构和渠道所转发。如何知道一篇新闻在哪些渠道被转发,其实就是通过去重的方式实现的。通过从大量的渠道汇集数据后,平台需要比对一篇新闻与之前哪篇新闻相似,通过相似度的比对得到结果。最早的时候,去重是基于关键词进行比对,数芯采取关键词和语义,两种方式比对,去重效果明显提升。内容去重可以用于新闻的热度计算,新闻数据顾虑清洗,文章版权追踪等业务场景。内容标签化搜索引擎可以用来搜索新闻,通过关键词和文章的匹配度来决定这篇内容是否推荐给用户。但纯搜索的方式已经满足不了用户家的需求。今日头条之所以成功,是因为它基于新闻和用户的习惯推荐内容。内容标签化就是通过机器的方式理解新闻,理解新闻与哪些信息相关,基于文本挖掘的手段,实现对于全网采集的内容数据进行分类打标。新华智云15四、Project 依赖很多时候,使用大数据平台要不要分项目都是一个很难的抉择。不分项目的好处是开发人员都在同一个平台工作,互相之间不需要太多的授权,整体工作效率会比较高。分项目的好处是利用不同平台做不同的业务会更清晰,更具条理性。数芯在开始使用 MaxCompute 时,便采取分项目方式,其考虑的原因有以下三点。首先,分项目可以区分业务优先级,避免低优先级任务影响高优先级的数据产出。另外,可以区分资源消耗型,避免出现高资源消耗任务整体影响数据产出。还有区分内外服务,避免内部服务互相交叉影响。总体上,分项目可以为数据产出的稳定性提供很好的保障。五、几点小提示首先,由于媒体行业大部分数据都是非结构化的数据,会造成对单字段的容量要求比较大的问题。而且不同的平台和传输工具对于数据的字段大小的限制不同。在从不同平台做数据传输时,尤其需要关注这个问题。第二,能用 UDF 解决的问题,不要使用 MR。使用 UDF 可以提高开发和运维的效率。即尽量用简单的表达式处理逻辑,这对整体数据产出稳定性有好处。第三,对查询效率要求不高的数据报表可以直连 MaxCompute,减少中间环节。如此可以大大减少数据转换和数据维护成本。第四,Datahub 一方面可以接数据源,另外还可以较好的串联批,流之间的计算流程,保持数据一致性和形成依赖。第五,合理设计批,流的数据处理分工,减少重复计算。第六,媒体大数据经常需要运用不同的算法,PAI 可以帮助解决很多算法问题,减少开发的工作量,提高数据处理的效率。基于实时计算(flink)打造舆情分析平台新华智云郭华(付空)阿里云实时计算高级产品经理新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆