分享
爱奇艺大数据分析平台的演进之路.pdf
下载文档

ID:3048782

大小:4.09MB

页数:63页

格式:PDF

时间:2024-01-18

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
爱奇艺大 数据 分析 平台 演进
爱奇艺大数据分析平台的演进之路爱奇艺技术产品中心杜益凡2018.11大苹果树模型目前大数据分析的挑战20+业务线近30亿用户设备300T+/天用户行为日志起始时代HiveMySQL报表系统日志机RSYNCSHELLJAVA魔镜时代投递管理:根据业务注册投递规范投递管理:生成规范进入开发投递验证:对投递进行测试验证AccioLog:日志飞来,将分散在Pingback服务器的日志包手机回来Transfiguration:日志变形,将日志转换为适合魔镜消费的格式并分类存放数据仓库:所有信息进入数据仓库待用定制计算:获得你的渴望通天塔时代批处理任务开发数据开发BabelBD流任务开发流任务运维实时报表制作流计算开发BabelStreaming任务开发数据源管理异构数据同步同步任务开发数据集成BabelX数据开发数据查找数据申请变更管理数据管理BabelDM数据血缘平台管理用户管理权限管理项目管理管理中心BabelConsole消息管理GearHive离线计算StreamingSQLFlink流式计算SparkSpark StreamingOLAP EngineImpalaOLAPKylinMySQL线上数据库数据源PingbackVenus机器日志CouchbaseRedisMongoDBHDFS大数据存储HBaseKudu开发平台层计算引擎资源层分析展现层路径分析自助分析工具BI平台莫奈自助查询工具批处理任务运维漏斗分析函数管理埋点投递管理数仓模型管理数仓管理BabelWarehouse指标&维度管理报表开发报表展示报警其它BI报表工具魔镜庖丁刃频次分析留存分析画像分析其他工作流管理与开发方式的演变使用Crontab直接驱动数据处理脚本运行Crontab使用Shell编写的一个运行框架SlytherinLinkedin公司的开源工作流调度器Azkaban基于Oozie的自研调度Gear通天塔数据开发BabelBDSlytherin驱动脚本驱动运行控制并发度执行脚本确保执行唯一性确保依赖满足执行脚本执行脚本。Azkaban Linkedin开源的工作流系统 使用简单,可视化程度高 当年只能单机Gear工作流管理Gear 是爱奇艺服务云团队为开发者打造的定时任务和工作流管理服务,提供简洁的配置写法、方便的 Web 管理界面和完善的报警机制。Gear工作流管理Gear工作流管理Gear工作流管理BabelBDBabelBD报表制作方式的演变01020304龙源报表系统开发者写代码开发报表开发报表龙源报表配置平台开发者通过后台配置报表配置报表BI报表平台用户从自助工具中发布报表发布报表用户自行拖拽制作自己的仪表盘或数据报告个性化报表龙源报表系统就是一个报表系统龙源报表系统VCM龙源报表系统 一张报表就是一个小JavaWeb项目 一类报表一个Package 严格遵循MVC模式 为每张报表编写JSP页面龙源2.0龙源报表配置平台龙源报表配置平台爱奇艺BI爱奇艺BI管理业务线资源管理权限管理系统管理外部项目管理业务线业务线业务线业务线业务线 业务线设置资源管理权限管理业务线管理入口管理入口管理开发者报表开发资源配置报表开发资源配置业务线管理员资源审阅权限分配权限分配资源审阅普通用户查看报表订阅、监控提需求需求输出分配权限业务反馈爱奇艺BI发布报表到爱奇艺BI魔镜计算结果庖丁刃通天塔实时分析依赖管理的演变Done文件?Done服务Done文件如何确保消费数据时数据是可用的?存放在HDFS或其他介质一个空文件,用来标志一个数据已就绪可用数据管理数据管理元数据中心元数据抓取Babel录入投递注册数据血缘分析数据标注数据质量数据预览数据生命周期数据可用性管理问答外部系统注册数据管理数仓模型的演变根据不同粒度和业务特点分层建模,提供不同用途和查询方式分层建模制作中间聚合的大宽表,方便使用中间大宽表直接简单粗暴的消费日志表直接消费日志表直接消费日志表最底层,生产快数据原始,无任何聚合处理,可以探查细节数据量大,消耗计算资源大未进行反刷量中间层大宽表已按一定的主题进行了聚合字段全面,使用方便与日志表间有逻辑操作,已进行反刷过滤数据量不适合在Impala等OLAP引擎使用分层建模维度总线日志层明细层聚合层应用层BI报表莫奈庖丁刃魔镜默认不开放数仓工具数仓模型引用指标维度系统的定义建模数仓模型管理引用指标维度的信息管理数据和构建血缘元数据管理利用指标维度系统的定义规范计算逻辑数据开发引用指标维度的信息制作报表BI报表利用基于指标维度定义的模型进行计算漏斗分析利用指标维度统一的标准信息制作场景和场景间关联莫奈指标维度OLAP结果数据都存储在MySQL中,通过分库分表来解决大数据量问题MySQL将一部分数据提前计算好存入Hbase,根据不同的查询进行提取MySQL+HBase根据分析目标数据源不同,智能选择不同的引擎综合使用引入Kylin/Impala作为查询引擎MySQL+Hbase/Kylin/Impala一个典型的例子剧集统计海量视频数据,需要根据不同条件计算排行,同时可查询单个视频或专辑的数据情况全部放入HBaseSupporting text here.排行数据提前放入HBase按可加项不可加项分表冷热数据分表、分库、分服务器Kylin取数分析方式的演变最初取数分析方式的演变曾经取数分析方式的演变现在与未来取数分析方式的演变最初人报表导数人工导数Excel分析曾经魔镜报表导数人工导数自助导数Excel分析现在与未来莫奈报表查询自助导数莫奈分析Excel分析分析工具魔镜 通过勾选方式写SQL的取数工具 用来展现内心的渴望魔镜魔镜庖丁刃使用SQL这把牛刀进行数据分析庖丁刃庖丁刃的技术架构资源部署与集群运维QiyiAppEngineVenus日志实时流监控Engine LayerImpalaSpark sqlHiveHadoopDruidMysqlGearService LayerService RegisterRuntime ConfigurationDynamic RouterRuled PushDownDataSourceManagementSqlParseAuthorizationBI报表仪表盘Web LayerHBaseElasticsearch孔明计算引擎孔明计算引擎 统一查询接口 智能选择实际执行引擎 智能下沉,确保可靠性sqlSql ParserAuthorityendRouterEngine ExecuteTimeout/Pushdown CaseResultNofailedFailure MatchSecond-Engine Executecompete莫奈系统 莫奈 法国印象派画家,被誉为“印象派领导者”莫奈系统只需鼠标如作画般划过屏幕,即可进行大数据分析,将抽象数据变成画作莫奈系统莫奈系统莫奈系统莫奈系统莫奈系统莫奈系统多分析场景组合,自动关联操作莫奈系统的架构网关层图表分析场景数据源DSLSQL生成:KylinMySQLImpala权限控制逻辑展现层网关层权限控制层DSL逻辑层SQL parser层查询引擎、数据存储元数据中心字典服务大数据分析体系离线取数,SQL分析工具魔镜与庖丁刃留存,漏斗,路径,画像等分析工具分析工具BI报表直接查看报告结果,定制自己的报告BI报表拖拽式数据可视化分析工具莫奈分析谢谢!

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开