温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
海量
数据
智能
问题
预警
分析
定位
排查
体系
pub
东壁
基于海量数据的智能问题预警分析定位排查体系东壁个人介绍在阿里工作7年,主要从事质量和效能平台的建设最近负责阿里文娱在 问题预警分析和排查能力的建设1.背景&范畴2.问题预警分析与定位方案3.阿里文娱智能化问题预警与定位实践与案例4.总结&展望提纲可观测&可预警可复原可分析背景业务迭代快应用/系统/数据l业务发展快,产品不断迭代l用户体验要求越来越高l线上的变更,带来了不确定性l系统的链路越来越长/越复杂l用户侧使用的机型/网络多样l海量的日志难以有效的快速发现和定位问题;2100+品牌370+芯片1.5w+机型4700+品牌1100+芯片2.9w+机型*应用*亿次+请求/天*万+微服务*PB数据*万+实例10+数据中心手机机顶盒复杂的业务场景和系统给测试活动带来了新的挑战测试活动线上系统问题业务问题用户问题用户/终端环境业务场景复杂产品研发迭代快体验要求高系统链路复杂海量的日志右移能力升级面向业务异常/用户问题的监控指标面向业务异常/用户问题的预警能力面向业务异常/用户问题的诊断能力面向业务异常/用户问题的分析能力千人千面用户/业务问题可感知、可诊断的能力定义DetectMetricsDo I have a problem?TroubleshootingTracingWhere is the problem?PinpointLoggingWhat is causing the problem?面向业务/用户问题metrics(业务/用户问题)trace规则&知识库可观测可复原Debug能力用户轨迹还原能力用户问题修复能力可修复主动问题探测OLAP用户反馈问题识别报警配置/模版可预警可分析基于阈值/计算的异常检测基于ai的异常检测场景还原能力关联挖掘系统热修复能力规范智能化背景&范畴问题预警分析与定位方案阿里文娱智能化问题预警与定位实践与案例总结&展望可观测&可预警可复原可分析提纲面向用户/业务问题感知和诊断的系统框架时间序列OLAP实时/离线报警诊断预警用户问题/业务异常诊断问题定位/原因Debug复原/复现收集关联分析聚合算法分析&模型数据处理场景&规则业务a业务b业务clog客诉用户反馈舆情模型metricstrace修复知识库l集成的问题和数据收集、处理和分析框架;l关联业务日志和用户问题,以及各类事件;l支持智能问题发现、分析模型训练和部署;面向问题识别和诊断的架构任务引擎业务原始数据slsossHSFttSdk埋点fishladderhttp其他Rule Engine执行策略模版定义模版解析接口交易订单状态发货状态播放验权失效播放错误模式异常判断根因分析规则引擎数据用户问题Top问题预警与定位运营平台诊断/卡点(活动上线)用户反馈/舆情智能分类/自动处理规则库数据校验规则调试流程定义hologresodps异常数据用户维度设备维度业务id任务定义(定时/单次)规则执行调度任务管理(启动/停止)规则营销活动库存活动规则权益用户身份权益信息基于任务基于事件分发热剧分桶检查投放配置检查场景&标签应用标签化(业务/场景)规则组合标准化/个性化分类模型聚类模型NLP回归分类聚类模型评估算法模型用户动线用户行为/异常有机关联统一数据处理与抽象诊断规则复用与沉淀Top场景覆盖背景&范畴问题预警分析与定位方案阿里文娱智能化问题预警与定位实践与案例总结&展望提纲可观测&可预警可复原可分析实践/案例 可观测&可预警-应用/系统异常日志智能预警与问题治理异常收集数据处理&聚合报警分析&改进正则化聚合解析阈值环比同比智能基线过滤趋势分析根因定位聚合采样背景实现 应用异常影响稳定性和用户体验 异常和错误日志无有效的处理机制发现300+应用异常(Bug)拦截200+系统发布和变更问题实践/案例 可观测&可预警-业务异常预警与定位播放错误感知诊断&定位报警订阅12Metrics 面向用户问题的监控计算对用户的具体影响Diagnose按照业务逻辑校验是否有问题;影响的具体原因背景实现 链路长,依赖复杂,偶发权益失效,影响用户体验 现有监控无法覆盖业务上的影响影响用户下降90%以上实践/案例 可观测&可预警-用户问题感知和预警-客诉预警与快速定位1客诉问题聚类2客诉问题预警3实时定位分析常见问题分类实时聚合用户热点问题常见问题波动分析与预警突发问题预警常见问题实时定位多维和问题根因分析背景实现 无法及时发现线上热点问题 客诉问题定位不及时,影响用户体验思考实践/案例 可观测&可预警-用户问题反馈智能化分类与自动诊断 用户反馈问题较多,人工分拣耗时 重复问题需要人工重复处理 流程长+部分日志时效短,部分问题难以排查背景实现智能分类自动诊断+snapshot+思考自动分拣90%以上问题自动诊断处理率60%132背景&范畴问题预警分析与定位方案阿里文娱智能化问题预警与定位实践与案例总结&展望提纲可观测&可预警可复原可分析插件化加载抽取转换加载动线处理用户行为数据点击页面访问数据&接口异常&错误端侧alarmcrash播放错误前端错误业务错误插件配置动态处理网关&服务端mtop服务端端侧Alarmcrash播放错误更多卡片配置首页场景播放页场景收银台场景更多行为上下文模版渲染标签时间线卡片更多关联排序展现更多实践/案例 可复原 用户问题复原注:数据采集、分析和展示 符合用户隐私收集相关规定用户动线展示实践/案例 可复原 跨场景、跨业务排查能力播放器播放时,需要有videoId传递过来错误的videoId,会导致播放错误,并报警但不知来源是哪里?背景实现?设备行为播放器上层错误错误上下文/Context播放器错误+定位时长下降90%错误上下文实践/案例 可复原-场景复原-面向场景的智能定位背景面对不同的日志格式和协议,如何理解?信息间如何关联?如何聚合信息进行诊断?场景化问题识别动态化场景定制+场景下钻+思考上下文信息关联+实现信息获取信息裁剪上下问关联(traceId+bizId+rpcId)动线处理Distributed Span(Context)+Log(biz+client)服务端下发渲染traceId到客户端1请求下单服务,并将context中traceId到服务端2服务端,记录上一个traceId到订单上下文3服务端,记录详情日志,bizId和traceId进行关联4排序&还原实践/案例 可复原 业务全链路排查能力方案实现1234背景&范畴问题预警分析与定位方案阿里文娱智能化问题预警与定位实践与案例总结&展望提纲可观测&可预警可复原可分析1定期聚合热点问题2识别热点问题3产品技术侧改进常见问题波动分析与预警突发问题预警产品设计相关问题技术问题修复和优化常见问题波动分析突发问题预警实践/案例 可分析-客诉问题聚类分析,识别热点问题实现背景 缺乏用户问题的宏观分析 无法了解线上热点问题思考实践/案例 总结质量 主动感知、定位线上质量问题 提升应用稳定性 优化和补充卡点流程效率 提升问题发现效率 减少问题定位时长 提升问题排查/定位效率体验 及时发现线上用户问题,快速定位止血 诊断能力前置,降低客诉问题处理时长 发现用户共性问题,改进产品 发现线上质量问题300+拦截发布问题 200+次 多次避免故障产生 诊断能力覆盖核心业务90%核心场景排查效率提升90%核心场景:升级率下降50%定位和解决时长下降90%;用户满意度提升60%背景&范畴问题预警分析与定位方案阿里文娱智能化问题预警与定位实践与案例展望提纲可观测&可预警可复原可分析展望用户问题挖掘与修复异常模式识别图计算/cep问题自动修复技术多模态用户问题理解反馈图片反馈视频行为知识图谱问题推理相关分析欢迎线下交流邮箱:wangj.walibaba-