温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
态势
感知
OTT
智能
调度
研究
实践
顾一泓
492023.02互联网0 引言为了应对互联网流量快速增长的挑战,主流运营商纷纷开始建设 CDN 内容分发网络,通过在现有的 Internet 中增加一层新的网络架构,将网站的内容发布到最接近用户的网络“边缘”,使用户可以就近取得所需的内容,解决Internet 网络拥挤的状况,提高用户访问网站的响应速度。OTT(Over The Top)互联网电视就是其典型业务之一,将OTT 内容牌照方服务器中的内容分发至分布式部署的边缘服务节点中,通过流量调度技术,按照指定策略将用户请求自动调度到全局最优的边缘服务节点,由该节点就近为用户提供数据服务。互联网电视端到端业务流程长,每个环节分段监控,多厂家监控各自为战,缺乏体系监控。随着市场的拓展与新兴内容的迭代,需要持续不断地对业务节点进行扩容。平台发展为省市县三级架构后,边缘节点数量骤增,由于多厂家多平面建设规模不同、牌照方用户占比不同、现有调度机制不够智能,导致跨平面、跨地市、节点间、节点内设备负载不均衡,流量突发时平台虽然有容量但却无法快速使用,系统整体资源未被充分利用。提出一种基于运营商角度的智能调度体系,实现对 OTT运行状态的全面掌控与发展趋势的准确预判,有效减轻运维人员工作负担,提高平台调度运维效率与运营能力。1 智能调度需求智能调度相比普通调度来说,新增了“态势感知”功能,通过对感知业务“正在发生”“为什么发生”“即将发生”进行分析处理,确保设备始终保持在安全边界范围内,让用户体验始终保持在最佳状态。如果把智能调度系统比作是人类的“大脑”,那态势感知则是丰富的“神经网络”,在各个节点间进行收集与传递信息;为了更好地优化与分析业务,还需要将“神经网络”的调度流程轨迹进行可视化。因此,对业务的“态势感知”与平台的“调度轨迹可视化”是智能调度系统的两大基础需求。1.1 态势感知态势感知(situational awareness,SA)概念起源于军事理论,最早可以追溯到春期时期的 孙子兵法,具体含义为:对“环境元素”和“事件”相对于时间或空间的感知,并对其含义的理解,以及对其未来状态的预测。目前已广泛运用于执法、航空航天、医疗、军事指挥、核电站管理等领域。OTT态势感知是掌握整个业务平台运行情况的重要手段,通过对设备、节点、平台、CMNET、内容源等多个业务运行中的变量进行采集、分析与预判,力求准确高效的掌握业务运行态势,将隐患扼杀在萌芽状态。OTT 态势感知可划分为三个阶段,分别为态势要素采集、实时态势解析、未来态势预测,分别解决“正在发生、为什么发生、将要发生”等问题。(1)态势要素采集:获取被感知对象中的重要线索或元摘要:针对现网 OTT 业务传统调度系统存在的痛点,从运营商的角度提出了一种基于态势感知的智能调度设想,构建了智能调度系统的框架,搭建了智能调度系统原型并投入现网应用,极大提升了 OTT 业务调度的智能化和精准度,进一步增强 OTT 业务系统整体运维和运营能力。关键词:OTT;互联网电视;智能调度;态势感知(2021年江苏省通信学会“华苏杯”论文征集评优三等奖)基于态势感知的 OTT 智能调度研究与实践顾一泓 施益峰 屠智玮 秦 磊 费海荣中国移动通信集团江苏有限公司502023.02互联网素,这是态势感知的基础。随着大数据概念的不断演进,态势要素采集的范围得到不断扩展,目前能采集到的各类信息主要包括设备硬件信息、业务运行信息、节点交互信息等,为 OTT 运行态势的解析、评估及预测提供了原材料。(2)实时态势解析:整合采集或者觉察到的数据和信息,进行态势评估,通过综合分析和判断形成对 OTT 平台运行情况的综合评价。(3)未来态势预测:基于大数据技术对历史态势要素进行收集分析,研判输出决策规则,进而根据实时态势输出决策执行动作,进行闭环调度控制。1.2 调度可视化当调度系统基于态势感知完成优化后,若无法将调度轨迹准确、直观地展现出来,而变成黑盒模式的话,则不会对运维能力有任何提升。就好比汽车开启了导航,但驾驶员听不到也看不见地图,更不知道要去哪里。因此,要将“态势感知”这一抽象的概念,以不同层级的时序图表进行落地,描绘历史、当前、未来时间的连续时段内的 OTT 运行状态以及变化过程。OTT 智能调度轨迹可视化模块如图 1 所示,结合态势感知的三要素,建立整个平台的全维度、多层次的运行轨迹可视化体系。该体系综合考虑 OTT 平台运行的业务质量、设备健康度、调度策略、节点间链路负荷等多个方面,以平台组网拓扑的形式进行一一展现。(1)业务:显示每个节点的负载、指标、冗余策略、冗余节点等信息;(2)设备:监控节点-分组-设备的运行情况,排查硬件故障、端口异常等问题;(3)调度:展现平台当前调度策略、各冗余节点间调度记录;(4)链路:端到端监测业务涉及的 CDN 平台-省干-城域网-BRAS-OLT 等链路负荷;(5)内容:分析平台实时/近期热点资源情况,以及各节点内热点资源分布现状。通过对上述五大方向的信息进行关联分析、预判,可高效地呈现出整个业务平台的运行状态变化过程及发展趋势。2 智能调度框架OTT 智能调度的总体目标是利用大数据手段获取 OTT 业务质量、设备健康度、调度策略、节点间链路负荷等信息,以态势感知为手段,对整个平台的所有资源情况进行融合分析,实时掌控运行态势,感知潜在隐患并进行风险评估,同步降低故障风险,及时优化调度策略,从而增加平台运行的稳定性,最终提升用户感知。OTT 智能调度框架流程如图 2 所示,通过态势感知在完成原始数据分析后,先判断是否出现重大异常存在,如有,即刻通知相关运维人员,人工判断状况,触发对应的应急方案;若没有,则自动评估平台运行情况,是否在正常范围内浮动,是则不做处理,循环监控;若出现指标(例:状态码、时延、命中率、回源成功率等)异常、设备心跳连接异常、链路拥塞、负荷过高等情况,则触发调度干预机制,匹配调度策略,同时即刻推送至维护人员;完成策略选择后,执行调度,再次循环监控,每次操作执行均实时同步至维护人员手中。3 智能调度实践根据上述流程架构进行初步试点,通过开源大数据组件对 OTT 系统进行数据收集与处理,再根据数据分析结果对现有调度策略进行继承与革新,从而实现基于态势感知的 OTT 智能调度原型。图 1 智能调度轨迹可视化模块示意图512023.02互联网图 2 智能调度流程示意图3.1 收集与分析本试点的数据收集与分析部分架构图如图 3 所示。本收集系统主要基于开源分布式日志(数据)搜集与分析的解决方案“Elastic Stack”作为主体,将 filebeat(数据采集模块)作为 agent 部署在各个业务服务器中,用于采集业务日志、设备运行情况等实时数据;利用 Kafka 作为实时数据流的消息中间件,接着用流处理 Flink 来实时消费 Kafka 消息,对这些数据进行过滤、判断、计算等处理;再将处理结果推送至 Elasticsearch(分布式搜索引擎)进行存储与查询,并同步调度服务器进行态势数据查询、态势预测判断等分析,也同步对接 Kibana(分析呈现模块)将数据通过各类图表,进行多维聚合呈现,除了上述的业务指标外,还可在业务日志中采集用户 IP地址信息,实现按照地市维度、按照用户 IP 地址段输出聚合流量统计,极大提升智能调度精准度,实现重保场景下节点间精准负载调度。3.2 感知与调度通过 OTT 系统数据采集及处理,调度服务器得到了每分钟内全省所有设备的数据,从中可以提取到设备-节点-链路负荷、热点资源当前请求情况、设备硬件健康度情况等各类指标,通过算法分析,可以实现省-市-区三级架构的自动负载均衡调度、基于 QoS 的隔离调度、热点内容自动发布等调度功能。3.2.1 省-市-区三级架构的自动负载均衡调度目前运营商搭建的 OTT 平台多以“省”为单位,自上而下搭建“省中心节点-地市边缘节点-区县边缘节点”三层级架构,每个节点内包含一个或多个分组,每个分组的业务承载能力参差不齐,在节假日等重保场景负荷过高时,均需要图 3 数据收集与分析流程图522023.02互联网通过手动点对点调度,工作十分复杂且效率低下。三级架构的负载均衡调度,在保证将用户优先调度至最近的边缘节点的前提下,主要分为“地市内负载均衡”与“跨地市负载均衡”两部分,通过对节点负荷、节点链路负荷等实时数据进行判断后进行自动调度。(1)地市内负载均衡:地市级别的边缘节点,将节点内分组互设为“互助组”;区县节点由于体量较小且分散,将地市节点设为“单项互助组”,仅允许区县业务向地市节点调度;(2)跨地市负载均衡:地市边缘节点与省中心节点设为互助组,并就近选择地理位置相邻的地市互设为“互助组”,当地市边缘节点出现负荷过高的情况时,优先调度至省中心承载业务,当省中心节点负荷过高时,再触发相邻地市互助组进行调度。具体流程如图 4所示。通过上述调度策略,分别进行节点内负载均衡、互助组内跨地市负载均衡、互助组外跨地市负载均衡测试,观察调度前后节点负荷变化,以验证调度效果。(1)地市内负载均衡调度为验证节点内负载均衡调度可以有效降低木桶效应,充分利用节点资源,本次测试选择含有两个容量不一致的边缘节点的常州地市,边缘节点容量分别为 216G 与 180G。如图5 所示,日常情况下,边缘节点 1 峰值负载为 48%,均值负载18%;边缘节点 2 峰值负载为 39%,均值负载 11%;在调度介入前峰值负载偏离度为 9%,均值负载偏离度 7%。待调度策略针对常州节点下发至调度服务器 24 小时后,两个边缘节点的负载趋势如图 6 所示,可以看出在前 16 个小时还存在阶段性的偏差,但在晚高峰 18 时后,两条曲线的重合度非常高,边缘节点 1 全天峰值负载为 42%,均值 17%;边缘节点 2 全天峰值负载 41%,均值 17%;调度接入后峰值负载偏离度小于 1%,均值负载偏离度小于 0.3%,符合预期目标,可实现同地市内不同节点间负载均衡。(2)跨地市负载均衡调度地市间的调度需要采集地市、节点、设备、业务、CMNET等维度的负载和QoS数据,本次选择南通、扬州、常州、宿迁4个地市来进行测试,以测试调度策略中预设的极端情况:在省中心节点负载过高,且相邻互助组地市负荷满载的情况下,需要跨多地市进行负载均衡调度的场景。如图 7 所示,在调度接入前,晚高峰时段四个地市峰值负载偏差度为 6.48%,均值负载偏差度为 5.90%。待下发调度策略后,观察同一晚高峰时段四个地市的负载趋势,如图 8 所示,可明显看出原先负载最高的宿迁节点有明显下降,南通、扬州节点负荷均上升至常州曲线附近并保持在同一区间内浮动,晚高峰时段四个地市峰值负载偏差度为 0.44%,均值负载偏差度为 1.04%,符合预期目标,可实现多地市间协同的负载均衡。3.2.2 基于 QoS 的隔离调度在传统调度系统中,无法对设备硬件维度的故障进行有效识别,当监测到某个节点或设备出现指标劣化无法承载业务时,维护人员进行手工隔离,待设备隔离完成后,已离最初发生时间间隔过长,很可能已影响用户业务使用。OTT 智能调度系统通过前置收集的心跳检测、日志等数据,对设备的网卡丢包、坏慢盘、系统内部资源等硬件指标以及服务成功率、首包时延等业务指标进行分析,定期对节点内设备进行健康度判断,在调度业务时自动过滤质差设备,待一定周期监测恢复正常后,再次进行业务调度,如此,有效规避质差设备带病服务而导致的业务感知风险。通过在调度服务器上修改 QoS 判断参数,模拟单台设备QoS 指标下降至隔离阈值,成功触发自动隔离机制,并同时触发告警推送,如图 9 所示。3.2.3 热点内容的自动发布OTT 业务定期由人工在节点设备上创建热点频道与点播内容,实现内容资源发布至最接近用户的边缘节点,此机制可实现对新资源的及时推送,但无法根据用户行为及时判断出热点资源情况,且由于热点资源仅创建在个别设备上,该节点的热点业务请求会集中调度到该设备,导致该设备资源使用率过高,影响热点资源的服务与回源质量,影响用户收视感知。本功能基于请求数、流量、磁盘存储空