分享
日本移动通信运营商大规模通信故障分析与建议_徐伟杰.pdf
下载文档

ID:2327547

大小:1.49MB

页数:6页

格式:PDF

时间:2023-05-07

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
日本 移动 通信 运营商 大规模 故障 分析 建议 徐伟杰
2023年 第1期0引言关键信息基础设施安全保护条例(以下简称条例)于2021年9月1日正式实施,其作为中华人民共和国网络安全法(以下简称 网络安全法)的重要配套立法对于强化国内关键信息基础设施安全保护具有里程碑意义。运营商的移动通信网络是公共通信和信息服务领域的,一旦遭到破坏、丧失功能或者数据泄露,可能严重危害国家安全、国计民生、公共利益的重要网络设施。依据条例总则第二条,这属于关键信息基础设施范围。而运营商作为移动通信网络的运营者,依据条例总则第六条,应当依法妥善应对网络安全事件,重点防范网络安全攻击和违法犯罪活动,保障关键信息基础设施平稳运行,保证关键数据的完整性、保密性和可用性。国内运营商在建设移动通信网络时严格落实 网络安全法第三十三条,同步规划、同步建设、同步使用安全技术措施,在核心网以及网络出口采用了容灾技术方案1-4,理论上能够保证网络以及数据的安全可靠性。近几年,KDDI、NTT及SoftBank三大日本主要移动运营商接连发生了日本 电气通信事业法第28条和电气通信事业法施行规则第58条规定的必须报告的重大事故5-7。根据事后三家运营商向日本总务省提交的报告可知,在大规模通信故障发生时,理论上能够保证网络运行可靠性的容灾技术并没有起到预想的效果,值得国内移动运营商予以重视,并引以为鉴。本文首先对于日本运营商大规模通信故障发生原因及发展过程进行分析,然后总结日本运营商的教训,从实时检测信令风暴、确保数字证书有效以及推进设备多厂商化等方面对国内运营商提出改进建议。1日本大规模通信故障分析日本近年发生多次大规模通信故障。KDDI在2022年7月突发大规模通信故障,NTT在2021年10月发生重大通信故障,SoftBank在2018年12月遭遇了一场严重网络事故。三起通信故障影响范围广、时间长,严重危害国计民生。下文对上述3起重大事故背后的大规模通信故障进行分析。1.1KDDI通信故障1)故障概况故障发生时间:2022年7月2日1时35分至4日15时00分,持续时长为61小时25分。影响内容:移动电话语音通话、数据通信难以使用。影响范围:全日本,涉及语音通话约2278万人、数据通信约765万人8。2)故障分析在故障发生时,KDDI对全国中继网多摩节点路由器进行维护作业,意外设置路由错误,导致IMS日本移动通信运营商大规模通信故障分析与建议徐伟杰(华信咨询设计研究院有限公司,浙江省杭州市310051)摘要首先分析日本移动通信运营商大规模通信故障的发生原因及发展过程,然后总结日本运营商的教训,给出国内运营商通过在DPI(深度报文检测)系统和网管系统基础上建立信令风暴的预警系统,加强对大量寿命短暂的数字证书管理以及推进移动核心网设备多厂商化的建议,以提升移动通信网络运行的安全可靠行。关键词移动核心网;通信故障;信令风暴;数字证书技 术 交 流142023年 第1期图1KDDI故障发生过程示意图(IP多媒体子系统)多摩节点的CSCF(呼叫会话控制功能)设备9发往中继网的VoLTE(长期演进语音承载)位置注册信令报文被丢弃,形成了位置注册信令单向通行的特殊情况。于是,终端和其他节点CSCF设备不断地重复发送位置注册请求报文到多摩节点CSCF设备,使其拥塞。同时,全国中继网把位置注册请求报文分散转发到其他节点CSCF设备进行处理,导致全部CSCF设备被拥塞。CSCF设备及PGW(分组数据网网关)设备在收到重复发送的位置注册请求报文后,向HSS(归属签约用户服务器)设备发起认证,导致HSS设备被拥塞。为减轻HSS设备负荷,KDDI进行流量控制,但是6台CSCF设备一直处于异常状态,不断地发送不必要的多余信令,导致HSS设备持续高负荷运行。KDDI通信故障发生过程如图1所示。3)故障恢复KDDI在2022年7月4日锁定6台处于异常状态的CSCF设备,使其与网络分离后,VoLTE服务逐步恢复正常。在故障恢复后,KDDI开发了CSCF设备拥塞监测工具和拥塞消除工具,重新评估拥塞控制机制的设计和拥塞发生时的恢复流程。1.2NTT通信故障1)故障概况故障发生时间:2022年10月14日16时54分至15日22时00分,持续时长为29小时6分。影响内容:移动电话语音通话、数据通信难以使用。影响范围:全日本,涉及语音通话约460万人、数据通信约830万人10。此外,在2022年10月14日17时37分至19时57分的2小时20分时间内,日本(除石川县、富山县、福井县、奈良县及和歌山县)约100万人移动电话语音通话、数据通信无法使用。2)故障分析在故障发生时,NTT将存储IoT(物联网)位置信息的旧HSS设备替换为新HSS设备,但在割接后发现新HSS设备没有考虑IoT海外漫游的软件规格,导致漫出的IoT终端无法进行位置注册。NTT进行了割接回退操作,同时将大量IoT终端割接回退到旧HSS设备。在短时间内,大量IoT终端发送位置注册信令到MME(移动管理实体)设备,使MME设备内部位置注册资源被耗尽,造成信令拥塞。NTT的手机终端与IoT终端是共用MME设备的,因此IoT终端的信令拥塞波及到手机终端,手机终端从4G/5G网络回落到3G网络,导致3G网络语音通话、数据通信难以使用。NTT通信故障发生过程如图2所示。NTT在17时37分对4G网络实施位置注册限制,并且逐渐放开限制,直到19时57分结束。在此技 术 交 流152023年 第1期图2NTT故障发生过程示意图技 术 交 流期间,由于系统无法仅针对IoT终端进行限制,因此造成部分移动电话语音通话、数据通信无法使用。3)故障恢复NTT在22时23分对IoT终端的位置注册数进行调整,作为修复措施,继续将IoT终端割接回退到旧HSS设备。在故障恢复后,NTT将MME设备上处理一般用户与IoT终端位置注册信令的资源进行隔离,避免相互影响,并在系统中引入对IoT终端与移动电话分别进行位置注册限制的功能。1.3SoftBank通信故障1)故障概况故障发生时间:2018年12月6日13时39分至18时4分,持续时长为4小时25分。影响内容:LTE移动电话语音通话、数据通信无法使用,使用LTE线路的固定电话、家庭用Wi-Fi部分无法使用,3G移动电话难以使用。影响范围:全日本,涉及约3060万条线路11。2)故障分析SoftBank在日本的东部和西部两个中心机房合计部署了18台爱立信的虚拟化MME(移动管理实体)设备,资源是按照远期需求进行配置的,具有足够的负荷冗余量。在故障发生前,MME设备负荷仅为30%40%,理论上任何一台或数台MME设备发生故障都不会对LTE网络的正常服务造成影响。在故障发生时,全部MME设备的软件对TLS(传输层安全)数字证书有效期进行错误处理,MME设备与其他设备连接中断。系统按照预设试图通过重启MME设备的方式来恢复,但是重启无法解决数字证书过期问题,因此4G网络无法恢复正常,导致手机终端无法使用4G语音通话和数据通信。随后,手机终端回落到3G网络,连接数量剧增使得3G网络进入高负载状态,导致手机终端难以使用3G语音通话和数据通信。SoftBank通信故障发生过程如图3所示。3)故障恢复SoftBank在15时54分(故障发生2小时15分后)确定故障原因在MME设备,并在16时22分对全部MME设备进行软件版本回退作为恢复措施,随着4G网络逐渐恢复,手机终端从3G网络切回到4G网络。在恢复正常后,SoftBank对商用设备的数字证书进行全面检查,并引入其他厂商的MME设备。162023年 第1期图3SoftBank故障发生过程示意图技 术 交 流2国内移动网络运营建议日本移动运营商在网络建设时已按照远期需求进行配置资源,预留足够的负荷冗余量,并在全网范围内采用负载分担。但是当意外故障发生时,全网仍然快速陷入不可使用或难以使用的状态。下文对上述重大事故发生原因进行总结,以期对国内移动网络运营有所启发。2.1实时检测信令风暴网络信令风暴是指在短时间内网元收到的信令超过网元的处理能力,引发拥塞甚至宕机,进一步破坏网络可用性。维护、割接作业中的一个误操作就可能引发一次网络信令风暴,对运营商网络及用户造成极大的影响。在KDDI通信故障中,全国中继网多摩节点路由器配置错误路由,导致多摩节点CSCF设备信令丢失,引发的信令风暴使全网CSCF设备和HSS设备被拥塞。在NTT通信故障中,存储IoT位置信息的HSS割接回退不当,引发信令风暴,使全网MME设备被拥塞。当误操作发生后,KDDI和NTT都花费了一定时间才定位到产生信令风暴的网元,使得网络故障延续较长时间,特别是KDDI花费了2天时间才定位到不断发送多余信令的6台异常状态CSCF设备,网络故障共延续61小时25分,成为KDDI历史上最大的故障。因此,为了在第一时间就能发现信令风暴并定位到相应的网元,运营商网络应引入信令风暴的预警系统。国内运营商已经在移动网络上部署了DPI(深度报文检测)系统12-13,可以采集到全部的信令,主要目的是合成移动用户上网日志。建议在现有DPI系统基础之上,进一步建立信令风暴的预警系统。以4G网络为例,预警目标网元是指MME和HSS等可能出现信令风暴的设备。在发生网元宕机和传输闪断等故障后,正常业务逻辑、信令流程均可能产生信令风暴,影响预警目标网元。首先,根据各接口连接的网元,确定受信令风暴冲击较大的接口所连接的网元,筛选出目标网元。然后,对各功能域中筛选出的目标网元,根据信令传送路径的类型确定目标设备。例如,国内运营商4G注册信令传送路径是eNodeB(演进型NodeB)MME-DAR(路由代理节点)HSS,VoLTE注册信令传送路径是eNodeBMMEDARSGW(服务网关)PGWCSCFDARHSS。最后,基于DPI采集信令的历史数据进行建模,得到各目标网元注册类信令峰值和语音类信令峰值,进行加权后作为目标网元的预设信令量阈值。预警系统发现DPI采集到的目标网元信令量172023年 第1期技 术 交 流高于预设信令量阈值时,发出预警信息,触发人工或自动化排除故障,针对性地采取接口流控、信令管控及网元重启等措施。此外,被拥塞或异常的网元设备CPU和内存等资源会发生过载,因此预警系统也可以与网管系统对接,实时获取设备过载告警信息,作为定位信令风暴相关网元的依据。采用这种办法,可以在KDDI的故障中快速定位到不断发送多余信令的6台异常状态CSCF设备。2.2确保数字证书有效数字证书是在互联网通信中标志通信各方身份信息的一个数字认证,设备之间通过数字证书来识别对方的身份。数字证书有效期限容易被忽视,一旦过期就会对业务造成重大破坏。SoftBank的核心网设备之间采用TLS数字证书来进行认证,MME设备软件错误将TLS数字证书有效期判做过期,遂与其他网络设备连接中断而脱网。无独有偶,微软Azure以前使用SSL(安全套接层)协议进行加密数据传输,在2013年忽视SSL数字证书有效期到期而导致加密数据传输服务全部无法使用,Azure服务停摆。因此,运营商需要加强对大量寿命短暂的数字证书管理。针对普通的数字证书,建议国内运营商在现有网管系统中增加数字证书管理模块,可以自动监测临期证书记录,并通过提醒消息对快要过期的证书发送到期提醒通知,提前提醒相关人员启动证书替换流程。而针对SoftBank故障中设备厂商在设备软件中内置的数字证书,运营商是无法进行管理的,建议设备厂商承担起相应的管理责任。2.3推进设备多厂商化SoftBank在日本东部和西部部署的全部18台MME设备都是爱立信一个厂商生产的,因此当MME软件出现异常时,全部MME设备同时脱网,导致4G网络无法正常工作,故障充分展现了设备单一来源风险的危害性。目前国内运营商的单个省级4G、5G核心网也都是采用单一厂商的设备,对于设备厂商过度依赖而埋下潜在风险。国内运营商虽然在短时间内很难摆脱设备厂商的技术垄断,但是仍然应该坚持在遵循国际3GPP标准的前提下,引入各厂商开放网元间的接口,实现异厂商网元互通,最终达成设备多厂商化目标。2.4其他问题软件版本迭

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开