温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
G_MR
数据
覆盖
识别
研究
国宝
272023.025G天地0 引言5G网络建设目前已经基本实现县区级以上城市全覆盖。5G 的分流能力也越来越强,根据某省最新数据,当前 5G 流量占 4-5G(4G 和 5G,简称 4-5G)流量总和的比例已达到35%。5G 业务规模的不断增长给 4-5G 制式间的互操作带来一定挑战。一般来说,4-5G 制式间的互操作要求准确的添加邻区关系数据,以保证用户 UE(User Equipment,用户设备)可以在 4-5G 网络间无缝切换,这就需要有一份准确的 4-5G共覆盖小区对应关系数据。如何准确提取到 4-5G 共覆盖小区的一一对应关系,是 4-5G 制式间互操作成功与否的关键。仅通过现有工参数据进行匹配,无法准确获得精准的共覆盖情况,这对于网络问题的发现、定位造成了较大影响。1 研究背景MR(Measurement Report,测量报告)是一种由终端上报测量报告的数据采集技术,中国移动通信集团信令软采规范规定,MR 数据采集应符合特定的技术要求,并将结果保存到 FTP(File Transport Protocal,文件传输协议)服务器上,以供必要的数据分析使用。本研究介绍一种基于 5G MR 大数据挖掘的共覆盖识别方法。利用 5G 网络中的 MR 数据和小区工参数据,挖掘出4-5G 共覆盖小区对(一个 4G 小区、一个 5G 小区,构成的一一对应关系)的电平特征、用户群特征、距离特征,并基于特征数据进行建模分析,获取小区对的共覆盖指数。结果表明,该方法可以准确判定小区间的共覆盖关系强度,对网络负荷的均衡、EPSFB 回落目标小区等问题的处理,提供了准确的数据支撑。2 数据描述本研究所用的数据来自网络管理维护中心,数据由某运营商提供,涉及 5G 小区 12000 余个。数据主要为 MRO(Measurement Report Original,原始测量报告)文件,文件格式为“.csv”,提供诸如 TA(Timing Adavance,时间提前量)、RSRP(Reference Signal Received Power,参考信号接收功率)、SINR(Signal to Interference plus Noise Ratio,信号与干扰加噪声比)等 UE 侧测量上报的信息。MRO 文件是基站收集的 UE 测量信息的数据集合,基站每 15 分钟粒度切割为一个文件,而后上报到 TS(Trace Server,跟踪服务器)服务器,并由 TS 服务器预处理后,将结果转储到 FTP 服务器。因用户 UE 每 5 秒上报 1 条 MR 数据,某运营商 YC 市现有 5G 用户约 121 万,经数据统计确认每天产生的 MRO 文件数据达数十 TB 以上,数据量极大,故而 FTP 服务器的数据最大保留 7 天。数据收集的整体流程如图 1 所示。3 方法论下面详细介绍建模过程中的重要步骤。第一步,MR 大数据自动化采集。需要通过自动化脚本基于 5G MR大数据的共覆盖识别研究钱国宝1 陆 璐2*1.扬州大学;2.中国移动通信集团江苏有限公司盐城分公司摘要:当前 5G 网络的覆盖能力与 4G 网络相比尚有不足,而在日常工作中数据记录的缺失导致 4G 和 5G 的共覆盖信息无法精确关联,严重影响优化工作的开展。对此,利用 Python 对 MR 数据进行挖掘分析,提出了一种基于 5G-4G 小区级的共覆盖关系强度识别算法。该算法利用 MR 数据做大数据挖掘和建模分析,提取小区级的共覆盖前度信息,为优化工作提供强有力的数据支撑,有效解决网络建设过程中的邻区关系、EPSFB 回落频点不准确,以及 5G 网络分流等问题。关键词:5G;MR 数据;大数据;共覆盖;识别282023.025G天地完成 MR 数据的自动采集,并保存到指定的临时文件夹中。第二步,MR 大数据预处理。MR 原始文件包含 MRO、MRE(Measurement Report Event,事件测量报告)、MRS(Measurement Report Statistics,统计测量报告)三类数据,其中 MRO 文件是本文中主要的数据,在数据预处理阶段将提取出 MRO 数据,保证相应字段的有效性。第三步,MR 大数据的清洗。经过预处理后,得到的数据依然可能存在较大的偏差,要进行适当的数据清洗,提高数据的质量和有效性。第四步,共覆盖模型建立。基于 MR 中的有效字段,建立共覆盖识别模型,用于进行共覆盖识别。该模型主要由电平特征、用户群特征、距离特征构成,经过三个特征量分析,得到小区对级的共覆盖相关指数信息。第五步,共覆盖识别。利用共覆盖模型,对现网 MR 大数据进行自动识别分析,得到小区对级共覆盖数据。本研究中的共覆盖识别方法,利用 Python 脚本语言开发自动化脚本程序,进行快速部署,实现自动化运作,提高工作效率。程序设计流程如图 2 所示。考虑到 MR 数据量极为庞大,在程序开始时根据提取数据的时长、网元个数等计算量的大小,判决是否启动多进程计算。若判决启动并行计算,则在每个子进程中,都将各自进行数据采集、格式化、清洗、识别,以及数据导出等操作,否则将以单进程完成。3.1 MR 大数据自动化采集利用Python脚本语言,编写MR大数据自动化采集程序。自动化采集过程是利用 Paramiko 模块实现,通过该模块的FTP 连接功能,实现 FTP 服务器的自动连接与数据下载。如图 3 所示,用户个人 PC(Personal Computer,个人计算机)经过内网连接到 FTP 服务器,并从 FTP 服务器上下载 MR 数据,临时保存在 PC 的硬盘中,待输出提取完成后将直接删除。这里临时保存主要是考虑到硬盘的容量问题,采用“数据存储-数据挖掘-删除数据”的流程,从而降低对本地硬盘的依赖。3.2 MR 大数据格式化原始 MR 数据为.xml 文件格式,不利于数据分析工作的开展,先对数据进行格式化处理,得到标准的二维数据。对于 xml 文件的原始数据,利用 xml.dom.minidom、Pandas 模块,编写自动化处理程序将数据转化为二维平面数据(DataFrame 格式)。经过数据格式化处理,MR 数据转换为二维平面数据,如图 4 所示,这是经过格式化处理后的数据样式。3.3 MR 大数据清洗MR 原始数据包含的信息呈现数据量大、属性多、误差大等特征。对此,开展 MR 大数据清洗工作,包含字段提取、图 1 数据收集的整体流程图图 2 程序设计流程图图 3 MR 大数据自动化采集数据流向图292023.025G天地空值清洗、极值清洗三个部分。主要有如表 1 所示的字段。表 1 MR 挖掘字段表MR 字段MR 字段中文名gNB_idgNodeB 标识id小区标识MR.NRScSSRSRPNR 服务小区 SS-RSRPMR.NRNcArfcnNR 相邻小区频点MR.NRNcPciNR 相邻小区 PCIMR.NRNcSSRSRPNR 相邻小区 SS-RSRPMR.LteNcEarfcnLTE 相邻小区频点MR.LteNcPciLTE 相邻小区 PCIMR.LteNcRSRPLTE 相邻小区 RSRP如 表 1 所 示,MR 数 据 挖 掘 共 计 涉 及 9 个 字 段,分 别 为 服 务 小 区 唯 一 标 识 及 电 平 信 息(gNB_id、id、MR.NRScSSRSRP)、NR(New Radio,新 空 口,即 5G空口)相邻小区唯一标识及电平信息(MR.NRNcArfcn、MR.NRNcPci、MR.NRNcSSRSRP)、LTE(Long Term Evolution,长期演进)相邻小区唯一标识及电平信息(MR.LteNcEarfcn、MR.LteNcPci、MR.LteNcPci)。提 取 字 段 后,对 5G 到 5G、5G 到 4G 邻 区 关 系 分别进行数据清洗。在 5G 到 5G 邻区关系数据清洗中,将 gNB_id、id、MR.NRScSSRSRP、MR.NRNcArfcn、MR.NRNcPci、MR.NRNcSSRSRP 共计六个字段的空值数据按行删除;在 5G 到 4G 邻区关系数据清洗中,将 gNB_id、id、MR.NRScSSRSRP、MR.LteNcEarfcn、MR.LteNcPci、MR.LteNcPci 共计六个字段的空值数据按行删除。经过空值清洗,余下的数据进行数值合理性审查,将明显异常的数据条目进行按行删除。主要对 MR.NRScSSRSRP、MR.NRNcSSRSRP 以及 MR.NRNcSSRSRP 为极值进行极值清洗。3.4 共覆盖模型建立MR 字 段 包 含 NR 服 务 小 区 的 CGI(Cell Global Identity,小区全球标识)、nARFCN(New Radio Absolute Radio Frequency Channel Number,5G 绝 对 频 点 号)、PCI(Physical Cell ID,物 理 小 区 标 识)、RSRP、RSRQ 字段,以及 NR 相邻小区、LTE 相邻小区的信号频点、PCI、RSRP、RSRQ字段。其中,邻小区的CGI信息并没有直接给出,仅给出了 eARFCN(Eutra Absolute Radio Frequency Channel Number,4G 绝对频点号)、PCI 信息。故而模型设计中,以分析出的邻小区 CGI 为目标,基于服务小区和邻小区的电平、用户群、小区间距三个维度来建立共覆盖识别模型。服务小区和相邻小区 CGI 匹配如图 5 所示。为了解决邻小区 CGI 的未知问题,该模型通过工参数据的配合来实现邻小区 CGI 的识别。第一步,每条 MR 数据中邻区 nARFCN、PCI 数据和工参的 nARFCN、PCI 做 Merge 操作,得到 n 条MR 工参关系数据(n 等于工参中 nARFCN、PCI 均相同的条目数)。第二步,用服务小区的经纬度信息和相邻小区的经纬度信息,计算出邻区对间距,并做升序排列。第三步,提取每个服务小区中邻区对间距最小的数据行。经过上述过程,将得到 SerCGI(服务小区 CGI)和 NeiCGI(相邻小区CGI)邻区对的准确数据。在获得 SerCGI-NeiCGI 邻区对数据后,对海量样本点以SerCGI-NeiCGI 对为类别做电平、样本点、距离的统计分析,获得 SerCGI-NeiCGI 邻区对关系强度。公式(1)是对服务小区平均电平和相邻小区平均电平图 4 格式化后的 MR 数据302023.025G天地图 5 服务小区和相邻小区 CGI 匹配图做归一化处理,获得电平强度指数,其值越大表明关系越强。(1)其中,Diffsn表示电平强度指数,scell_avg_rsrp 表示服务小区平均电平(单位:dBm),ncell_avg_rsrp 表示相邻小区平均电平(单位:dBm)。公式(2)是相邻小区在该服务小区的样本点做归一化处理,获得邻区用户群指数,其值越大表明共有用户群的规模越大。(2)其中,NSR 表示邻区用户群指数,ncell_sample_total 表示服务小区下测量到的相邻小区用户群,cgi_sample_total 表示服务小区测量到的有效用户群。公式(3)是对服务小区和相邻小区的距离做归一化处理,获得距离相关指数,其值越大表明服务小区和相邻小区之间的距离越近。(3)其中,Distsn表示距离相关指数,dist 表示服务小区和相邻小区的实际距离(单位:m)。公式(4)对电平强度指数、邻区用户群指数、距离进行加权处理,得到邻区对的共覆盖关系强度指数。其值越大,表明共覆盖关系的可能性越大。(4)其中,Rstrength表示邻区对的共覆盖关系强度指数。3.5 共覆盖识别完成模型建立后,将清洗好的 MR 数据导入共覆盖识别模块进行处理,获得小区对级共覆盖关系强度指数数据。如图 6 所示,数据流入共覆盖识别模块,模块依据共覆盖模型进行处理,并添加 Rstrength数据。然后数据进入数据审计模块,审