分享
面向分布式机器学习的网络模态创新.pdf
下载文档

ID:2719996

大小:1.97MB

页数:8页

格式:PDF

时间:2023-09-17

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
面向 分布式 机器 学习 网络 创新
专题:多模态网络 面向分布式机器学习的网络模态创新 郭泽华1,朱昊文1,徐同文1,2(1.北京理工大学自动化学院,北京 100081;2.延安大学物理与电子信息学院,陕西 延安 716099)摘 要:分布式机器学习作为人工智能的主流计算架构,目前仍然存在数据性能传输不高、模型训练速度慢等缺陷,传统的网络模态无法满足分布式机器学习场景的通信语义,继而无法解决这些缺陷以进一步提升模型训练性能。采用多模态网络技术,基于应用特点设计了面向分布式机器学习场景的新型网络模态及其运行逻辑,为多模态网络技术在垂直行业的应用提供了借鉴意义。关键词:多模态网络;分布式机器学习;模型训练;人工智能 中图分类号:TP393 文献标志码:A doi:10.11959/j.issn.10000801.2023128 Network modal innovation for distributed machine learning GUO Zehua1,ZHU Haowen1,XU Tongwen1,2 1.School of Automation,Beijing Institute of Technology,Beijing 100081,China 2.School of Physics and Electronic Information,Yanan University,Yanan 716099,China Abstract:Distributed machine learning,as a popular computing architecture for artificial intelligence,still faces challenges of slow model training and poor data performance transmission.Traditional network modalities were un able to meet the communication needs of distributed machine learning scenarios,hindering the improvement of model training performance.New network modalities and operation logic for distributed machine learning scenarios using multimodal network technology were proposed.This approach was designed based on application characteristics and provides implications for the use of multimodal network technology in various industries.Key words:multimodal network,distributed machine learning,model training,artificial intelligence 0 引言 2017 年 7 月,国务院印发了新一代人工智能发展规划。规划中指出,以人工智能技术突破带动国家创新能力全面提升,引领建设世界科技强国进程1。机器学习技术作为人工智能的核心,需要进行高质量优先发展。当前,机器学习被广泛应用于人脸识别、购物网站预测推荐、自收稿日期:20230426;修回日期:20230609 基金项目:国家自然科学基金资助项目(No.62002019);CCF-之江实验室联合创新基金(No.K2022QA0AB02);嵩山实验室预研项目(No.YYJC022022009)Foundation Items:The National Natural Science Foundation of China(No.62002019),CCF-Zhijiang Laboratory Joint Innovation Fund(No.K2022QA0AB02),Songshan Laboratory Pre-research Project(No.YYJC022022009)45 电信科学 2023 年第 6 期 动驾驶、医疗诊断、诈骗检测、数据收集和处理等日常生活领域中,极大地提高了社会生产力和人们的生活水平。机器学习模型训练阶段消耗资源多、耗费时间长,是应用机器学习的主要瓶颈,弥补这两个缺点成为当前研究的主要方向。为了获得更好的模型预测精度,训练使用的数据集不断增大,训练使用的神经网络规模也不断增大,结构也越来越复杂。单个训练设备无法应对大规模的训练数据集与复杂的训练模型,导致模型的训练时间严重延长。为了加速模型训练,可以采用以分布式机器学习为代表的新型分布式计算架构。分布式机器学习部署在数据中心,借助数据中心丰富的算力资源进行机器学习模型训练,已经成为目前工业界和学术界主流的人工智能计算架构。在分布式机器学习模型训练过程中,训练设备利用本地数据训练出本地模型,通过与多个训练设备进行模型交互、模型更新等方式,实现迭代式并行分布式训练提升模型的整体训练速度2-4。参数服务器(parameter server,PS)是一种典型的分布式机器学习训练结构5。PS 训练结构如图 1 所示。PS 由服务器(server)和训练节点(worker)构成,服务器和训练节点均为主机。训练节点利用全局模型结合自身训练数据训练出本地模型6,并将本地模型(wtk代表第 k 个训练节点的本地模型)发送至服务器。服务器将多个训练节点上传的本地模型汇聚为全局模型(wt代表全局模型),并发送全局模型到训练节点用于下一轮迭代训练。训练节点之间的信息交互是分布式机器学习中的重要一环。当前的方式主要采用以互联网协议版本 4(Internet protocol version 4,IPv4)为主的传统网络模态进行。然而,传统模态存在结构僵化、配置僵化、业务需求适应性差等问题7。多模态网络的思想为解决这些问题提供了新思路8。多模态网络是一种全新的网络架构,它以网络结构全维可定义为基础9。和传统分层的网络架构不同,多模态网络从网络构造的角度提升网络的性能、功能、安全等需求,建立从网络底层到顶层全维可定义,灵活度高,实现网络结构按照性能、功能、安全等需求定义。多模态网络支持路由寻址、传输协议、连接方式、网元形态等多模态呈现,为满足多元化、个性化、智能化的网络业务需求提供了新的可能10。图 1 PS 训练结构 面向分布式机器学习应用场景,本文系统地分析了当前演进性与变革性网络模态的不足,并针对分布式机器学习的特点提出了新型网络模态的设计要求。在此基础上,为了支持高效、性能好的数据传输与加速模型训练流程,基于多模态网络技术,本文提出了支持感知训练节点训练结构与训练结果特征的新型网络模态结构,并基于该模态结构设计了训练运行逻辑。1 当前模态存在的问题 多模态网络基于开放融合的思想,以“全维可定义、多模态寻址与路由、网络智慧化、内生安全构造”为核心,通过网络结构的自组织和业务的自适配为层出不穷的网络业务提供多网络协议支持,满足未来网络业务高效率、智慧化、高可靠、低时延与内生安全的发展需求。按照模态的特点和应用场景,当前网络模态可以分为演进性模态与变革性模态两类。然而这两种模态都存在相应的问题,具体如下。专题:多模态网络 46 1.1 演进性模态的问题 演进性模态主要包括 IPv4、IPv6、分段路由IPv6(segment routing IPv6,SRv6)和多协议标签交换(multi-protocol label switching,MPLS)4 种模态。1.1.1 IPv4 模态的问题 在 IPv4 模态网络中,最新研究使用在网计算技术加速分布式机器学习训练。在网计算技术依托可编程网络设备提供的数据包可编程能力,可以将特定的计算、存储等处理任务从服务器卸载到可编程网络交换机进行。相比传统基于服务器的计算方式,在网计算的优势主要有两点。第一,在网计算减少了网络中的整体流量,有利于缓解网络拥塞现象,提升了应用的整体性能;第二,在网计算使用可编程交换机分担服务器的计算任务,降低了服务器的处理负载,有利于部署数据中心多租户环境。借助在网计算技术,分布式机器学习系统将训练过程中模型汇聚任务从服务器转移到可编程交换机上进行。基于在网计算的PS 训练结构如图2所示,该结构由训练节点、可编程交换机与服务器组成,可编程交换机位于训练节点和服务器之间。在训练过程中,各训练节点将训练后的本地模型通过可编程交换机发送至服务器。当可编程交换机收到本地模型后,对这些本地模型进行汇聚产生全局模型,并将全局模型更新到各训练节点用于下一轮迭代。相比使用服务器进行模型汇聚,基于在网计算的训练结构可以减少模型更新阶段中从训练节点到服务器上行传输流量,降低网络拥塞概率,减少了服务器进行模型汇聚的计算资源消耗,降低服务器中央处理器(CPU)的处理负载,从而减少整个训练过程的通信时延,提高训练效率,加速模型训练过程。在采用 IPv4 设计的单模态网络中,当前基于在网计算的典型分布式机器学习系统主要包含SwitchML11、聚合传输协议(aggregation trans-mission protocol,ATP)12、巴拿马(Panama)13、iSwitch14与 可 扩 展 分 层 次 聚 合 和 归 约 协 议(scalable hierarchical aggregation and reduction protocol,SHARP)15系统。其中,SwitchML 是第一个提出使用在网计算加速分布式机器学习的系统;ATP 提出了面向多租户、多训练任务、跨机架场景下的在网计算分布式机器学习系统;Panama 提出了针对在网计算分布式机器学习系统的流量均衡机制;iSwitch 利用现场可编程门阵列(FPGA)开发了面向强化学习的在网计算分布式机器学习系统;SHARP 以远程直接存储器访问(remote direct memory access,RDMA)为传输协议,部署专用的 Infiniband(IB)网卡与 Infiniband交换机加速分布式机器学习模型训练。图 2 基于在网计算的 PS 训练结构 然而,单模态网络中基于在网计算的分布式机器学习系统存在模型训练速度容易受到慢训练节点拖尾影响的问题。在每轮模型训练迭代过程中,可编程交换机需要等待所有训练节点的梯度全部到来之后才能完成汇聚。受到训练节点计算负载、网络状况等多种因素影响,可编程交换机需要较长的等待时间才能收集到所有训练节点的梯度。因此,即使训练速度较快的节点率先完成梯度计算与传输,该节点也必须在收到更新后的全局模型才能进行下一轮迭代训练,从而影响了模型训练速度并浪费了训练节点的计算资源。该47 电信科学 2023 年第 6 期 现象有可能频繁出现在多次迭代过程内,严重影响整个模型的训练。1.1.2 其他演进模态的问题 IPv6 是互联网工程任务组所设计的用于替代IPv4 的演进性模态。相比于 IPv4,IPv6 具备更大的可分配地址空间、更快的包转发速度、更强的协议安全性。然而,IPv6 协议的核心功能是数据包寻址与路由,其模态设计方式无法满足模型训练加速等分布式机器学习的需求。SRv6 是基于 IPv6 可达性与分段路由理念设计的用于承载网场景的演进性模态。SRv6 不仅可以通过源路由技术实现数据包精准路由,而且引入路由扩展头支持 3 层可编程空间,可以实现业务多样化的网络功能需求。但是,SRv6 的主要缺陷在于其段标识(segment ID,SID)字段较长,解析与转发功能实现开销大。由于数据中心网络拓扑相比广域网跳数更少、架构更加简单,使用SRv6 在数据中心内规划路由路径会浪费数据包头空间,资源利用率较低。此外,SRv6 虽然可以通过编程实现特定

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开