分享
中移研究院+发展新型智算中心-打造智能算力网络-17页-WN9.pdf
下载文档

ID:3495493

大小:12.97MB

页数:19页

格式:PDF

时间:2024-05-16

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
研究院 发展 新型 中心 打造 智能 网络 17 WN9
发展新型智算中心发展新型智算中心 打造智能算力网络打造智能算力网络段晓东段晓东中国移动研究院中国移动研究院群内每日免费分享5份+最新资料 群内每日免费分享5份+最新资料 300T网盘资源+4040万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长 全面赋能!添加微信,备注“入群”立刻免费领取 立刻免费领取 200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音扫码先加好友,以备不时之需扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料关注公众号获取更多资料中国移动算力网络发展历程回顾中国移动算力网络发展历程回顾算力网络发展主线中国移动从中国移动从算网基础设施构建算网基础设施构建、业务融合创新业务融合创新、创新技术引领创新技术引领等多方面系统化推进算力网络建设和发展等多方面系统化推进算力网络建设和发展主线三主线三面向创新技术引领面向创新技术引领主线一主线一面向算网基础设施构建面向算网基础设施构建主线二主线二面向业务融合创新面向业务融合创新物理空间、逻辑空间、异构空间、多主体算力融通“4+N+31+X”布局,1100边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态产品算力化和算力产品化发布算网服务1.0构筑算网大脑实现创新技术引领,打造原创技术策源地三横两域体系架构提出十大技术发展方向三十二大核心技术继继往开来往开来,成功迈入算力网络新阶段,成功迈入算力网络新阶段起步:泛在协同发展:融合统一跨越:一体内生协同编排网随算动智能编排智慧内生算网一体一站服务、协同运营融合服务、统一运营一体服务,模式创新 十四五阶段十五五阶段及更长期2021-2023 2021-2023 2024-20252024-202520252025算网融合构筑算力网络发展源动力,构筑算力网络发展源动力,开创开创算网一体算网一体原创技术体系原创技术体系算力网络是算网交叉学科创新的重大契机,目标远大必付之全力。算力网络是算网交叉学科创新的重大契机,目标远大必付之全力。为构筑算力网络发展源动力,实现算网为构筑算力网络发展源动力,实现算网新服务的目标愿景,中国移动开创新服务的目标愿景,中国移动开创算网一体算网一体原创技术体系,联合产业一道形成一批原创技术体系,联合产业一道形成一批我国原创技术我国原创技术广域广域RDMARDMA突破广域传输性能瓶颈空芯光纤空芯光纤新型光纤介质与系统在网计算在网计算打破算网边界全调度以太全调度以太突破无损以太性能瓶颈算力度量算力度量打破单维算力指标移动算力移动算力5G、6G新增计算面算力路由算力路由突破互联网架构协议存算一体存算一体突破冯氏架构算力原生算力原生实现应用跨架构迁移400G/800G400G/800G超高速大容量全光网络G-SRv6G-SRv6统一IP承载协议算力卸载算力卸载多算力形态统一底座算力并网算力并网实现算力供给侧改革新一代新一代SD-WANSD-WANUnder与Overlay协同算力算力解构解构应用模块化解构部署算力智能算力智能内生内生计算要素创智能服务空天地一体空天地一体突破异构算网融合隐私计算隐私计算安全数据分析计算应用感知应用感知应用类型识别OTNOTN光电联动光电联动新型全光网架构全光接入全光接入新型接入网架构云原生云原生敏捷高效体系总线互联总线互联卡间高速通信50G PON+FTTR50G PON+FTTR新型接入网架构原创技术原创技术“5“5颗珍珠颗珍珠”:算力原生、算力原生、算力路由、全调度以太、在网计算、算力路由、全调度以太、在网计算、G-SRv6G-SRv6算力路由(算力路由(CATSCATS)CA-BGP-LS:出口节点向算力控制节点通告算力状态信息CA-BGP:采集算力信息,通过扩展BGP协议进行通告CA-OSPF:在域内泛洪算力信息为路由提供参考CA-Restful/json:通过restful协议接口收集Json消息算力信息CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置算力路由算力路由协议簇协议簇算力路由组网架构算力路由组网架构历时历时4 4年推动年推动IETFIETF成立算力路由工作组成立算力路由工作组CATSCATS,中国移动担任主席,中国移动担任主席2019202220192022年年5 5次研讨会次研讨会20232023年年3 3月月 CATS CATS WGWG成立暨首次会议,成立暨首次会议,是路由域最受欢迎的工作组之一是路由域最受欢迎的工作组之一算力路由的提出算力路由的提出发现问题云边以及边边调度之间出现“性能反转”问题本质计算和网络是独立系统算的负载和网的拥塞信息没有产生关联解决思路在路由中引入计算信息,进行联合调度工作组范畴和计划工作组范畴和计划目前已经完成工作组首个立项:目前已经完成工作组首个立项:CATSCATS问题分析、场景及需求问题分析、场景及需求聚力聚力“高、广、深高、广、深”,实现新发展,实现新发展推动算力成为与水电一样,推动算力成为与水电一样,“一点接入、即取即用一点接入、即取即用”社会级服务社会级服务最终实现最终实现“网络无所不达、算力无所不在、智能无所不及网络无所不达、算力无所不在、智能无所不及”的愿景的愿景提升提升高度高度拓展拓展广度广度挖掘挖掘深度深度算为中心打造算力供给高峰网为根基实现深度融合统一多要素融合开创一体化服务模式以算为中心、网为根基,网、云、数、智、安、边、端、链等深度融合、提供一体化服务的新型信息基础设施以算为中心、网为根基,网、云、数、智、安、边、端、链等深度融合、提供一体化服务的新型信息基础设施打造智能算力新高峰打造智能算力新高峰NICCNICC新型智算中心新型智算中心以以高性能高性能GPUGPU、AIAI加速卡加速卡为中心,以为中心,以高速互联高速互联智算集群智算集群为为目标,目标,形成集约化形成集约化建设的建设的E E级超大规模算力基础设施级超大规模算力基础设施,具备具备软硬件软硬件AIAI全栈环境全栈环境,支撑,支撑AIAI大模型的高效训练和推理大模型的高效训练和推理 新型智算中心新型智算中心新算效新互联新存储新平台新节能1 1、新型智算中心是对传统云数据中心的飞跃、新型智算中心是对传统云数据中心的飞跃在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,推动推动异构时期(异构时期(20212021)PCIePCIe 扣卡模组扣卡模组单机柜单机柜40KW40KW,冷,冷板式板式液冷液冷25G25G传统以太传统以太海量非结构化海量非结构化数据,融合存储数据,融合存储单机单机8 8卡卡高速互联高速互联算力算力池化池化,分布式,分布式训练训练独立存储独立存储裸机裸机/虚机虚机/容器容器风冷风冷集群时期(集群时期(20252025)存算一体存算一体冷板冷板/浸没式浸没式液冷液冷内存池内存池化化百卡高速总线百卡高速总线互联互联算算力力原生原生超级池化时期(超级池化时期(20252025)中小模型中大模型(百亿-千亿)大模型(千亿-万亿)DPUDPU高性能无损高性能无损网络网络NICCNICC新型智算中心新型智算中心传统云数据传统云数据中心中心GSEGSE平台平台存储存储节能节能算效算效互联互联2 2、NICCNICC新型智算中心的架构新型智算中心的架构基础设施基础设施智算平台智算平台ROCmROCmCUDACUDACANNCANNTesnsorFlowTesnsorFlowPyTorchPyTorchPaddlePaddlePaddlePaddleDeepSpeedDeepSpeed文件文件对象对象块块存储存储计算计算CPUCPUGPUGPU液冷液冷高效供电高效供电机房配套机房配套冷却水系统冷却水系统应用使能应用使能.跨架构编译器跨架构编译器算力抽象运行时算力抽象运行时算力原生算力原生智算运维智算运维裸金属实例裸金属实例虚拟机实例虚拟机实例容器实例容器实例DPUDPU 高速互联计算总线高速互联计算总线内存池内存池融合存储融合存储全局统一存储全局统一存储Hypervisor+Hypervisor+AIAI开发框架开发框架智算运营智算运营跨节点分布式跨节点分布式训练调度训练调度编排调度编排调度计量计费计量计费算力交易算力交易用户界面用户界面运营管理模块运营管理模块开发管理开发管理交付管理交付管理运维管理模块运维管理模块虚机虚机容器容器IaaSIaaS管理模块管理模块裸机裸机存储存储网络网络强化互联技术、强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级深化算力协同、定义新型存储、新增算力原生、升级绿色节能绿色节能构建标准统一、技术领先、软硬协同、兼容开放的构建标准统一、技术领先、软硬协同、兼容开放的NICCNICC新型智算中心技术体系新型智算中心技术体系网络网络RoCERoCEGSEGSE平台平台存储存储互联互联节能节能算效算效CIMCIM3-13-1、NICCNICC新互联新互联高速互联计算总线高速互联计算总线 千亿模型:千亿模型:高通信需求(张量并行)集中8卡之间万亿模型:万亿模型:高通信需求(MoE并行)集中在百卡之间0 01 12 23 34 45 56 67 70 01 12 23 34 45 56 67 70 01 12 23 34 45 56 67 7.Sever NSever NSever 2Sever 2Sever 1Sever 10 01 12 23 34 45 56 67 70 01 12 23 34 45 56 67 7Super SeverSuper Sever(S S2 2)架构)架构0 01 12 23 34 45 56 67 7基于高速计算总线的基于高速计算总线的S S的的架构架构模型参数模型参数从千亿迈向万亿从千亿迈向万亿,互联高需求从互联高需求从8 8卡扩展到百卡间卡扩展到百卡间0 01 12 23 34 45 5.N N一组有一组有N N张张GPUGPU/AI/AI卡卡0 01 12 23 34 45 5.N N一组有一组有N N张张GPUGPU/AI/AI卡卡计算总线总线总线 SwitchSwitch总线总线 SwitchSwitch总线总线SwitchSwitch总线总线 Switch Switch总线总线 Switch Switch总线总线 Switch Switch总线总线 Switch Switch更低延迟的内部通信更高效的数据读写更灵活的拓扑连接模型从千亿到万亿,高速卡间互联需求从模型从千亿到万亿,高速卡间互联需求从8 8卡扩展到百卡,智算设备形态将从卡扩展到百卡,智算设备形态将从S S(Server Server 服务器)服务器)演变演变为为S S(S Su uper Serverper Server,超级服务器),超级服务器),带来智算中心底层互联带来智算中心底层互联技术的全新变革技术的全新变革3-13-1、NICCNICC新互联新互联高性能新以太互联网络高性能新以太互联网络大模型以分布式训练为基础,通信开销导致大模型以分布式训练为基础,通信开销导致GPUGPU集群有效算力难以线性提升,集群有效算力难以线性提升,网络成为网络成为AIAI算力算力“瓶颈瓶颈”,亟需构建以新型以太网技术为基础,亟需构建以新型以太网技术为基础,开放兼容、超高性能的新型智算中心网络技术体系开放兼容、超高性能的新型智算中心网络技术体系专用网络、超高性能、成本昂贵专用网络、超高性能、成本昂贵InfiniBandInfiniBand生态开放、生态开放、性能有限性能有限、性价比高、性价比高传统无损以太传统无损以太传统:网络性能和成本无法兼得传统:网络性能和成本无法兼得以开放破垄断以开放破垄断以创新提性能以创新提性能未来:突破以太技术、升级高速互联未来:突破以太技术、升级高速互联流级流级ECMPECMP被动被动拥塞控制拥塞控制独立独立转发决策转发决策基础转发机制导致基础转发机制导致AIAI场景性能受限场景性能受限创新创新全调度以太网全调度以太网(GSE)(GSE),革新以太网底层转发机制,增强物理,革新以太网底层转发机制,增强物理层、链路层、网络层、传输层协议能力,全面提升网络性能层、链路层、网络层、传输层协议能力,全面提升网络性能盲发盲发+被动被动拥塞控制拥塞控制“局部局部”决策转发决策转发逐逐流流分发分发感知感知+主动主动流量控制流量控制“全局全局”最优调度最优调度逐逐“报文容器报文容器”分发分发分发粒度分发粒度发流模式发流模式转发策略转发策略AS-ISAS-ISTO-BETO-BE3-23-2、NICCNICC新存储新存储内存池化内存池化传统传统CPUCPU和和GPUGPU分立的存储分立的存储架构架构,导致数据大量搬移,导致数据大量搬移,影响模型训练效率影响模型训练效率需要构建需要构建CPUCPU和和GPUGPU间的统一内存池间的统一内存池,减少数据搬运,简化编程开发,使模型,减少数据搬运,简化编程开发,使模型训练更加高效训练更加高效传统:传统:HBMHBM和和DDRDDR分立分立未来:未来:HBMHBM和和DDRDDR池化池化数据多次复制,延迟高,影响模型训练数据多次复制,延迟高,影响模型训练效率效率AIAI模型开发复杂,需要手动管理数据模型开发复杂,需要手动管理数据搬移搬移CPUCPUGPUGPUDDRDDRHBMHBMCPUCPUGPUGPU统一内存池CPUCPUGPUGPUGPUGPUGPUGPUGPUGPUGPUGPUDDRDDRHBMHBMDDRDDRHBMHBM数据无需多次搬运,数据无需多次搬运,GPUGPU可可快速访问巨量共享内存快速访问巨量共享内存提供统一寻址空间,提供统一寻址空间,AIAI软件软件模型开发模型开发简化简化3-33-3、NICCNICC新算效新算效升级计算架构升级计算架构随着随着NICCNICC向超级池化阶段发展向超级池化阶段发展,解决海量数据处理要求,解决海量数据处理要求,需要需要聚焦聚焦GPUGPU升级,突破性能瓶颈,升级,突破性能瓶颈,加强加强CPUCPU、GPUGPU、DPUDPU三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级提升提升GPUGPU、CPUCPU、DPUDPU三大芯片协同三大芯片协同下一代下一代GPUGPU芯片芯片设计设计性能瓶颈性能瓶颈显存带宽和容量的显存带宽和容量的制约制约数据搬移的功耗数据搬移的功耗激增激增演进演进路线路线 存储一体化存储一体化设计设计 稀疏化稀疏化设计设计 算法和芯片协同设计算法和芯片协同设计 低时延推理架构低时延推理架构设计设计三大芯片协同提升算效三大芯片协同提升算效迎接更加爆炸式的数据处理迎接更加爆炸式的数据处理需求需求存算一体,突破传统计算范式存算一体,突破传统计算范式突破冯突破冯诺依曼架构诺依曼架构达到能效比数量级提升达到能效比数量级提升面向大模型推理面向大模型推理场景场景基于基于SRAMSRAM,中大算力,中大算力,100T100Tops+ops+无限擦写,无限擦写,数模混合,精度拼接数模混合,精度拼接GPU+DPUGPU+DPU,参数面网卡升级,进一步满足可编程拥参数面网卡升级,进一步满足可编程拥塞控制及大塞控制及大QPQP数量等前沿需求数量等前沿需求GPUGPU+DPU+CPU+DPU+CPU,智算资源,智算资源并池,大幅优化智算集群并池,大幅优化智算集群管理效率,实现文件存储卸载,加速训推过程管理效率,实现文件存储卸载,加速训推过程CPUCPUGPUGPUDPUDPU3-43-4、NICCNICC新平台新平台 引入算力原生引入算力原生智算应用难以在多样竖井化智算生态间迁移部署,制约系统整体运用效能。中国移动原创提出算力原生技术,打造智算应用难以在多样竖井化智算生态间迁移部署,制约系统整体运用效能。中国移动原创提出算力原生技术,打造“芯合芯合”算力原生跨架构平台,打破算力原生跨架构平台,打破“框架框架+工具链工具链+硬件硬件”紧耦合生态锁定,屏蔽底层硬件差异,繁荣全紧耦合生态锁定,屏蔽底层硬件差异,繁荣全“芯芯”生态生态跨架构综合编译器实现图算融合的跨架构综合编译、多级IR互转优化,生成中间元语格式的算力原生程序原生程序格式规范全系统共识的“中间元语”。Host侧、Device侧指令元语及执行策略的一体承载原生运行时实现“中间元语”跨厂商的再装配,智算应用跨架构、可变粒度映射执行一次开发、一次封装、跨芯迁移算力原生层跨架构流转的原生程序原生运行时 编程模型转换、编译、优化程序加载动态链接oneAPICUDANeuWareROCmCANN硬件层应用层框架层工具链Pytorch 3-53-5、NICCNICC新节能新节能标准化大规模液冷技术标准化大规模液冷技术智算中心走向超大规模,面对智算中心走向超大规模,面对不断攀升的能耗需求,液冷是必经之路不断攀升的能耗需求,液冷是必经之路但液冷产业生态不完善,设备但液冷产业生态不完善,设备标准化程度低,需要通过标准化程度低,需要通过“五大统一五大统一”实现实现三三“极极”目标目标TDP(W)20162019202020212022CPUCPUGPUGPU150-250250-300300-400250400500挑战挑战1 1:单一:单一AIAI服务器功耗超过服务器功耗超过10kW10kW700300W挑战挑战2 2:单机柜功耗:单机柜功耗超过超过4040kWkW通用服务器AI服务器5-10kW/架30-60kW/架kW/架15kw/架单机架功率举措:制定五大统一标准,实现三举措:制定五大统一标准,实现三“极极”目标目标液冷液冷机柜机柜冷却塔冷却塔冷水机组冷水机组CDUCDU二次侧供水二次侧回水一次侧回水一次侧供水机柜尺寸标准机柜尺寸标准液冷接口标准液冷接口标准液冷工质液冷工质要求要求供电系统标准供电系统标准监控管理要求监控管理要求五大统一五大统一极致能效极致能效 PUE1.15极高密度极高密度 单机柜功耗40kW极简运维极简运维 兼容传统机房三三“极极”目标目标12354共筑大模型发展智能底座开放协作普惠共赢群内每日免费分享5份+最新资料 群内每日免费分享5份+最新资料 300T网盘资源+4040万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长 全面赋能!添加微信,备注“入群”立刻免费领取 立刻免费领取 200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音扫码先加好友,以备不时之需扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料关注公众号获取更多资料

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开