分享
王鹏:DPU硬件标准化的探索与实践-19页-WN9.pdf
下载文档

ID:3492063

大小:8.89MB

页数:21页

格式:PDF

时间:2024-05-16

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
王鹏 DPU 硬件 标准化 探索 实践 19 WN9
DPUDPU硬件标准化的探索硬件标准化的探索与实践与实践王鹏王鹏中国移动研究院中国移动研究院 项目经理项目经理群内每日免费分享5份+最新资料 群内每日免费分享5份+最新资料 300T网盘资源+4040万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长 全面赋能!添加微信,备注“入群”立刻免费领取 立刻免费领取 200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音扫码先加好友,以备不时之需扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料关注公众号获取更多资料目录目录章节一章节一:DPUDPU技技术现术现状及挑战状及挑战章节二:章节二:DPUDPU硬件标准化探索硬件标准化探索章节三:章节三:裸金属服务器技术规范裸金属服务器技术规范V2.0V2.0解读解读章节四:中国移动章节四:中国移动DPUDPU标准及生态建设标准及生态建设DPU技术现状及挑战DPUDPU技术现状及挑战技术现状及挑战DPU是继CPU、GPU之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等数据中心基础设施虚拟化能力的专用处理器DPU以数据为中心构建敏捷、灵活、高效的算力基础设施底座,实现极低损耗、极强性能、极高灵活、极致安全,支撑中国移动算力网络多样化业务需求极低损耗极低损耗CPU“零零”损耗损耗算力资源极致利用算力资源极致利用极强性能极强性能线速转发、极低时延线速转发、极低时延无损网络无损网络极高灵活极高灵活裸金属弹性发放裸金属弹性发放网络可编程网络可编程极致安全极致安全防火墙等安全功能加速防火墙等安全功能加速虚拟化安全能力增强虚拟化安全能力增强DPUCPU、GPU、AI芯片管理运维系统虚拟机容器裸金属业务网络、存储网络算力节点算力服务形态算力服务管理编排业务场景智能计算大数据云游戏分布式存储DPUDPU技术现状及挑战技术现状及挑战产业生态技术体系DPU与云平台、服务器三位一体共同构成端到端解决方案,任一环节的缺失均会影响产业落地技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织刚刚起步DPU落地商用需要云平台、DPU、服务器三方定向适配,导致适配时间长、成本高云计算的需求决定DPU技术体系,云计算新技术、新场景迭代频繁,使得DPU的“易用性”成为落地关键服务器DPU云平台各自为营、定向适配的商业模式限制了DPU的产业发展亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态稳步健康发展DPU硬件标准化探索DPUDPU硬件标准化硬件标准化探索探索DPU作为典型的软硬一体解决方案,亟需优先引导整机层及部件层标准化、通用化,为芯片与软件的深度整合及生态繁荣提供底层支撑服务器整机面对的问题DPU卡部件可看作在服务器内部的另一个小型服务器。DPU卡的引入对通用服务器设备在多个方面提出了定制化要求DPU卡部件面对的问题引入DPU后,服务器内多网卡替换为一张DPU卡。终端客户的组网方案、单节点网络带宽需求、带外纳管方案均存在较大差异,导致DPU卡关键硬件规格难以统一DPU卡裸金属服务器芯片层部件层部件层整机层整机层软件平台层标准化标准化DPUDPU硬件标准化硬件标准化探索探索服务器硬件标准化建议分两个阶段进行推进。于阶段一优先解决与硬件设计强相关的结构、供电、散热等需求,于阶段二迈入服务器与DPU卡紧密耦合的“深水区”,进一步收敛两者的在带外纳管、上下电协同、底层固件的关系。通过生态标准进行前期引导,待生态成熟通过企标及采购进行落地DPU卡硬件标准化建议通过生态标准优先对卡硬件架构、带外纳管等达成方案级别一致,再通过企标或限定场景的行业标准进一步约束端口数量规格、功能性能等具体设计要求 结构 供电 散热 辅助边带信号 带外纳管 上下电及运维 BIOS、BMC 其他硬件架构形态端口规格功耗温度范围功能性能服务器标准化阶段一服务器标准化阶段二DPU卡标准化阶段一阶段二DPUDPU硬件标准化探索硬件标准化探索硬件加速引擎网口Vender B:服务器网口协处理器 CPU带外管理供电Vender A:DPU卡CPUCPU电源带外管理散热模组PCIe槽位时序控制PCIe槽位1 12 23 34 4统一服务器结构及供电最大能力统一服务器结构及供电最大能力统一带外纳管方案统一带外纳管方案统一散热能力统一散热能力统一开关机方案统一开关机方案约束服务器可支持卡的最大结构规格及最大功耗门限约束服务器可支持卡在服务器未开机状态启动约束服务器支持未开机状态对卡进行散热及调速建议卡内带外信息由DPU带外管理模块统一汇总、统一管理、统一传递约束带外信息传递硬件通道建议由硬件管理平台对接 Host-BMC 及DPU带外管理模块,制定相关策略并完成统一控制,实现设备的优雅上下电在DPU裸金属服务器技术领域,于ODCC立项裸金属服务器技术规范,通过两个阶段的讨论,提出四个统一,旨在实现DPU与服务器设备之间的硬件解耦,及早引导产业进行针对性设计,突破新技术规模应用瓶颈裸金属服务器技术规范V2.0解读裸金属服务器技术规范裸金属服务器技术规范V2.0V2.0解读解读2.0规范围绕服务器与DPU卡硬件带外纳管、上下电、底层固件的关系进行了深入探讨并给出技术建议,进一步收敛并完善硬件技术细节,实现设备边界清晰感谢中国移动、中国电信、信通院、英特尔、中兴、华为、新华三、锐捷、NVIDIA、超聚变、烽火通信、联想、曙光、星云智联、凌华、忆联等十六家企业专家对本规范的大力支持DPU卡是否必须具备带外管理模块?DPU卡的带外管理模块与Host-BMC的顶层关系?带外管理模块应具备哪些必须功能?面向弹性裸金属应用,裸金属服务器的BIOS、BMC是否有特征需求可以进行归一化?DPU卡是在服务器内运行的“第二套小系统”,裸金属卡又作为PCIe Slave设备挂在Host-CPU下引入DPU卡后,卡与整机的上下电需要如何设计才可保证系统稳定运行?DPU卡带外管理模块Host-BMCHost-BMCHost-BIOS弹性裸金属应用裸金属服务器DPU裸金属服务器技术规范裸金属服务器技术规范V2.0V2.0解读解读管理需求一致硬件方案一致软件协议一致从终端客户管理运维角度,定义DPU卡带外管理模型模型既包含卡类信息,又包含主机类信息DPU卡内管理信息由带外管理模块统一汇总,避免DPU直接对主机暴露大量SensorDPU卡带外管理信息由Smbus或自身带外网口传递进一步定义双带外管理模块交互协议,实现BMC软件解耦裸金属服务器节点DPUDPU卡卡DPU处理器硬件加速引擎DPU带外管理模块Host-BMCHost-CPUPCIePCIe or 内部总线带外管理网络硬件管理平台基础设施管理DPU卡设备身份具备二重性,需要为新设备构建纳管新方案。项目组从带外管理需求、硬件方案、软件协议逐步达成技术共识已完成已完成已完成已完成待深入待深入裸金属服务器技术规范裸金属服务器技术规范V2.0V2.0解读解读弹性裸金属应用场景对于服务器的Host-BIOS和Host-BMC存在多项特征需求,需要围绕安全性及资源分配进行约束,从底层硬件保证裸金属业务持续性服务能力BIOS、BMC 安全性设计建议虚拟接口资源设计建议筛选能够影响到服务器安全性的Host-BMC控制命令,并对此类命令的带内操作权限进行限制Host-BIOS层面,建议针对Host-BIOS进行特殊限制,例如不能通过Hotkey进入BIOS Setup界面,以防止客户随意修改Host-BIOS设置Virtio设备热插拔要求:DPU卡对应的PCIe Root Port 需要为后端switch与virtio设备分配足够的资源,并为每个downstream switch的p-memory&np-memory 分配足够空间,例如2M设备数量要求:支持裸金属卡对应的PCIe Root Port 至少支持不小于32个后端Bus的扩展,以满足裸金属实例挂载需求,例如支持挂载16net+16blk;裸金属服务器技术规范裸金属服务器技术规范V2.0V2.0解读解读充分利用DPU卡可独立供电特性,硬件管理平台通过带外管理网络对接Host-BMC及裸金属卡带外管理模块,实现控制逻辑和被控设备彼此独立,由第三方对卡及服务器进行统一控制,实现系统的优雅上下电DPU卡带外管理模块Host-BMC裸金属服务器DPU卡硬件管理平台控制逻辑控制逻辑被控设备被控设备需要保证裸金属卡内作为Host-CPU PCIe Slave的部分完成启动后,主板CPU才进行上电及PCIe初始化工作,以避免设备错过PCIe初始化时间点导致设备丢失;当主板进入S0后,需要避免DPU卡下电导致Host端出现PCIe设备丢失;建议管理平台作为第三方,对DPU卡与裸金属服务器上下电进行统一管理;设计原则硬件方案中国移动DPU标准及生态建设中国移动中国移动DPUDPU标准及生态建设标准及生态建设中国移动从标准体系构建、产业生态催化两方面进行攻关,推动DPU产业稳步发展打造解耦开放型DPU标准和新生态发布发布DPUDPU技术白皮书技术白皮书阐明三大标准化方向阐明三大标准化方向CCSA TC1牵头DPU总体技术要求等行标立项CCSA TC606(ODCC)牵头裸金属服务器技术规范立项凝聚产业合力凝聚产业合力推进产业稳步健康发展推进产业稳步健康发展构建标准体系构建标准体系繁荣开源生态繁荣开源生态三大定位:产业聚合平台、技术方案实验床、业务场景孵化器生态聚合:已汇聚2828家云平台、服务器、DPU厂商1套DPU技术架构5大软件功能接口定义硬件4个维度统一中国移动中国移动DPUDPU标准及生态建设标准及生态建设中国移动发布NICC新型智算中心技术体系白皮书,指出DPU可在智算领域三大应用场景,与计算、网络、存储深度协同,助力算效提升面向不断涌现的新兴场景,希望产业共同探讨前沿技术方案,深化标准体系,普惠DPU能力统一统一云化云化管理管理高性能存储加速高性能存储加速RDMARDMA网络协同优化网络协同优化DPUGuest OSvirtio-fsRDMA硬件加速virtio-fsbackendFS client 裸金属、容器、虚机统一管理 多租户存储隔离,存储灵活分配 文件系统卸载,训练数据格式统一化 块存储协议栈硬件加速,提供高性能云盘 端网协同,满足可编程拥塞控制、超大QP数量等RDMA标卡无法解决的高级需求OSOSVMMOSK8SAI ServerDPU裸金属裸金属虚拟机虚拟机容器容器RNIC or DPU网新设备新协议新拓扑AI应用端端网络协议拥塞算法动态选路新流控AI应用网络协议拥塞算法动态选路中国移动中国移动DPUDPU标准及生态建设标准及生态建设未来,中国移动愿与开放数据中心一道未来,中国移动愿与开放数据中心一道持续推进新技术生态建设持续推进新技术生态建设芯片层级芯片层级部件层级部件层级整机层级整机层级多层级探讨硬件规范,聚拢产业伙伴,达成技术共识,助推产品规模应用多层级探讨硬件规范,聚拢产业伙伴,达成技术共识,助推产品规模应用群内每日免费分享5份+最新资料 群内每日免费分享5份+最新资料 300T网盘资源+4040万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长 全面赋能!添加微信,备注“入群”立刻免费领取 立刻免费领取 200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音扫码先加好友,以备不时之需扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料关注公众号获取更多资料

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开