多核
处理器
结构
功耗
评估
优化
关键技术
研究
申请代码:受理部门:收件日期:受理编号:国家自然科学基金 申 请 书 国家自然科学基金 申 请 书(2 0 0 8 版)(2 0 0 8 版)资助类别:亚类说明:附注说明:项目名称:申 请 者:电话:依托单位:通讯地址:邮政编码:单位电话:电子邮件:申报日期:2008年3月15日 国家自然科学基金委员会 您现在不能检查保护文档或打印文档,请根据以下三个步骤操作:您现在不能检查保护文档或打印文档,请根据以下三个步骤操作:1)如果您是如果您是 Word2000 或以上版本用户,请把或以上版本用户,请把 Word 宏的安全性设为宏的安全性设为:中中 方法方法:Word 菜单菜单-工具工具-宏宏-安全性安全性-安全级安全级,设置为设置为中中 (如果您是如果您是 Word97 用户,继续执行以下步骤用户,继续执行以下步骤)2)关闭本文档,重新打开本文档关闭本文档,重新打开本文档 3)点击点击启用宏启用宏按钮,即可开始填写本文档或打印了按钮,即可开始填写本文档或打印了 国家自然科学基金申请书 2008 版 第 2 页 版本 1.004.538 基本信息基本信息 pRomYhas 姓名 张张戈 性别男 出生年月1983 年 2 月 民 族 汉族 学位 博士 职称助理研究员 主要研究领域低功耗处理器设计 电话 010-62600851 电子邮件 传真 010-62623565 个 人 网 页 工 作 单 位 中国科学院计算技术研究所/系统结构部微处理器研究中心 申 请 者 信 息 申 请 者 信 息 在研项目批准号 名称 中国科学院计算技术研究所 代 码 10008023 联系人 罗瑞丽 电子邮件 依托单位信息 依托单位信息 电话 010-62601108 网站地址 单 位 名 称 代 码 合作单位信息 合作单位信息 项目名称 多核处理器结构级功耗评估与优化关键技术研究 资助类别 青年科学基金项目 亚 类 说 明 附注说明 申请代码 F0203:计算机体系结构 基地类别 预计研究年限 2009 年 1 月 2011 年 12 月 研究属性 应用基础研究 项 目 基 本 信 息项 目 基 本 信 息 摘 要(限 400 字):摘 要(限 400 字):功耗是导致片上多核处理器出现的重要诱因,也是片上多核处理器设计的重要制约因素。如何在结构级降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间。本项目从提高多核处理器功耗模拟的准确性与灵活性的角度出发,研究多核处理器结构级功耗评估与优化的关键技术。通过对多核处理器电路的精确实现与分析,以及基于物理反馈的功耗建模机制,提出创新高效的结构级多核功耗评估方法和模拟平台,将基础性原理算法结构研究,和技术实现有效结合起来。并在此基础上,以片上网络的功耗有效性为研究对象,开展多核处理器的片上互连功耗优化,寻求提高多核处理器可扩展性与功耗有效性的多核互连结构,并希望将上述研究成果应用到未来的国产多核处理器如龙芯 3 号处理器的设计中。关 键 词关 键 词(用分号分开,最多 5 个)片上多核处理器;功耗分析;低功耗设计;片上网络 国家自然科学基金申请书 2008 版 第 3 页 版本 1.004.538 项目组主要成员项目组主要成员(注:项目组主要成员不包括项目申请者,国家杰出青年科学基金类项目不填写此栏。)编号 姓 名 出生年月 性别职 称 学 位 单位名称 电话 电子邮件 项目分工 每年工作时间(月)1 王剑 1971-6-6 男 副研究员 硕士 中国科学院计算技术研究所 62600842 模拟平台设计及开发 8 2 张锋 1977-4-8 男 助理研究员博士 中国科学院计算技术研究所 62600818 电路设计与功耗建模 6 3 凡启飞 1983-6-11 男 博士生 硕士 中国科学院计算技术研究所 62600849 功耗模拟器设计10 4 张量 1981-8-12 男 博士生 硕士 中国科学院计算技术研究所 62600851 结构级功耗有效性评估 10 5 王君 1982-10-19 男 博士生 硕士 中国科学院计算技术研究所 62600820 片上网络研究9 6 杨杨梁 1982-10-20 男 博士生 硕士 中国科学院计算技术研究所 62600820 电路设计 9 7 徐徐君 1980-12-7 男 博士生 硕士 中国科学院计算技术研究所 62600818 功耗模拟器设计9 8 郝郝守青 1982-10-16 女 硕士生 学士 中国科学院计算技术研究所 62600851 结构级功耗有效性评估 8 9 杨杨荣秋 1984-10-30 男 硕士生 学士 中国科学院计算技术研究所 62600851 片上网络研究8 总人数 高级 中级 初级 博士后 博士生 硕士生 10 1 2 0 0 5 2 说明:高级、中级、初级、博士后、博士生、硕士生人员数由申请者负责填报(含申请者),总人数自动生成。国家自然科学基金申请书 2008 版 第 4 页 版本 1.004.538 经费申请表经费申请表 (金额单位:万元)科目 申请经费 备注(计算依据与说明)一.研究经费 一.研究经费 21.5000 1.科研业务费 18.0000 (1)测试/计算/分析费 4.8000做功耗、性能模拟的高性能计算机时费,部分 EDA软件授权费(2)能源/动力费 1.2000水、电、暖费(3)会议费/差旅费 6.4000参加学术交流(参加国际会议约 2-3 人次,参加国内会议 8-9 人次)(4)出版物/文献/信息传播费 5.6000资料(0.8 万);发表文章、专利(3.8 万);网络费(1.0 万)(5)其它 0.0000 2.实验材料费 1.5000 (1)原材料/试剂/药品购置费 1.5000办公用品、打印机耗材(2)其它 0.0000 3.仪器设备费 2.0000 (1)购置 2.0000测试用基准程序(0.8 万);1 台 PC 机(0.7 万)移动硬盘 U 盘(0.5 万)(2)试制 0.0000 4.实验室改装费 0.0000 5.协作费 0.0000 二.国际合作与交流费 二.国际合作与交流费 2.5000 1.项目组成员出国合作交流 2.0000出国合作交流 1-2 人次 2.境外专家来华合作交流 0.5000拟聘请普林斯顿大学 Li-Shiuan Peh 教授来访指导工作一次 三.劳务费 三.劳务费 4.5000部分学生 RA 费用(博士生每月 300 元,硕士生每月 200 元)四.管理费 四.管理费 1.5000管理费用 合 计 合 计 30.0000 国家其他计划资助经费 0.0000其他经费资助(含部门匹配)0.0000与本项目相关的 其他经费来源 其他经费来源合计 其他经费来源合计 0.0000 国家自然科学基金申请书 2008 版 第 5 页 版本 1.004.538 报告正文(一)立项依据与研究内容 报告正文(一)立项依据与研究内容 1、项目的立项依据 1、项目的立项依据 半导体工艺的迅速发展使微处理器的速度和集成度越来越高,同时处理器的功耗与散发的热量也呈指数级增长,每三年处理器的功耗密度就能翻一番,低功耗和热优化设计已经成为微处理器研究中的核心问题。目前越来越多的处理器设计朝着单片多核处理器(Chip Multi-Processor,简称CMP)1的方向发展,学术界与产业界在技术走势上也越来越趋同,那就是CMP结构为设计主思路,在追求处理器速度和性能的同时,越来越多地关注处理器的功耗与效能。多核处理器的主要设计思想是通过简化超标量结构设计,将多个相对简单的超标量处理器核集成到一个芯片上,这样可以充分利用工艺进步带来的数以亿记的晶体管的增加,同时避免连线延迟的影响,并充分开发线程级并行性(TLP),提高处理器吞吐量。目前已经有大量的基于多核结构的处理器芯片面世,如IBM Power52、Intel Montecito3、Sun Niagara4、CELL处理器5等。虽然从一定程度上讲,多核结构有效避免了单处理器核功耗的持续增长,但是,多核处理器的多核心结构决定了其相关的功耗研究仍是一个至关重要的课题。在目前大量涌现的多核处理器中,功耗有效的结构设计也是决定处理器是否具有可扩展潜力以及好的性能功耗比的重要因素之一,因此需要对多核处理器结构的功耗评估和优化方法进行深入的研究。正确有效的功耗分析是有效开展低功耗设计的基础,从功耗来源上看,CMOS电路产生的功耗主要分为动态功耗和静态功耗。随着工艺进入纳米级(90纳米以下)和晶体管数目的增长,漏电功耗的问题在多核处理器中已经越来越严重。从功耗评估的方法上看,功耗评估研究的两个焦点问题是精度和效率问题。通常来讲,功耗评估和优化工作的抽象层次越高,其分析精度就越差,但其分析效率和功耗优化技术的成效就越好。反之,抽象层次越低,其分析精度就越高,但其分析效率和功耗优化技术的成效就越差。在片上多核处理器的设计中,由于处理器各个层次的设计都受到功耗因素的制约,不同构件间又存在相互影响。能否在设计早期就对功耗进行完整和准确的测量,并对不同的设计方案作出评价,具有非常重要的意义。鉴于结构级功耗评估的重要性,国内外已有很多学者和机构对此进行了研究,在针对单处理器核的功耗评估方面,应用较为广泛的结构级功耗模拟器就包括Wattch6,SimplePower7,Sim-Panalyzer8,PowerTimer9,Hot-Leakage10,XTREM11,Sesame12 等,在上述模拟器中,以Wattch最具有代表性,也是目前学术界应用最多的功耗模拟器之一,它的基本做法是按照功能把处理器分成不同的模块,对每个模块基于分析或经验赋予相应的功耗代价,并与性能模拟器相结合,根据模块被访问的次数计算出相应功耗。另外,随着多核处理器和片上系统(System on Chip,SoC)的流行,针对片上路由和互连线的高层模拟器也应运而生,如Orion13,INTACTE14等。但是,由于结构级功耗评估的固有难度与不准确性,目前的处理器结构级功耗分析工具也只限于在学术领域的一些研究应用,还难以见到商业化的产品。国家自然科学基金申请书 2008 版 第 6 页 版本 1.004.538 结构级功耗模拟的主要问题在于无法对处理器模块的实际电路特性(如晶体管尺寸、物理连线、实际工艺参数,以及电路形式等)进行准确的刻画,因此其功耗模拟误差较大。以目前应用最广泛的Wattch为例,它把处理器中的大部分结构归结为RAM/CAM两类结构,这种映射方式过于抽象,不能很好地反应真实处理器设计中的情况。之外,面对新工艺与新结构,片上多核处理器的功耗建模还存在以下几个新的挑战:1)纳米级工艺条件下的功耗新问题。工艺进步使得片上多核处理器可以集成更多的晶体管,目前已经有越来越多的处理器采用65nm和45nm设计,如正在研制中的龙芯3号多核处理器就采用了国际上较为先进的65nm工艺。在这种工艺条件下,工艺偏差对性能和功耗的影响加大,芯片的电压降(IR-Drop)以及在片波动(On-Chip Variation)问题严重,片上连线的数目和宽度都显著增加,连线功耗占处理器总功耗的比重不断上升(如有的处理器中导线功耗已占到处理器总动态功耗的50%以上15,并且研究表明这种趋势在多核处理器环境下将更加突出16)。与此同时,多核处理器中漏电功耗的比重也越来越大,在工艺特征尺寸小于90纳米条件下广泛采用了多阈值电压工艺,因此必须慎重评估上述各个方面对多核处理器设计的影响,结合准确的电路与工艺参数进行功耗计算;2)多核处理器中结构变化对功耗的影响。多核处理器所集成的单个处理器核必须保持良好的低功耗特性,因此不再像传统单处理器那样,为了一味地追求性能而采用过于复杂的结构,转而在设计中尽量使结构简洁有效,更加倾向于采用以往的嵌入式处理器内核的结构,因此以往的高性能通用处理器的功耗评估模型会显得不太适应。另外,对多核处理器中新出现的互连部件,如交叉开关(crossbar)、路由器(router)、缓冲器(buffer)等,都需要进行细致和单独的功耗建模;3)物理实现方法对功耗的影响。对于同一种结构,其不同的物理实现方法会造成完全不同的功耗结果,如龙芯2F处理器核与龙芯2E处理器核17采用了完全相同的体系结构,但通过物理设计中的优化措施使得龙芯2F处理器的平均功耗降低了30%40%,因此不同的物理实现方法对处理器实际功耗有着很大的影响。在多核处理器中,处理器核为了保持良好的低功耗特性,往往采取了更加复杂的功耗管理手段,如动态频率、电压调节,低功耗任务调度,睡眠、休眠各种低功耗模式等,并且在电路设计方法上开始由传统的全定制动态电路设计转向动态、静态混合的电路设计,在这种情况下,结构级功耗评估方法如果不能考虑物理实现的具体变化,其功耗评估的结果将变得更加不可靠。因此,一个好的结构级多核功耗评估模型应该能够考虑到上述各方面因素,正确评估结构、工艺与电路的各方面变化对功耗评估结果的影响,从而为结构设计者提供准确可信的功耗参考数据,为多核结构的功耗优化提供指导和服务。在功耗优化方面,传统单核处理器的大多数低功耗技术都可以继续应用于多核处理器,但与传统单核处理器所不同的是,多核处理器特有的多核互连结构使得多核设计必须关注片上互连的研究。在互连方式上,片上网络18目前被普遍认为是一种最有希望的多核片上互连解决方案,已经成为学术界研究的热点,但另一方面,片上网络的功耗也占据了处理器功耗的很可观的一部分,例如在Alpha 21364 中互连网络的功耗占据了整个处理器总功耗的25%19,而MIT的Raw处理器中的片上互连网络占据了处理器总功耗的36%,其中每个本地节点上的Router的功耗占据节点功耗的40%20,因此 国家自然科学基金申请书 2008 版 第 7 页 版本 1.004.538 研究片上网络的功耗有效性对提高整个多核处理器的功耗效率有着重要意义。可以从不同角度降低片上网络功耗,如微体系结构与互连电路的选择,Cache一致性协议的优化,以及访存地址到片上网络节点的映射方法等。如文21针对片上网络Router提出了3个低功耗技术:Segment Crossbar、Cut-through Crossbar和 Write-through Buffer。文22提出把片上网络FIFO从物理上划分为控制信号与数据信号两部分,并根据消息的性质采用部分预充电,从而降低功耗。文23将动态电压缩放(Dynamic Voltage Scaling,DVS)技术应用于片上网络的互连线,采用基于历史信息的DVS策略,根据连线的占用状况调整连线的电压和频率。文24提出了一种新颖的访存请求到分散共享的二级Cache存储块的映射方法,通过合理的映射,可以使得访存请求尽可能多地由靠近处理器核的二级Cache块应答,降低片上网络的延迟和功耗。综上所述,我们有必要对多核处理器的功耗分析和评估方法进行深入研究,在精度和效率之间进行更好地权衡,提出一种行之有效的功耗分析方法,来满足现有的设计需求;建立一个多核功耗模拟的平台,评估不同的结构设计对多核处理器功耗的影响。并在此基础上,进一步开展以片上网络为主要优化对象的低功耗设计,提出功耗有效的多核处理器互连结构,使之应用到国产多核处理器如龙芯3号的处理器设计中。参考文献:1Hammond L.,Nayfeb B.A.,Olukontun K.A single-chip multiprocessor.IEEE Computer,1997,30(9):79-85.2Kalla R.,Sinharoy B.,Tendler J.M.IBM Power5 Chip:A dual-core multithreaded processor.IEEE Micro,2004,24(2):40-47.3Naffziger S.,Stackhouse B.,et al.The implementation of a 2-core,multi-threaded itanium family processor.IEEE Journal of Solid-State Circuits,2006,41(1):197-209.4Kongetira P.,Aingaran K.and Olukotun K.Niagara:A 32-Way Multithreaded Sparc Processor,IEEE Micro,2005,25(2):21-29.5Pham D.,Behnen E.,et al.The Design and Implementation of a First-Generation CELL Processor.In:Proc.of the 2005 IEEE International Solid State Circuits Conference,San Francisco,CA,USA,pp.45-50,February 2005.6 D.Brooks,V.Tiwari,and M.Martonosi.Wattch:A framework for architectural-level power analysis and optimizations,In Proceedings of the 27th Annual International Symposium on Computer Architecture,pp.83-94,June 2000.7 W.Ye,N.Vijaykrishnan,M.Kandemir and M.Irwin.The design and use of simplepower:a cycle-accurate energy estimation tool,Proceedings of 38th Design Automation Conference,pp.340-345,June 2000.8 Project T.S.P.M.Sim-Panalyzer2.0_Reference Manual,Tech Report.University of Michigan,the University of Colorado,2004.9 D.Brooks,P.Bose,V.Srinivasan,M.Gschwind,P.Emma,M.Rosenfield.New methodology for early-stage,microarchitecture-level power-performance analysis of microprocessors.IBM Journal of 国家自然科学基金申请书 2008 版 第 8 页 版本 1.004.538 Research and Development,Sep-Nov 2003.10 Zhang Y.,Parikh D.,Sankaranarayanan K.,et al.Hotleakage:A temperature-aware model of subthreshold and gate leakage for architects:Tech Report.CS-2003-05.Department of Computer Science,University of Virginia,2003.11 Gilberto Contreras,Margaret Martonosi,Jinzhan Peng,Roy Ju,Guei-Yuan Lueh.XTREM:a power simulator for the Intel XScale core.ACM SIGPLAN Notices.2004,39(7):115-125.12 van Stralen,P.Pimentel,A.D.Signature-based Microprocessor Power Modeling for Rapid System-level Design Space Exploration.IEEE/ACM/IFIP Workshop on Embedded Systems for Real-Time Multimedia,pp.33-38,Oct.2007.13 Hang-Sheng Wang Xinping Zhu Li-Shiuan Peh Malik,S.Orion:a power-performance simulator for interconnection networks.Proceedings.35th Annual IEEE/ACM International Symposium on Microarchitecture,pp.294-305,2002.14 Rahul Nagpal,Arvind Madan,Amrutur Bhardwaj,Y.N.Srikant.INTACTE:an interconnect area,delay,and energy estimation tool for microarchitectural explorations.Proceedings of the 2007 international conference on Compilers,architecture,and synthesis for embedded systems.Salzburg,Austria.pp.238-247,2007.15 N.Magen,A.Kolodny,U.Weiser,and N.Shamir.Interconnect-Power Dissipation in a Microprocessor.In Proceedings of the 2004 international work-shop on System level interconnect prediction,pp.7-13,2004.16 R.Kumar,V.Zyuban,and DM Tullsen.Interconnections in Multi-Core Architectures:Understanding Mechanisms,Overheads and Scaling.In Proceedings of 32nd International Symposium on Computer Architecture,pp.408-419,2005.17 Wei-Wu Hu,Ji-Ye Zhao,Shi-Qiang Zhong,Xu Yang,Elio Guidetti,and Chris Wu.Implementing a 1GHz Four-Issue Out-of-Order Execution Microprocessor in a Standard Cell ASIC Methodology,Journal of Computer Science and Technology,2007,22(1):1-14.18 William J.Dally and Brian Towles.Route Packets,Not Wires:On-Chip Inteconnection Networks.In DAC 01:Proceedings of the 38th conference on Design automation,pp.684-689,2001.19 Hang-Sheng Wang,Li-Shiuan Peh and Sharad Malik.Power-Driven Design of Router Microarchitectures in On-Chip Networks.In Proceedings of the 36th International Symposium on Microarchitecture,San Diego,CA:IEEE Computer Society,pp.105-116,November 2003.20 J S Kim,M B Taylor,J Miller et al.Energy characterization of a tiled architecture processor with on-chip networks.In Proceedings of the International Symposium on Low Power Electronics and Design,pp.424-427,2003.21 HS.Wang,L-S.Peh,N.Jha,Power-driven design of router microarchitectures in on-chip networks,International Symposium On Microarchitecture(MICRO03).pp.105-116,Nov.2003.22 S.Banerjee and N.Dutt,FIFO Power Optimization for On-Chip Networks,Tech Report.03-40,December 19,2003.23 Shang L,Peh L S,Jha N K.Dynamic Voltage Scaling with Links for Power Optimization of Interconnection Networks.In:Proceedings of HPCA03,Anaheim,CA.pp.91102,2003.24 L.Jin,H.Lee,and S.Cho.A Flexible Data to L2 Cache Mapping Approach for Future Multicore 国家自然科学基金申请书 2008 版 第 9 页 版本 1.004.538 Processors,Proc.Workshop Memory Systems Performance and Correctness,pp.92-101,Oct.2006.2、项目的研究内容、研究目标,以及拟解决的关键问题。2、项目的研究内容、研究目标,以及拟解决的关键问题。本项目的研究目标是:针对多核处理器结构,提出准确适用的功耗建模与分析方法,提高功耗模拟的速度与精度,并在此基础上实现一个通用可扩展的、功耗模拟精度世界领先的开放式功耗模拟平台。利用该平台,指导片上多核的低功耗结构设计与物理设计,评估微体系结构设计对多核处理器功耗效率的影响,并设计功耗有效的片上网络结构,为未来国产多核系列处理器的研制提供指导。根据上述研究目标,本项目重点开展以下三个方面的研究内容:1)基于物理反馈的功耗建模方法。处理器结构级功耗分析的准确性必须建立在对处理器物理实现的准确刻画上,因此项目拟采用基于物理反馈的功耗建模方法来提高结构级功耗模拟的准确性。其基本思想是:把处理器的结构研究与电路研究紧密结合,通过对多核处理器中各种基本功能模块进行参数化电路实现和功耗特征提取,使得处理器电路的物理信息能够灵活而准确地反馈至上层结构级模拟工具,从而使得传统结构级功耗模拟方法中不好估计的物理参数(如晶体管尺寸、模块内连线以至漏电功耗等)都具有真实而详细的数据,从而大大提高结构级功耗模拟的准确性。在基于物理反馈的功耗建模方法中,需要对多核处理器所用到的各种电路结构及其功耗特性进行深入地分析,在具体方法上,需要对多核处理器中用到的各种功能结构进行基本块划分,然后以这些基本块作为功耗研究的最小单位,进行参数化的电路设计和功耗特征抽取。在这方面我们已经开展了一些基础性的研究工作,但该方法有以下关键技术需要我们重点研究并解决:拟解决的关键问题:?电路基本块的划分原则及方法。如何在功耗建模的复杂度与准确度之间进行权衡,是功耗建模方法研究中的关键问题。电路基本块大小的选择直接决定了功耗模拟器运行的效率和精度,可以认为基本块大小的上限是处理器的各个功能模块,而其下限则是处理器物理实现的各个逻辑门。基本块划分越小,其功耗模型表达越简单,但功耗分析时需要处理的基本块数目也越多,效率降低,并且对于基本块之间的接口互连等功耗就不能得到准确的刻画。基本块划分越大,需要考虑的状态变化情况越多,其功耗模型表达越复杂,因此功耗模型就越难建立,且调用起来缺乏灵活性。因此,必须选择合适的基本块粒度和准确适用的划分方法。?电路基本块的功耗特征表达 为了使得本研究建立的基本块功耗模型可以用于结构级的功耗分析,基本块的功耗模型要能够具有参数化实现的能力,使其不失一般性和通用性。另外,基本电路块在不同的输入状态及翻转概率下动态功耗和静态功耗都是不同的。为了精确描述这种不同,电路的功耗状态空间会随着电路细分以及电路规模和输入状态的扩大急剧膨胀。为了精确描述电路功耗,需要对这种状态空间进行处理,这是建立有效的功耗模型最困难的问题。因此,需要结合基本块的参数化表达,研究有效的状态空间压缩技术,最终实现为每个电路基本块建立标准的功耗库模型来刻画其功耗特征。国家自然科学基金申请书 2008 版 第 10 页 版本 1.004.538 2)结构级多核功耗模拟平台建立方法研究 本项目研究的一个重要目标是实现一个开放式的功耗模拟平台,因此通用的结构级功耗运行环境的建立技术也是一个重要的研究内容。众所周知,周期精确的指令集仿真器是结构级性能精确模拟的最佳选择,而结构级的功耗模拟器设计还没有特定的模型可参考。结构级功耗模拟的一般方法是和性能模拟器的设计结合在一起,进行增量式的功耗模拟的设计,从而较准确地表达出不同结构与输入程序下的性能与功耗变化关系。在我们的功耗模拟器的研究内容中,将借助于现有的一些多核性能模拟环境,调用基于物理反馈的功耗建模机制,把上层的结构与程序运行参数和底层的电路与工艺参数有效结合在一起,从而实现快速而灵活的实时功耗模拟。在该部分的研究内容中,研究重点是结构级功耗模拟的通用性与灵活性,以及功耗模拟准确性与速度的多方面平衡,为此项目提出以下关键技术有待解决和突破。拟解决的关键问题:?功耗模拟器的通用性与标准化设计。由于结构级模型的建立与待刻画的处理器微体系结构关系十分密切,建立通用性很强而又异常精确的结构级功耗模拟模型基本属于“不可能完成的任务”。处理器包括哪些模块以及每个模块由哪些基本电路块组成并不是固定的,而是和具体的处理器设计有关,因此项目需要结合基于物理反馈的功耗建模机制研究具体映射方法。另外,在项目提出的开放式功耗模拟平台中,要求结构级功耗模拟器和功耗模型库可以单独使用并方便地在第三方的性能模拟器中集成,为此需要功耗数据库与功耗模拟器之间,以及功耗模拟器与性能模拟器之间具有相对独立的特性,为此需要研究标准化和通用化的接口建立方法,这也是功耗模拟平台能否被国际同行广泛接受和使用的关键之一。?物理特性在结构级功耗模拟中的标记方法。不同的物理实现对同一种结构会带来不同的功耗结果,如何把不同的物理实现特性在结构级功耗模拟中准确地标记并反馈,是需要解决的关键技术之一。比如如何反映低功耗设计(如门控时钟、门控电源,多电压设计,多阈值电压设计等)对结构级功耗评估的影响?如何体现多核处理器中动态功耗管理(如动态电压、频率缩放,等待模式、睡眠模式等不同功耗模式的划分)对处理器运行过程中性能和功耗的实时反馈?对于上述这些问题,我们期望提出一种具有物理标记的功耗制导语言来对我们的功耗模拟器进行描述,从而较好地解决上述问题。2)片上网络的功耗有效性研究。片上网络(Networks on Chip-NoC)具有较高的吞吐率和较好的可扩展性,已经代替总线和交叉开关成为未来多核处理器互连结构的事实标准。但片上网络同时也引入了相当的功耗和延迟开销。而且随着未来多核处理器中处理器核的数目增加和片上互连线的加长,片上网络对于多核的影响力还有继续加大的趋势,因此研究片上网络的功耗有效性对于整个多核处理器的低功耗设计具有重要的意义。影响片上网络功耗的因素很多,主要可以分为两个方面:微体系结构和注入流量。微体系结构主要决定单个消息在片上网络中传递的功耗,而注入流量则决定片上网络中消息的密度和总量。我们需要详细地分析片上互连网络的行为特点,在此基础上提出功耗有效的片上网络结构,有效地降 国家自然科学基金申请书 2008 版 第 11 页 版本 1.004.538 低片上网络的功耗,从而提高整个多核处理器的功耗有效性。拟解决的关键问题:?片上时钟与互连线的功耗优化技术 片上时钟与互连线与是多核处理器片上网络中功耗的主要来源,同时也是对多核通信性能影响较大的部分。传统的时钟设计基本上基于全局同步的设计,这样使得设计简单并通信性能较高,但是由于片上多核处理器中硅片的增大和时钟负载的增加,使得要设计出满足低扭斜和低抖动要求的全局同步的时钟网络已经越来越困难,同时也不利于各模块进行独立的频率、电压调节。因此,有必要结合功耗管理方案与多核整体性能的研究提出片上多核处理器中时钟的功耗有效性设计方法。除时钟之外,片上网络中片上互连线的数目、宽度和延迟都显著增加,为此需要考虑对不同工艺和电路下的长互连线的延迟、功耗的自动优化方法,并以功耗-延迟积(EDP)为衡量指标,得到片上互连优化的最优结果。?功耗感知的互连协议与结构。片上网络的主要目的是提供简洁有效的网络协议使各个独立的模块能够相互快速地交换数据。对于多核处理器来说,片上网络是Cache一致性协议的载体,网络延时、带宽等重要结构参数影响着Cache一致性协议的发送,而cache一致性协议则决定片上网络中消息的注入流量,进而影响片上网络功耗。传统观念上,片上网络结构不需要理会Cache一致性协议的具体实现和请求的含义,只需要保证能够快速准确地将数据在源节点和目的节点之间传输即可,这种互连协议与互连结构相对独立的实现方便对于多核的结构进行改进,但从功耗的角度看也提供了针对互连协议进行互连结构优化的空间。本项目拟提出功耗感知的互连协议与结构,从多核互连结构与互连协议紧密结合的角度出发,对片上网络的互连结构进行功耗优化,降低cache一致性协议在片上网络上的功耗开销。3、拟采取的研究方案及可行性分析。3、拟采取的研究方案及可行性分析。本项目从提高多核处理器结构级功耗建模的通用性和准确性的角度出发,将基础性原理算法结构研究,模拟实验平台,和技术实现结合起来。本项目希望通过分析现有结构级功耗模拟方法的不足之处,结合多核处理器的结构设计与物理设计的实际工作,提出创新高效的多核结构级功耗评估方法和模拟平台,并在此基础上,以片上网络的功耗有效性为研究对象开展多核处理器的功耗优化工作,寻求提高多核处理器可扩展性和功耗效率的多核互连结构与协议,并希望将上述研究成果应用到未来的国产处理器如龙芯 3 号多核处理器的设计中。根据上述思路,本项目的研究方案分为以下几个步骤:第一步:研究多核功耗建模的基础性原理,对多核处理器的基本结构进行功耗划分和功耗分析,在基本电路块级别形成可供上层模拟器调用的功耗特征表达方法与模型。第二步:以龙芯 3 号处理器的性能模拟器为参考和实现基础,构造多核结构级功耗与性能模拟平台,完成多核功耗模拟器的具体设计。该模拟器具有抽象层次高,速度快,且具有准确性好、易于修改,便于进行体系结构评价的特点。国家自然科学基金申请书 2008 版 第 12 页 版本 1.004.538 第三步:基于多核功耗模拟平台,进行各种体系结构级的多核功耗有效性评估与功耗优化研究。重点针对片上网络结构,研究片上互连的功耗有效性,提出功耗有效的片上网络设计。在第一个阶段,我们主要考虑采用基于物理反馈的方法,对多核处理器基本块的功耗特性进行研究与分析。在研究过程中,需要建立起一个通用的,能对各种基本电路结构和不同工艺进行参数化实现和功耗计算的EDA平台。在上述方面,我们具备了良好的实验环境和实验基础。在实验环境上,我们拥有主流EDA厂商(包括Synopsys 和Cadence)从前端芯片设计到后端电路仿真的全套EDA设计工具,拥有国内外多家Foundry厂商(包括中芯