加入收藏 | 设为首页 | 会员中心 | 我要投稿 佛山站长网 (https://www.0757zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 应用 > 正文

高效能计算部件中CPU的应用研究.doc 6页

发布时间:2022-12-15 14:06:37 所属栏目:应用 来源:未知
导读: 高效能计算部件中CPU的应用研究(邵磊,谢智勇,倪明()引言随着社会的发展和电子科技的进步,高效能计算机是一个国家在信息科技领域,甚至是国家科技水平的代表,它是现代社会的一个重要工

高效能计算部件中CPU的应用研究(邵磊,谢智勇,倪明()引言随着社会的发展和电子科技的进步,高效能计算机是一个国家在信息科技领域,甚至是国家科技水平的代表,它是现代社会的一个重要工具。高效能计算节点主要包括高效能中央处理器(CPU)、芯片组、交换芯片、接插件等计算部件组成。美国国防部于2002 年制定的高效能计算系统(High Productivity Computing Systems, HPCS)研究计划,首先提出以高效能作为新一代高性能计算机研制的目标,IBM PERCS, Cray Cascade, SUN Hero 成为首批入选计划[1]。高效能包含了高性能、可编程性、可移植性、稳定性等多个方面的要求。其他千万亿次研发计划, 如IBM Roadrunner, Cray Baker, SUN Constellation、日本京速计算机计划等,也将高效能列为其关键实现目标。高效能代表了高性能计算机研究的新方向。不同的高效能计算机体系结构有不同的实现方式。MPP系统多采用CPU + Router方案,cc-NUMA系统采用CPU+芯片组+交换机的方案,Cluster 系统采用CPU+芯片组+NIC+交换机的结构,芯片组提供标准的I/O 接口(如PCI-E),高速网络接口采用独立芯片实现,一端通过标准I/O 接口与芯片组连接,一端连接互连网络交换芯片,也有采用CPU+通信背板结构和流行趋势的CPU+GPU。

可见高效能计算部件的核心部件中的部件就是CPU。文章第2节主要研究多核多片用CPU器件的高效能体系架构,来剖析多核CPU的内部结构和应用模式,研究多核用CPU器件使用方法。以求达到为混合异构计算组件体系结构研究和高效能计算机工程研制及应用开发提供技术支持。第3节研究目前最先进的高效能计算部件CPU的应用情况以及多方面的对比。第4节总结高效能计算部件的CPU选型考虑的关键因素。高效能计算部件中CPU的分析本节分析的对象是HPC Top500榜单上的高性能计算机。主要分析了高效能计算部件中CPU的器件生产商,CPU内核数,CPU性能,功耗等。HPC Top500机器采用的CPU图1 HPC Top500中CPU各家族所占比例第三十五届国际超级计算大会刚刚在德国汉堡举行,最新的HPC Top500也随之出炉,纵观其所采用的高性能计算部件CPU分析如图1:HPC Top500中CPU各家族所占比例。500台中就有401台采用Intel EM64T家族CPU,仅有1台来自NEC CPU家族。在最新排行榜上高居第一的就是本月初刚刚完工的IBM Roadrunner,安放在美国能源部Los Alamos国家实验室,由IBM PowerXCell 3.2GHz和AMD Opteron DC 1.8GHz两种处理器组成,拥有122400个计算核心,最高性能1.026PFlops,峰值性能1.37578PFlops,功耗2345.5千瓦特。

前三名全部由IBM打造1、Intel处理器的比例依然最高,TOP500中有75%的系统都配置了Intel处理器,比上次增加了4.2个百分点。最受欢迎的是Intel Harpertown E5400系列,116套系统都使用了它。2、四核心处理器增长速度很快,目前已经得到了套系统的采纳,另外还有套双核心、套九核心 套单核心。图2:CPU核数统计在TOP500中所占比例3、性能方面IBM依然遥遥领先,占据了性能总和的48%cpu应用,提高3个百分点;惠普占据22.4%,减少0.5个百分点;之后是戴尔5.4%、SGI 4.4%、Cray 3.2%。、TOP500第一次加入了节能效率统计,不再单纯关注性能。这次最节能的系统是IBM QS22 Cell,性能功耗比最高488MFlops/W,其次是376MFlops/W的IBM蓝色基因/P,而蓝色基因/L效率只有210MFLops/W,只能排在第六位。、位列前十位的系统平均功耗1320千瓦特、平均效率248MFlops/W,前一百位平均功耗908千瓦特、平均效率193MFlops/W;所有五百套系统平均功耗257千瓦特、平均效率122MFlops/W。 [2]。

图3 近10年系统性能发展趋势CPU计算组件功耗分析高性能计算组件的CPU 90%以上是多核处理器,从高性能计算平功耗也随处理器核芯数量的增加成正比,处理器的制造工艺及运行性能都和CPU计算组件功耗密切相关。在80486之前的计算机上,处理器只需要一个简单的铝制散热片就足以确保正常运行,而现在的电脑即使安装了巨大的纯铜散热片也还需要高转速大风量的风扇把热量带走。功耗问题是经过很长时间才完全暴露在人们面前的,CPU散热器的发展极大程度地延缓了这个问题的凸现——散热器的散热方式由被动变为主动、散热器体积和重量的增大、风扇转速的提高和叶片形状的改变、嵌铜甚至纯铜风扇的应用、热管和液冷的出现等等等等……直到最近,当主流CPU频率不断提高、散热器的发展大大受到限制的时候,功耗和散热问题才真正成为人们关注的焦点CPU内部集成的晶体管数量的快速增加,基本上验证了摩尔定律所说的18个月晶体管数量翻一番的速度。工作的晶体管数量越多,消耗的能量就越多,所以晶体管数量的增加是导致能耗增长的一个重要因素。Intel新推的P4E功耗大增的一个非常重要的原因就是晶体管数目的增加Prescott内核的晶体管数现在所有CPU的硅片都是由CMOS(Complements Metal Oxide Semiconductor,互补型金属氧化物半导体)工艺制成。

COMS芯片的开关工作机制决定了能耗的增长方式。COMS芯片主要的能耗分为静态功耗和动态功耗。86就是采用(Complex Instruction Set Computer,复杂指令架构计算机)架构的处理器大多数CPU厂商生产的就是这种处理器与采用RISC(Reduced Instruction Set Computer精简指令架构计算机)架构的PowerPC不同在CISC处理器中,程序的各条指令是按顺序串行执行的,每条指令中的各个操作也是按顺序串行执行的。顺序执行的优点是控制简单,但计算机各部分的利用率不高,执行速度慢。诸如IA-32、x86-32、x86-64都是属于x86架构的。如Intel的32位服务器Xeon(至强)处理器系列、AMD的全系列,还有VIA的全系列处理器产品都属于x86架构的。图4 Intel奔腾系列典型X86架构如下图4:Intel奔腾系列典型X86架构。双核心CPU分别有自己的二级缓存,通过前端总线传送数据和指令。AMD酷龙微处理器体系结构(如图5)从已开始设计时就考虑了添加第二个内核,两个CPU内核使用相同的系统请求接口SRI、Hyper Transport 技术和内存控制器,兼容90纳米单内核处理器所使用的940引脚接口。

AMD酷龙直连架构(也就是通过超传输技术让CPU内核直接跟外部I/O相连,不通过前端总线)和集成内存控制器技术,使得每个内核都有自己的高速缓存和自己专用的I/O通道,无资源争抢的问题,实现了更小的内存延迟,并提供了更大的扩展空间,将使实现更多的处理器核变得更加容易。图5 AMD酷龙微处理器体系结构英特尔四核心至强图6 Intel至强四核芯系列架构PowerPC处理器体系结构PowerPC(PPC)是1991年,Apple、IBM和Motorola组成的AIM联盟所开发的微处理器架构,它是一种RISC架构的CPU,其基本的设计源自IBM的POWER(Perfomance Optimized With Enhanced RISC)架构。2010年2月8日,IBM发布了新一代的Power7处理器。Power7采用了IBM研发的45nm SOI铜互连工艺制程,567平方米毫米的核面积上容纳了12亿只晶体管;最多拥有8个计算核心,具有4个同步多线程能力,Power7能够同时进行32个线程的处理;采用嵌入式DRAM(E-DRAM)代替常见的SRAM构建L3缓存,减小晶体管的总量和芯片面积;集成两个四通道的内存控制器,可以连接DDR3内存,持续内存带宽100GB/s,SMP带宽360GB/s,整个芯片总带宽高达590GB/s;更优化的功耗性能。

Power7已经被用建设位于伊利诺斯大学的超级计算机Blue Waters。Blue Waters理论上可以达到10 petaflops(每秒千万亿次浮点运算),8倍于现在最快的超级计算机。如图8所示是IBM公司于2001年推出的Power4[TDF02]是世界上第一款商用的多核处理器芯片。图7 Power系列多核处理器结构图Power片上集成了两个Power3处理器核,每个核为8路超标量处理器,乱序执行,一级Cache私有,分别含有32KB的数据Cache和64KB的指令Cache。Power4在片上实现了共享二级Cache,容量为1.6M的片上二级Cache分为3个体(Slice),两个核与三个Slice之间维护包含关系,采用了写直达(write through)的策略,由基于目录的一致性协议维护多核间的数据一致性。Power4可支持最多32M的片外三级Cache,为了加快访问速度,片外三级Cache的tag在片上集成。Power4还支持片间的Cache一致性,可实现多达32路的中型服务器。Power4采用180nm制造工艺互连,7层金属布线,大约集成了1.74亿个晶体管。 SPARC系列处理器SUN公司在2004年上半年发布了它的第一款双核微处理器UltraSPARCIV,UltraSPARC IV采用CMT(chip multithreading)技术,结构如下图:图9:Sparc架构处理器结构图 图8 Sparc架构处理器结构图CPU 架构直接决定指令流水和指令的执行效率,也对于高效能计算机性能、功耗有重要的影响。

也是高性能计算机设计与实现选型的关注因素。 MIPS 系列多核处理器MIPS是典型的RISC处理器体系架构,该架构的发展特点就是向高性能、低功耗、多核嵌入式和高性能机。龙芯3号就是MIPS架构;是龙芯多核处理器系列的第一款产品;是一个配置为单节点4核的龙芯3号处理器,采用65nm工艺制造,最高工作主频为1GHz。龙芯3号主要面向服务器和高性能机应用[3]。龙芯3号芯片整体架构基于两级互连实现,结构如下图12 所示。四核龙芯3号在单芯片只包含一个节点,不用跟其他结点互连,两个IO 端口(每个端口使用一个Master 和一个Slave)。X1 连接的每个IO 端口连接一个16 位的HT 控制器,每个16 位的HT 端口还可以作为两个8 位的HT 端口使用。HT 控制器通过一个DMA 控制器和X1 相连,DMA控制器负责IO控制和片间一致性的维护。龙芯3号的DMA控制器还可以通过配置实现预取和矩阵转置。四核龙芯3A每个二级Cache行都有一个32 位的位向量目录,可以维护16个处理器核的一级Cache的一致性。四片四核龙芯3 号可以通过HT 端口连接成16 个处理器核共享二级Cache 的16路的SMP 结构。

由于龙芯3 号的交叉开关不区分处理器端口和互连端口,HT端口也可以被当作一个特殊的处理器核来处理,二级Cache 行的位向量也可以表示某HT端口连接的其他芯片中拥有该行的备分,通过在片外附加二级块目录可以实现更多处理器核之间的一致性。因此,龙芯3A 支持通过片外的目录扩充支持可伸缩系统的全局地址共享,形成创新的HCC-NUMA(Hierarchy CacheCoherence NUMA)结构。由四个二级Cache 模块发出的访存请求通过X2 交叉开关访问两个内存控制器。PCI 控制器和LPC 控制器共用X2 的一个Master 和一个Slave。设置PCI 和LPC 一方面可以增加芯片的应用范围,另一方面可以作为HT 端口的备份。图9 MIPS(龙芯3A)架构为了支持高吞吐率计算处理,处理核心采用多线程体系结构,兼顾指令级并行和线程级并行,如图所示。每个线程都有一套独立的现场和体系结构状态,线程间共享一级Cache、TLB以及功能。第五代HPC是集群系统,而这类计算机的组件开始使用大量的廉价组件核心就是在CPU上做文章CPU的性能、功耗、体系结构等做详细分析研究。以求进一步掌握使用最新低功耗用CPU器件开发高效能计算部件的能力。

参考文献 [1] 杨光友,朱宏辉.2003. CPU的发展趋势及其新应用.电子技术. [2] 高性能计算机发展 / [3] 北京龙芯中科技术有限公司.龙芯3A数据手册 [4] 郑纬民,汤志忠. 计算机系统结构. 北京:清华大学出版社,2006[5] IBM官方网站,(收稿日期:2010-08-?? 本课题受国家高技术研究发展计划(863计划)重点项目“新概念高效能计算机体系结构及系统研究开发”项目资助(2009AA012201)通信作者:邵磊,男,1984年生,工学硕士,主要研究方向为计算机系统结构,E- mail:sean66@163.com?谢智勇,男,1983年出生,工学硕士,主要研究方向为计算机系统结构 E-mail:xiezy@ 倪明,男,1961年出生,研究员,副总工程师,主要研究方向为嵌入式计算机技术、计算机通信 E-mail:nming@- 6 -

(编辑:佛山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章