㈠ 龙芯3B的性能
龙芯3B1000
龙芯3B1000是首款国产商用8核处理器。龙芯3B1000采用65nm CMOS LP/GP工艺制造,包含5.826亿个晶体管,核心面积299.8平方毫米,最高频率1.05GHz,单/双精度浮点峰值性能256/128GFlops,功耗40W。龙芯3B主要用于高性能计算机、高性能服务器、数字信号处理等领域 。
基于“龙芯3B”的高性能计算机KD-90
2012年12月29日,我国首台采用自主设计的“龙芯3B”八核处理器的万亿次高性能计算机“KD-90”,由中国科学技术大学与深圳大学联合研制成功,日前在合肥通过专家组鉴定。
据悉,高性能计算机KD-90采用单一机箱,集成了10颗八核龙芯3B处理器,理论峰值计算能力达到每秒1万亿次。系统硬件由1个前置服务器、5个计算节点、2个千兆以太网交换机以及监控单元组成。其中,前置服务器和计算节点均采用了我国自主设计的龙芯3B八核处理器,主要互连部件采用了自主研发的超多端口千兆以太网交换芯片。系统软件以开源软件为主,其中包括针对龙芯3B处理器结构专门优化的数学函数库,以及自主研发的图形化系统监控管理软件,具有兼容性强、易维护、易升级、易使用等特点。
KD-90的研制依托国家科技重大专项“高性能多核CPU研发与应用”项目的支持,由中科院院士、中国科技大学教授陈国良为负责人的科研团队,历时近一年攻关成功。与基上一代“龙芯”处理器的国产高性能计算机KD-60相比,KD-90系统实现了“三低一高”的特性:成本低于20万元,功耗低于900W,体积降低至0.12平方米,性能高达每秒1万亿次。
以中科院院士陆汝钤为组长的专家组鉴定后认为,KD-90是我国高性能计算机国产化的又一次重要突破,在编程模型和互联网络等关键技术上达到了世界先进水平。适用于高性能计算教学、大规模科学与工程计算,以及军事科学、国家安全和国民经济建设等领域,应用前景广阔。
龙芯3B 1500
龙芯3B1500是国产商用28纳米8核处理器,最高主频可达1.5GHz,支持向量运算加速,最高峰值计算能力达到192GFLOPS,具有很高的性能功耗比。龙芯3B1500主要用于高端桌面计算机、高性能计算机、高性能服务器、数字信号处理等领域。
㈡ 听说龙芯3采用45纳米工艺,16M二级缓存,浮点运算远超QX6800
2006年9月13日,由中国科学院计算技术研究所承担的国家863计划项目 “龙芯2号增强型处理器芯片设计”(即龙芯2E)通过了由“十五”863计划信息技术领域专家组组织的验收。科技部徐冠华部长、中科院施尔畏副院长参加了验收会。徐冠华部长在验收会上讲话指出,计算所等国内科研单位在我国自主创新大潮中不骄不躁、努力拼搏,攻克了具有自主知识产权的通用高性能芯片等一大批关键核心技术,研制出了以龙芯2E为代表的一批标志性成果,为加快建设我国创新体系,提升我国科技自主创新能力做出贡献,在实践中走出了一条跨越发展、具有中国特色的科技创新之路。
验收专家组认为龙芯2E高性能通用CPU芯片在单处理器设计方面已达到国际先进水平,是具有自主知识产权的CPU芯片。龙芯2E通用64位处理器是是祖国大陆地区第一个采用90纳米设计技术的处理器。该处理器最高主频达到1.0GHz,峰值运算速度达到每秒40亿次双精度浮点运算。
在现场演示中,龙芯2E样机使用64位Linux操作系统,能流畅运行Mozilla浏览器、OpenOffice办公套件、Mplayer流媒体播放器等应用程序并能正确支持中文输入和显示。据悉,计算所与其它单位合作,先后开发了基于龙芯系列CPU芯片的多种应用系统,包括低成本电脑、第二代机顶盒等。在包括政府办公、数字电视、农村信息化、工业控制等领域展开了试点应用,并与国外着名企业签署了授权生产销售协议。龙芯2E处理器将于2006年底以前上市。
龙芯2E通用64位处理器是目前全球除美日之外性能最高的通用处理器,也是祖国大陆地区第一个采用90纳米设计技术的处理器。该处理器最高主频达到1.0GHZ,实测性能超过1.5GHZ奔腾Ⅳ处理器的水平,具有低成本、低功耗、高性能、高安全性等特点,在不同工作条件下龙芯2E处理器的功耗在3-8瓦范围内。
在十五期间,计算所在863计划的支持下,继2002年研制成功龙芯1号处理器芯片后,在2003年、2004年、2005年分别研制成功龙芯2号的不同型号龙芯2B、龙芯2C、以及龙芯2E,每个芯片的性能都是前一个芯片的3倍,实现了通用处理器设计的跨越发展。目前龙芯课题组正进行龙芯3号多核处理器的设计。“十一五”期间,龙芯处理器必将为推进我国信息化做出更大的贡献。
新浪科技讯 11月13日消息,据中科院计算所人士透露,目前龙芯2E处理器进入量产,已经向市场批量供应,使用龙芯2E的中科龙梦笔记本有望在明年年初上市。
中科院龙芯主设计师胡伟武在其《龙芯3号多核处理器设计及其挑战》的报告中指出,龙芯3号多核处理器结构特征是多平台并行虚拟机结构,第一阶段到2008年做8~16核,第二阶段到2010年做32~64核。
可能使用45纳米技术
龙芯3号多核处理器系列主要面向服务器和高性能机应用,部分低端龙芯3号也可以面向部分桌面应用。
胡伟武称:“龙芯3号在策略上伸缩设计、有限实现,比如结合工艺和应用,桌面应用则四核就够了。”
10月26日,中科院计算所和意法半导体签署合作开发多核处理器协议,其中便涵盖45纳米技术的合作,龙芯2号则会进一步采用65纳米技术。
龙芯优势在于低功耗
龙芯2E工作在750MHz下时,CPU、北桥和内存条功耗一共只有7.5W。媒体播放较Pentium 4要快一些。
多核处理器的发展趋势就是处理器结构正处在转折期,主频至上的时代已经结束。摩尔定律关于主频部分的终结,晶体管资源还在增加,性能功耗比继性能价格比后成为重要的设计指标,网络和媒体的普及导致计算机应用的变化。
“主频的游戏已经结束了,并行结构我们很有机会。”胡伟武说,“我们设计的方法很正确,有10个核以上,国外厂商更多运用静态电路,不可能把10个100W核集成在一起,不可能为了追求极端的性能牺牲功耗。”
龙芯3号部分兼容x86
龙芯3号的一个目标是要建设和谐的计算和谐,一是指人机和谐,串行程序并行化的问题;另一个是指机机和谐,就是兼容问题。
计算所人士说,关于是否兼容的问题,去年在计算所开了四五次会议讨论。不兼容Wintel体系,意味着软件上的相对匮乏;兼容,一来难以绕开专利瓶颈,二则跟踪容易越跟越远,因为Wintel不是一个固定的死东西,且历史包袱也不少。
目前龙芯2号暂时没有兼容的打算,而龙芯3号则会尝试采取类似全美达处理器的思路去兼容x86,至少部分兼容。
龙芯3号面临的挑战
胡伟武指出:研发团队的理想是使所有可执行文件可以在龙芯上正确快速地运行,要做一个多平台并行虚拟机结构,一方面通过进程级虚拟机实现Linux上的x86兼容,另外把虚拟机自动并行化。
他同时坦言,多核结构的物理设计方法非常难,如果把16个64位龙芯的核放在一起,反而会成为最大的瓶颈,就像茶壶里倒饺子根本倒不出来的。如果封装1千个核心,真正传递的信号就几百个,需要把I/O做得很快,否则“里面快外面慢”。要建设高速传输的环境,高速缓存的设计等问题非常难。
高性能CPU少不了和代工厂的密切合作。CPU本身的设计还是由计算所完成,同时意法半导体今后会在物理设计方面给于计算所更多的支持。
㈢ 龙芯CPU和INTEL的相比有什么优缺点
最好的大概相当于P4 2.0G
优点,恐怕只有功耗低这一点了。
㈣ 龙芯的龙芯片系列
(英文名称Godson-1)
龙芯一号CPU IP核是兼顾通用及嵌入式CPU特点的32位处理器内核,采用类MIPS III指令集,具有七级流水线、32位整数单元和64位浮点单元。龙芯一号CPU IP核具有高度灵活的可配置性,方便集成的各种标准接口。图1显示了龙芯一号CPU IP核可配置结构,其中虚线部分表示用户可根据自己的需求进行选择配置,从而定制出最适合用户应用的处理器结构。主要的可配置模块包括:浮点部件、多媒体部件、内存管理、Cache、协处理器接口。浮点部件完全兼容MIPS的浮点指令集合,浮点部件及其相关的系统软件完全符合ANSI/IEEE 754-1985二进制浮点运算标准。浮点部件主要包括浮点ALU部件和浮点乘法/除法部件,用户可根据自己的实际应用选择是否添加。媒体部件复用了MIPS浮点指令的Format域,并复用了浮点寄存器堆,媒体指令集基本对应了Intel SSE媒体指令集合的各种操作。
内存管理部件有三种工作模式,即标准模式、直接映射模式和无映射模式。在标准模式下,TLB分为ITLB和DTLB两部分,每部分均由48项页表项组成,同时支持mapped和unmapped的从虚拟地址到物理地址的变换方式;TLB也可只进行直接映射,不使用CAM和RAM,以减小面积;而无映射模式下甚至可以去掉TLB,采用直连SRAM的形式实现访存。龙芯一号CPU IP核的Cache分为指令Cache和数据Cache,两部分独立配置,以4K为一路,可配置为4路、2路和0路。用户可根据应用需要,确定所需Cache的大小,甚至不使用Cache。协处理器接口为外部协处理器提供了一个高效率的接口。龙芯一号CPU IP核提供了两套可配置的处理器总线接口:AMBA接口和哈佛结构SRAM接口。 (英文名称Godson-2)
龙芯二号CPU 采用先进的四发射超标量超流水结构,片内一级指令和数据高速缓存各64KB,片外二级高速缓存最多可达8MB.最高频率为1000MHz,功耗为3-5瓦,远远低于国外同类芯片,其SPEC CPU2000测试程序的实测性能是1.3GHz的威盛处理器的2-3倍,已达到中等Pentium4水平。 (英文名称Godson-3)
龙芯3A的工作频率为900MHz~1GHz,功耗约15W,频率为1GHz时双精度浮点运算速度峰值达到每秒160亿次,单精度浮点运算速度峰值每秒320亿次。龙芯3A采用意法半导体公司(STMicro)65纳米CMOS工艺生产,晶体管数目达4.25亿个,芯片采用BGA封装,引脚的数目为1121个,功耗小于15瓦。 龙芯3A集成了四个64位超标量处理器核、4MB的二级Cache、两个DDR2/3内存控制器、两个高性能HyperTransport控制器、一个PCI/PCIX控制器以及LPC、SPI、UART、GPIO等低速I/O控制器。龙芯3A的指令系统与MIPS64兼容并通过指令扩展支持X86二进制翻译。
㈤ 龙芯3号内部架构
1、龙芯是CPU,不像网卡、声卡、显卡等外围硬件,可以通过驱动程序来驱动。驱动程序是在OS上运行的,而OS的二进制机器代码必须能够被CPU识别才行能运行。龙芯的架构和x86架构不同,指令集不同,不能运行现有任何版本的Windows。除非微软专门开发龙芯专用版Windows才行。但龙芯有这么大面子让微软为它开发专用OS吗?
2、编译软件同时编译出windows版和linux版软件,也是不可能的。windows和linux虽然都能用C/C++语言开发软件,但这两种OS的结构是很不一样的,开发所调用的API、函数等都是不同的,用同一个编译器来对付这两种OS是不可能的。要将windows版软件在linux下运行或反之,都必须进行移植工作,而且这种跨系统的移植工作代码重写量很大,是一个不小的工程。