⑴ TLB与Cache有什么区别
TLB:加速虚拟地址-->物理地址的转换,如果没有TLB的话每次进行地址转换都要访问内存。TLB结构有点像cache。
cache:存放最近使用的数据和指令,对于上层来说cache是透明的。
cache和TLB的区别,我说说吧。
cache中的数据存在时间局域性和空间局域性。TLB中存放的是物理地址只有时间局域性。
cache存放数据,TLB存放物理地址
具体了解一下【虚拟内存】相关的知识
⑵ CPU Cache一L1 L2 L3 TLB
cache是一种又小又快的存储器。它存在的意义是弥合Memory与CPU之间的速度差距。
现在的CPU中有好几个等级的缓存。通常L1和L2缓存都是每个CPU一个的, L1缓存有分为L1i和L1d,分别用来存储指令和数据。L2缓存是不区分指令和数据的。L3缓存多个核心共用一个,通常也不区分指令和数据。 还有一种缓存叫TLB,它主要用来缓存MMU使用的页表,通常我们讲缓存(cache)的时候是不算它的。
Cache hierarchy of the K8 core in the AMD Athlon 64 CPU
Cache Line
Cache存储数据是固定大小为单位的,称为一个Cache entry,这个单位称为Cache line或Cache block。给定Cache容量大小和Cache line size的情况下,它能存储的条目个数(number of cache entries)就是固定的。因为Cache是固定大小的,所以它从DRAM获取数据也是固定大小。对于X86来讲,它的Cache line大小与DDR3、4一次访存能得到的数据大小是一致的,即64Bytes。对于ARM来讲,较旧的架构(新的不知道有没有改)的Cache line是32Bytes,但一次内存访存只访问一半的数据也不太合适,所以它经常是一次填两个Cache line,叫做double fill。
CPU从Cache数据的最小单位是字节,Cache从Memory拿数据的最小单位(这里不讲嵌入式系统)是64Bytes,Memory从硬盘拿数据通常最小是4092Bytes。
替换策略
Cache里存的数据是Memory中的 常用 数据一个拷贝,Cache比较小,不可以缓存Memory中的所有数据。当Cache存满后,再需要存入一个新的条目时,就需要把一个旧的条目从缓存中拿掉,这个过程称为evict,一个被evict的条目称为victim。缓存管理单元通过一定的算法决定哪些数据有资格留在Cache里,哪些数据需要从Cache里移出去。这个策略称为 替换策略(replacement policy) 。最简单的替换策略称为LRU(least recently used),即Cache管理单元记录每个Cache line最近被访问的时间,每次需要evict时,选最近一次访问时间最久远的那一条做为victim。在实际使用中,LRU并不一定是最好的替换策略,在CPU设计的过程中,通常会不段对替换策略进行改进,每一款芯片几乎都使用了不同的替换策略。
写入策略与一致性
CPU需要读写一个地址的时候,先去Cache中查找,如果数据不在Cache中,称为Cache miss,就需要从Memory中把这个地址所在的那个Cache line上的数据加载到Cache中。然后再把数返回给CPU。这时会伴随着另一个Cache 条目成为victim被替换出去。
如果CPU需要访问的数据在Cache中,则称为Cache hit。
针对写操作,有两种写入策略,分别为write back和write through。write through策略下,数据直接同时被写入到Memory中,在write back策略中,数据仅写到Cache中,此时Cache中的数据与Memory中的数据不一致,Cache中的数据就变成了脏数据(dirty)。如果其他部件(DMA, 另一个核)访问这段数据的时候,就需要通过 Cache一致性协议 (Cache coherency protocol)保证取到的是最新的数据。另外这个Cache被替换出去的时候就需要写回到内存中。
Cache Miss 与CPU stall
如果发生了Cache Miss,就需要从Memory中取数据,这个取数据的过程中,CPU可以执行几十上百条指令的,如果等待数据时什么也不做时间就浪费了。可以在这个时候提高CPU使用效率的有两种方法,一个是乱序执行(out of order execution),即把当前线程中后面的、不依赖于当前指令执行结果的指令拿过来提前执行,另一个是超线程技术,即把另一个线程的指令拿过来执行。
L1/L2 Cache速度差别
L1 cache: 3 cycles
L2 cache: 11 cycles
L3 cache: 25 cycles
Main Memory: 100 cycles
L1/L2 Cache都是用SRAM做为存储介质,为什么说L1比L2快呢?这里面有三方面的原因:
1. 存储容量不同导致的速度差异
L1的容量通常比L2小,容量大的SRAM访问时间就越长,同样制程和设计的情况下,访问延时与容量的开方大致是成正比的。
2. 离CPU远近导致的速度差异
通常L1 Cache离CPU核心需要数据的地方更近,而L2 Cache则处于边缓位置,访问数据时,L2 Cache需要通过更远的铜线,甚至更多的电路,从而增加了延时。
L1 Cache分为ICache(指令缓存)和DCache(数据缓存),指令缓存ICache通常是放在CPU核心的指令预取单远附近的,数据缓存DCache通常是放在CPU核心的load/store单元附近。而L2 Cache是放在CPU pipeline之外的。
为什么不把L2 Cache也放在很近的地方呢?由于Cache的容量越大,面积越大,相应的边长的就越长(假设是正方形的话),总有离核远的。
下面的图并不是物理上的图,只是为大家回顾一下CPU的pipe line。
另外需要注意的是这张图里展示了一个二级的DTLB结构,和一级的ITLB。
3. 制程不同的造成的速度差异
在实际设计制造时,针对L1/L2的不同角色,L1更加注重速度, L2更加注重节能和容量。在制程上这方面有体现,(但我不懂,。。。。)。在设计时,这方面的有体现:
首先, L1 Cache都是N路组相联的,N路组相联的意思时,给定一个地址,N个Cache单元同时工作,取出N份tag和N份数据,然后再比较tag,从中选出hit的那一个采用,其它的丢弃不用。这种方式一听就很浪费,很不节能。
另外,L2 Cache即便也是N路组相联的,但它是先取N个tag,然后比对tag后发现cache hit之后再把对应的数据取出来。由于L2是在L1 miss之后才会访问,所以L2 cache hit的概率并不高,访问的频率也不高,而且有前面L1抵挡一下,所以它的延迟高点也无所谓,L2容量比较大,如果数据和tag一起取出来,也比较耗能。
通常专家都将L1称为latency filter, L2称为bandwidth filter。
L3 Cache
L1/L2 Cache通常都是每个CPU核心一个(x86而言,ARM一般L2是为一个簇即4个核心共享的),这意味着每增加一个CPU核心都要增加相同大小的面积,即使各个CPU核心的L2 Cache有很多相同的数据也只能各保存一份,因而一个所有核心共享的L3 Cache也就有必要了。
L3 Cache通常都是各个核心共享的,而且DMA之类的设备也可以用。
由于L3 Cache的时延要求没有那么高,现在大家也要考虑不使用SRAM,转而使用STT-MRAM,或是eDRAM来做L3 Cache。
逻辑Cache和物理Cache
Cache在系统中的位置根据与MMU的相对位置不同,分别称为logical Cache和physical cache。
Logical Cache接受的是逻辑地址,物理Cache接受的是物理地址。
logical cache有一个优势就是可以在完成虚拟地址到物理地址的翻译之前就可以开始比对cache,但是有一个问题就是Cache 一致性还有cache eviction必须通过物理地址来做,因为多个虚拟地址可能对应同一个物理地址,不能保证不同的虚拟地址所以应的cache就一定不是同一份数据。为了解决这个问题,就不得不把物理地址也保存在为tag。这样tag要存的内容就增加了一倍。
相对而言,physical cache由于一开始就是物理地址,所以只需要存物理地址为tag,而不需要再保存虚拟地址为tag,看起来简单了很多。
其实总结起来,Cache的tag有两种作用:(1)对于N路组相联cache中,通过tag比对选择使用哪一路的数据,(2)决定cache hit还是miss。前者配合操作系统的情况下,虚拟地址就可以做到,比如说给虚拟地址和物理页配对的时候总是保证根据两者的某些位来选way的时候是一样的,而且前者不需要完全的正确,偶尔错一些是可以接受的,你可以先选出数据,默认是cache hit,然后拿着数据是计算,但后来通过物理tag比对时发现是miss的情况下,再无效掉这次计算,反正cache miss的情况下cpu本来也需要stall好多个cycle。后者则必须依靠物理地址才可以做到。这样一来,很多设计都把虚拟地址tag弱化为hint, 仅用于选哪个way。
又没写完了,心情不好,吐嘈一下,为什么有些人自己能力差无法跟上优秀的人节奏,一点都不感到羞愧,反而理直气壮的要求别人为他维持他自己的心理舒适区?
以下是后面接着写时需要参考的资料,大家也可以自己看看。
CPU cache - Wikipedia
https://faculty.tarleton.e/agapie/documents/cs_343_arch/04_CacheMemory.pdf
http://www.ecs.csun.e/~cputnam/Comp546/Putnam/Cache%20Memory.pdf
进一步阅读:
https://cseweb.ucsd.e/classes/fa14/cse240A-a/pdf/08/CSE240A-MBT-L15-Cache.ppt.pdf
http://www.ecs.csun.e/~cputnam/Comp546/Putnam/Cache%20Memory.pdf
https://ece752.ece.wisc.e/lect11-cache-replacement.pdf
http://www.ipdps.org/ipdps2010/ipdps2010-slides/session-22/2010IPDPS.pdf
⑶ 计算机的多级储存系统系统的组成及优点
答:一、计算机的多级储存系统的组成
1、最内层是CPU中的通用寄存器,很多运算可直接在CPU的通用寄存器中进行,减少了CPU与主存的数据交换,很好地解决了速度匹配的问题,但通用寄存器的数量是有限的一般在几个到几百个之间。
2、高速缓冲存储器设置在CPU和主存之间,可以放在CPU 内部或外部。
3、以上两层仅解决了速度匹配问题,存储器的容量仍受到内存容量的制约。
因此,在多级存在储结构中又增设了辅助存储器(由磁盘构成)和大容量存储器(由磁带构成)。
二、计算机的多级储存系统的优点
从CPU看来,这个整体的速度接近于Cache和寄存器的操作速度、容量是辅存的容量,每位价格接近于辅存的位价格。
从而较好地解决了存储器中速度、容量、价格三者之间的矛盾,满足了计算机系统的应用需要。
三、存储层次
1、在计算机系统中存储层次可分为高速缓冲存储器、主存储器、辅助存储器三级。
2、高速缓冲存储器用来改善主存储器与中央处理器的速度匹配问题。
3、辅助存储器用于扩大存储空间。
⑷ 现代计算机系统采用的多级存储体系包括哪几部分
第一级是cache,第二级是主存,也就是内存,第三级是外存,也就是硬盘。cache是主存的副本,而主存是硬盘的副本
⑸ 常用的存储架构有
顺序存储方法它是把逻辑上相邻的结点存储在物理位置相邻的存储单元里,结点间的逻辑关系由存储单元的邻接关系来体现,由此得到的存储表示称为顺序存储结构。顺序存储结构是一种最基本的存储表示方法,通常借助于程序设计语言中的数组来实现。
链接存储方法它不要求逻辑上相邻的结点在物理位置上亦相邻,结点间的逻辑关系是由附加的指针字段表示的。由此得到的存储表示称为链式存储结构,链式存储结构通常借助于程序设计语言中的指针类型来实现。
顺序存储和链接存储的基本原理
顺序存储和链接存储是数据的两种最基本的存储结构。
在顺序存储中,每个存储空间含有所存元素本身的信息,元素之间的逻辑关系是通过数组下标位置简单计算出来的线性表的顺序存储,若一个元素存储在对应数组中的下标位置为i,则它的前驱元素在对应数组中的下标位置为i-1,它的后继元素在对应数组中的下标位置为i+1。在链式存储结构中,存储结点不仅含有所存元素本身的信息,而且含有元素之间逻辑关系的信息。
数据的链式存储结构可用链接表来表示。
其中data表示值域,用来存储节点的数值部分。Pl,p2,…,Pill(1n≥1)均为指针域,每个指针域为其对应的后继元素或前驱元素所在结点(以后简称为后继结点或前驱结点)的存储位置。通过结点的指针域(又称为链域)可以访问到对应的后继结点或前驱结点,若一个结点中的某个指针域不需要指向其他结点,则令它的值为空(NULL)。
在数据的顺序存储中,由于每个元素的存储位置都可以通过简单计算得到,所以访问元素的时间都相同;而在数据的链接存储中,由于每个元素的存储位置保存在它的前驱或后继结点中,所以只有当访问到其前驱结点或后继结点后才能够按指针访问到,访问任一元素的时间与该元素结点在链式存储结构中的位置有关。
储存器方面的储存结构
储存系统的层次结构为了解决存储器速度与价格之间的矛盾,出现了存储器的层次结构。
程序的局部性原理
在某一段时间内,CPU频繁访问某一局部的存储器区域,而对此范围外的地址则较少访问的现象就是
程序的局部性原理。层次结构是基于程序的局部性原理的。对大量典型程序运行情况的统计分析得出的结论是:CPU对某些地址的访问在短时间间隔内出现集中分布的倾向。这有利于对存储器实现层次结构。
多级存储体系的组成
目前,大多采用三级存储结构。
即:Cache-主存-辅存,如下图:
3、多级存储系统的性能
考虑由Cache和主存构成的两级存储系统,其性能主要取决于Cache和贮存的存取周期以及访问它们的
次数。(存取周期为: Tc,Tm ;访问次数为: Nc,Nm)
(1)Cache的命中率 H= Nc / (Nc+Nm)
(2)CPU访存的平均时间 Ta= H * Tc+ (1-H) Tm
Cache-主存系统的效率
e= Tc / Ta
=1/H+(1-H)Tm/Tc
根据统计分析:Cache的命中率可以达到90%~98%
当Cache的容量为:32KB时,命中率为86%
64KB时,命中率为92%
128KB时,命中率为95%
256KB时,命中率为98%
⑹ 存储结构的储存器方面的储存结构
储存系统的层次结构为了解决存储器速度与价格之间的矛盾,出现了存储器的层次结构。 在某一段时间内,CPU频繁访问某一局部的存储器区域,而对此范围外的地址则较少访问的现象就是
程序的局部性原理。层次结构是基于程序的局部性原理的。对大量典型程序运行情况的统计分析得出的结论是:CPU对某些地址的访问在短时间间隔内出现集中分布的倾向。这有利于对存储器实现层次结构。 目前,大多采用三级存储结构。
即:Cache-主存-辅存,如下图:
3、多级存储系统的性能
考虑由Cache和主存构成的两级存储系统,其性能主要取决于Cache和贮存的存取周期以及访问它们的
次数。(存取周期为: Tc,Tm ;访问次数为: Nc,Nm)
(1)Cache的命中率 H= Nc / (Nc+Nm)
(2)CPU访存的平均时间 Ta= H * Tc+ (1-H) Tm
Cache-主存系统的效率
e= Tc / Ta
=1/H+(1-H)Tm/Tc
根据统计分析:Cache的命中率可以达到90%~98%
当Cache的容量为:32KB时,命中率为86%
64KB时,命中率为92%
128KB时,命中率为95%
256KB时,命中率为98%
⑺ 三级存储系统是指哪三种存储器计算机系统为何采用三级存储系统
摘要 Cache(高速缓冲存储器)、主存储器、辅助存储器;三者速度依次降低。
⑻ 计算机系统采用多级存储体系,包括哪三方面
常见的三级存储体系(从CPU往外)是:Cache、主存、外存。 主存储器用来存放需CPU运行的程序和数据。用半导体RAM构成,常包含少部分ROM。可由CPU直接编程访问,采取随机存取方式,即:可按某个随机地址直接访问任一单元(不需顺序寻找),存取时间与地址无关。存储容量较大,常用字节数表示,有时也用单元数×位数表示。速度较快,以存取周期表示。 Cache位于CPU与主存之间(有些Cache集在CPU芯片之中),用来存放当前运行的程序和数据,它的内容是主存某些局部区域(页)的复制品。它用快速的半导体RAM构成,采取随机存取方式。存储容量较小而速度最快。 外存储器用来存放暂不运行但需联机存放的程序和数据。用磁盘、光盘、磁带等构成,磁盘用于需频繁访问场合,光盘目前多用于提供系统软件,而磁带多用于较大系统的备份。CPU不能直接编址访问外存,而是将它当作外围设备调用。磁带采取顺序存取方式。磁盘与光盘采取直接存取(半顺序)方式,先直接定位到某个局部区域,再在其中顺序存取。外存容量可以很大,以字节数表示。由于外存的存取时间与数据所在位置有关,所以不能用统一的存取周期指标来表示。例如磁盘的速度指标可按其工作过程分成三个阶段描述:①平均寻道时间②平均旋转延迟(等待)时间③数据传输率
⑼ 多级存储体系的简介
存储器的多级结构如图1所示。
图中最内层是CPU中的通用寄存器,很多运算可直接在CPU的通用寄存器中进行,减少了CPU与主存的数据交换,很好地解决了速度匹配的问题,但通用寄存器的数量是有限的一般在几个到几百个之间,如Pentium CPU中有8个32位的通用寄存器。
高速缓冲存储器(Cache)设置在CPU和主存之间,可以放在CPU 内部或外部。其作用也是解决主存与CPU的速度匹配问题。Cache一般是由高速SRAM组成,其速度要比主存高1到2个数量级。由主存与Cache构成的“主存-Cache存储层次,从CPU来看,有接近于Cache的速度与主存的容量,并有接近于主存的每位价格。通常,Cache还分为一级Cache和二级Cache。
但是,以上两层仅解决了速度匹配问题,存储器的容量仍受到内存容量的制约。因此,在多级存在储结构中又增设了辅助存储器(由磁盘构成)和大容量(又称海量)存储器(由磁带构成)。随着操作系统和硬件技术的完善,主存之间的信息传送均可由操作系统中的存储管理部件和相应的硬件自动完成,从而构成了主存一辅存的价格,从而弥补了主存容量不足的问题。
⑽ 快表TLB和高速缓冲存储器cache有什么区别
1、快表TLB: 用于虚拟存储技术,是为了加快辅存向主存的地址映射速度(主存—辅存系统)
2、高速缓存器cache:用于解决CPU与主存速度不匹配问题。(CPU—主存系统)
2.1、cache补充:因为CPU速度远高于主存,主存跟不上,导致CPU的大量时间在等待主存,效率低下。因为cache速度介于CPU与主存之间,价格也介于两者之间,所以人们在CPU与主存之间添加“高速缓冲器cache”来缓解速度不匹配问题。
总的来说,两者属于两个不同的系统层次,功能也不同。