1, 介绍
我们可以把物理内存简单地看成一个大的数组,其中每个字节都可以通过物理地址进行访问。
前面的文章《一文搞懂ddr sdram工作原理》介绍过物理内存的物理结构,及怎么通过控制器、phy读、写sdram芯片获取、写入数据,让我们明白物理内存在硬件原理方面的实现是什么样的。
在《一文搞懂cpu的工作原理》介绍过cpu访问物理内存的全过程,总结下来就是:
cpu写物理内存的过程:cpu先给出要写入数据的物理地址对应的虚拟地址,通过mmu转化为物理地址,若cache中没有命中,则将要写入数据的物理地址放到系统总线上。ddr的控制器感受到总线上的地址信号以及写控制信号,将物理地址从总线上读出来,并等待数据的到达。cpu将数据发送到系统总线上,ddr控制器感受到总线上的数据信号,将数据从总线上读取出来。ddr控制器通过物理地址找到相应的存储模块,然后将数据写入到物理地址对应的存储模块。
cpu读物理内存的过程:cpu给出要读数据的物理地址对应的虚拟地址,通过mmu转化为物理地址,若cache中没有命中,则将物理地址放到系统总线上。ddr控制器感受到总线上的地址型号及读控制信号,将物理地址从总线上读取出来,ddr控制器根据物理地址找到存储模块中数据的位置,并从sdram芯片中取出物理地址对应的数据,ddr控制器将数据放到总线上,cpu从总线上获取数据,并存放到寄存器上。
之前已经讲述过cpu读、写物理内存的过程,本文主要讲述linux内核是怎么管理物理内存,包括物理内存涉及的数据结构、内存模型、内存架构、物理内存的管理流程。
2, 数据结构
与物理内存相关的数据结构有内存节点(pglist_data)、内存管理区(zone)、物理页面(page)、mem_map数组、页表项(pte)、页帧号(pfn)、物理地址(paddress)。
linux内核通过struct page来管理物理内存中的一个页。内核为每个物理页定义了一个索引编号pfn(page frame number,页帧号),这个pfn与struct page是一一对应的。通过page_to_pfn/pfn_to_page两个宏实现物理页和struct page之间的相互转换。
3, 框架
3.1 内存架构
在当前的计算机、嵌入式系统中,以内存为研究对象可以分成两种架构。一种是uma(uniform memory access,统一内存访问)架构,另外一种是numa(non-uniform memory access,非统一内存访问)架构。
1) uma内存架构
内存可以被其他模块统一寻址,有统一的结构。目前,大部分嵌入式系统及计算机系统都采用uma架构。如上图所示,是一个uma架构的系统,有两个cpu位于同一个cluster中,cpu分别有自己的l1d、l1i cache及l2 cache。两个cpu共享l3 cache,通过系统总线可以访问物理内存ddr,sram、ssd等模块,并且两个cpu对物理内存的访问消耗是一样的。这种访问模式的处理器被成为smp(aymmetric multiprocessing,对称多处理器)
2) numa内存架构
系统中有多个内存节点和多个cpu cluster,cpu访问本地内存节点的时间开销最小,访问远端的内存节点的时间开销要大。如上图所示,是一个numa架构的系统,其中cpu0、cpu1在cluster0中,与相应的l1i/l1d cache、l2 cache、l3 cache及ddr组成node0节点。同样的,cpu2、cpu3在cluster1中,与相应的l1i/l1d cache、l2 cache、l3 cache及ddr组成node1节点。两个node节点,通过upi(ultra path interconnect,超路径互联)总线连接。cpu0可以通过这个upi访问远端node1上的物理内存,但是要比本地node0的内存访问慢得多。
3.2 内存模型
内核是以页为单位使用struct page数据结构来管理物理内存的。内核通过物理内存模型来实现组织管理这些物理内存页,不同的物理内存模型,应对的场景及页帧号与物理页之间的计算方式也不一样。
1) 平坦内存模型:flatmem
linux早期使用的物理内存比较小,比如几十mb,并且这些物理内存是一片连续的存储空间,这样物理地址也是连续的,按固定页大小划分出来的物理页也是连续的。linux内核会用一个mem_map全局数组来组织管理所有的物理页,其中物理页是通过struct page来管理,这样每个数组的下标便是pfn。这种连续的物理内存便是平坦内存模型。
2) 非连续内存模型:discontigmem
对于platmem适合管理一整块连续的物理内存,但是对于多块非连续的物理内存,若使用flatmem来管理,这时mem_map全局数组中会有不连续内存地址区的内存空洞,这会造成内存空间的浪费。为了管理这种不连续的物理内存,内核引入了discontigmem非连续内存模型来管理,以便消除不连续的内存地址空洞对mem_map全局数组造成的空间浪费。
discontigmem非连续内存模型的思路是:将物理内存从宏观上划分成一个个节点node,但是微观上还是以物理页为单位,每个node节点管理一块连续的物理内存,这样这些非连续的内存,会以连续的内存方式划分到node节点中管理起来,这样便可以避免内存空洞造成的空间浪费。
3) 稀疏内存模型:sparsemem
由于物理内存在使用的时候,会有很多空洞,这样物理内存存在多处不连续。如果利用上面讲的discontigmem内存模型,会造成node众多,这样开销就大了。为了能够更灵活、更高效的、更小的管理连续物理内存。sparsemem系数内存模型就是为了对粒度更小的连续内存块进行精细的管理,用于管理连续内存块的单元被称为section。在内存中用struct mem_section结构体表示sparsemem模型中的section。
由于section被用作管理小粒度的连续内存块,这些小的连续物理内存在section中也是通过数组的方式被组织管理,其中mem_section结构体中的section_mem_map指针用于指向section中管理连续内存的page数组。sparsemem内存模型中的mem_section会存在放在一个全局的数组中,并且每个mem_section都可以在系统运行的时候进行内存的offline/online,这样便可以支持内存的热拔插。
4, 物理内存初始化
4.1 内存大小初始化
物理内存的大小会在dts(device tree source,设备树)中描述,如下dts的描述:
memory { device_type = memory; reg = ; };
起始地址为0x80000000,大小为0x40000000
内存在启动的过程中,会解析上面的dts,相应的调用过程如下:
4.2 memblock内存分配器
在伙伴系统没有初始化前,在内核中需要一套机制管理内存的申请与释放。在启动的过程中,会解析设备树中的memory节点,把所有物理内存添加到memblock中。后面会通过一篇文章讲解memblock分配器。这里先把结构体及函数接口列出来。
4.3 zone初始化
在对页表初始化后,内核就会对内存进行管理。内核会将这些物理内存分配成不同的内存管理区(zone),分别针对这些内存管理区进行管理。
常见的内存管理区如下:
zone_dma:用于inter x86 isa设备的dma操作,范围是0~16mb,arm没有这个内存管理区。
zone_dma32:用于最低4gb的内存访问的设备,如只支持32位的dma设备。
zone_normal:4gb 以后的物理内存,用于线性映射物理内存。若系统内存小于4gb,则没有这个内存管理区。
zone_highmem:用于管理高端内存,这些高端内存是不能线性映射到内核地址空间的。64位linux是没有这个内存管理区的。
其中zone是利用struct zone数据结构进行管理的,zone数据结构经常会被访问,因此为了提升性能,这个数据结构要求以l1高速缓存对齐。数据结构zone中关键的成员如下:
watermark:每个zone在系统启动时会计算出3个水位,分别是wmark_min(最低警戒水位)、wmark_low(低水位)、wmark_high(高水位),这些在页面分配器和kswapd页面回收中会用到。
lowemem_reserve:防止页面分配器过渡使用低端zone的内存。
zone_pgdat:指向内存节点。
pageset:用于维护每个cpu上的一些列页面,以减少自旋锁的使用
zone_start_pfn:zone的起始页帧号。
managed_pages:zone中被伙伴系统管理的页面数量。
spanned_pages:zone中包含的页面数量。
present_pages:zone里实际管理的页面数量。对于一些架构来说,它和spanned_pages数量一致。
free_area:伙伴系统核心的数据结构,管理空闲也快链表的数组。
lock:并行访问时用于保护zone的自旋锁。
lruvec:lru链表集合。
4.4 伙伴系统
内核启动完成后,物理内存的页面就要添加到伙伴系统中来管理了。伙伴系统(buddy system)是操作系统中常用的动态内存管理方法。用户提出申请时,分配一个大小合适的物理内存,当用户释放后,回收相应的物理内存。后面会专门写一篇介绍伙伴系统的文章,这里只做简单的介绍。
在伙伴系统中,内存块的大小是2的order次幂个页帧。linux中order的最大值是11。伙伴系统大致的思想是,将所有空闲的物理内存页面分组成11个内存块的链表,每个内存块的链表分别包含1、2、4、8、16、32、…、1024个连续的物理页面。1024个物理页面对应着4mb大小的连续物理内存。
由上一节我们了解到,物理内存在linux中分出了几个zone来管理空闲物理页块。zone可以根据内核的配置来划分。每个zone又是利用伙伴系统来管理。zone的数据结构有一个free_area数据结构,数据结构的大小是max_order(11)。free_area数据结构中包含了migrate_types个链表。可以理解成zone根据order的大小由0~(max_order-1)个free_area,每个free_area根据migrate_types类型,由几个相应的链表组成。
软通动力天鹤数据复制服务系统V1.0获得华为技术认证书
华为数字能源融合数字技术助力构建新型电力系统
如何快速低成本搭建设备通信监控系统?
3D芯片技术日渐成熟 未来AI人工智能将微型化
交流接触器的组成部分/工作原理/检测方法
linux内核是怎么管理物理内存的呢?
TE为5G的发展都做了哪些准备?
红外测距传感器的原理以及在AGV小车中的应用介绍
数字视频接口DVI结构设计详解
一灯多控的接线原理图和详细分析
压力表分为几种_压力表符号
希捷发布CORTX对象存储软件与开源社区,普惠超大规模数据存储
中国第三代自主超导量子计算机“本源悟空”上线运行,搭载72位超导
你是否感觉固态硬盘越用越慢?这是咋回事呢?
面对机器智能的迅速发展,人类的命运会走向何处?
关于MATLAB 和 Simulink 在空间系统领域的应用分析和介绍
推挽开漏
如何选择适合自己线径的焊锡丝?
Melexis传感器助力两轮电动车智能化
本田已经停止研发ASIMO机器人