linux kernel内存回收机制

作者:itrocker 发布于:2015-11-12 20:37 分类:内存管理

无论计算机上有多少内存都是不够的,因而linux kernel需要回收一些很少使用的内存页面来保证系统持续有内存使用。页面回收的方式有页回写、页交换和页丢弃三种方式:如果一个很少使用的页的后备存储器是一个块设备(例如文件映射),则可以将内存直接同步到块设备,腾出的页面可以被重用;如果页面没有后备存储器,则可以交换到特定swap分区,再次被访问时再交换回内存;如果页面的后备存储器是一个文件,但文件内容在内存不能被修改(例如可执行文件),那么在当前不需要的情况下可直接丢弃。

1 回收的时机

2 哪些内存可以回收

2.1 页框的回收

LRU(Least Recently Used),近期最少使用链表,是按照近期的使用情况排列的,最少使用的存在链表末尾,通过以下宏定义即可看出:

#define lru_to_page(_head) (list_entry((_head)->prev, struct page, lru))

每个zone5LRU链表用以存放各种最近使用状态的页面。

enum lru_list {

         LRU_INACTIVE_ANON = LRU_BASE,

         LRU_ACTIVE_ANON = LRU_BASE + LRU_ACTIVE,

         LRU_INACTIVE_FILE = LRU_BASE + LRU_FILE,

         LRU_ACTIVE_FILE = LRU_BASE + LRU_FILE + LRU_ACTIVE,

         LRU_UNEVICTABLE,

         NR_LRU_LISTS

};

其中INACTIVE_ANONACTIVE_ANONINACTIVE_FILEACTIVE_FILE 4个链表中的页面是可以回收的。ANON代表匿名映射,没有后备存储器;FILE代表文件映射。

页面回收时,会优先回收INACTIVE的页面,只有当INACTIVE页面很少时,才会考虑回收ACTIVE页面。

为了评估页的活动程度,kernel引入了PG_referendPG_active两个标志位。为什么需要两个位呢?假定只使用一个PG_active来标识页是否活动,在页被访问时,设置该位,但是何时清楚呢?为此需要维护大量的内核定时器,这种方法注定是要失败的。

使用两个标志,可以实现一种更精巧的方法,其核心思想是:一个表示当前活动程度,一个表示最近是否被引用过,下图说明了基本算法。

基本上有以下步骤:

1)如果页是活动的,设置PG_active位,并保存在ACTIVE LRU链表;反之在INACTIVE

2)每次访问页时,设置PG_referenced位,负责该工作的是mark_page_accessed函数;

3PG_referenced以及由逆向映射提供的信息用来确定页面活动程度,每次清除该位时,都会检测页面活动程度,page_referenced函数实现了该行为;

4)再次进入mark_page_accessed。如果发现PG_referenced已被置位,意味着page_referenced没有执行检查,因而对于mark_page_accessed的调用比page_referenced更频繁,这意味着页面经常被访问。如果该页位于INACTIVE链表,将其移动到ACTIVE,此外还会设置PG_active标志位,清除PG_referenced

5)反向的转移也是有可能的,在页面活动程度减少时,可能连续调用两次page_referenced而中间没有mark_page_accessed

如果对内存页的访问是稳定的,那么对page_referencedmark_page_accessed的调用在本质上是均衡的,因而页面保持在当前LRU链表。这种方案同时确保了内存页不会再ACTIVEINACTIVE链表间快速跳跃。

2.2 slab缓存回收

slab缓存回收相对比较灵活,所有注册到shrinker_list中的方法都会被执行。

内核默认针对每个文件系统都注册了prune_super方法,这个函数用来回收文件系统中不再使用的dentryinode缓存;

androidlowmemorykiller机制注册了选择性杀死进程的方法,回收进程使用的内存。

3怎样回收页框

其中shrink_page_list是真正回收页面的过程

4周期性回收的频率

4.1 kswapd

kswapd是内核为每个内存node创建的内存回收线程,为什么有了紧缺回收机制还需要周期性回收呢?因为有些内存分配是不允许阻塞等待回收的,比如中断和异常处理程序中的内存分配;还有些内存分配不允许激活I/O访问的。只有少数情况的内存紧缺可以完整执行回收过程,所以利用系统空闲时间回收内存非常必要。

该函数记录了上一次均衡操作时所用的分配order,如果kswapd_max_order大于上一次的值,或者classzone_idx小于上一次的值,则调用balance_pgdat再次均衡该内存域,否则可以进行短暂休眠,休眠的时间是HZ/10,对于arm(HZ=100)来说,休眠的时间就是1ms

balance_pgdat均衡操作直到该内存域的zone_wartermark_ok为止。

4.2 cache_reap

cache_reap用来回收slab中的空闲对象,如果空闲对象可以还原成一个页面,则释放回buddy system。每次调用cache_reap会把所有的slab_caches遍历一遍,之后休眠2*HZ,对于arm(HZ=100)来说,周期就是20ms

5 参考文献

(1)understanding the linux kernel

(2)professional linux kernel architecture

评论:

keiviw
2016-05-12 10:05
您好 有个关于dentrycache和inodecache的内存回收问题请教您,在内存回收分配的dentry对象时,回收条件是什么?回收时针对的是memory_area还是page
wowo
2016-05-13 09:18
@keiviw:文件系统有关的回收操作,是由vm触发的(可参考shrink_slab-->do_shrinker_shrink-->shrinker->shrink),但具体的回收动作,是由文件系统负责的(可参考fs/super.c中的prune_super接口)。
也就是说,decache和inode回收时机,是文件系统自己的事情,和vm无关。而具体的回收行为,我也没有研究过,你可以试试自己看一下。
keiviw
2016-05-14 11:17
@wowo:您看的源码是什么版本?我的理解是shrink_dcache_memory回收dentry对象到slab分配池中,而您介绍的cache_reap是针对slab3链表的空链表回收页帧
wowo
2016-05-16 09:00
@keiviw:我看的内核版本是linux-4.0.5,里面已经没有你说的shrink_dcache_memory接口了。
andy01011501
2016-03-09 11:42
我想保持一个普通文件在内存中的cache不被置换,也就是永久保留在内存中,有没有什么好办法啊?
itrocker
2016-03-11 14:06
@andy01011501:可以使用mlock机制
andy01011501
2016-03-15 15:21
@itrocker:对,非常感谢
ericzhou
2016-03-05 10:10
你好,请教一个问题。
当回收一个页框时,怎么知道这个页框是否在被使用呢?
如果用户程序映射到这个页框,并正在使用,是不是就不能回收?
郭健
2016-03-06 21:50
@ericzhou:你好,请教一个问题。
当回收一个页框时,怎么知道这个页框是否在被使用呢?
-------------------------------------------
struct page中有reference counter,可以用来确定该page是否被引用。

如果用户程序映射到这个页框,并正在使用,是不是就不能回收?
-------------------------------------------
如果用户程序的正文段mapping到了某个物理page上来,实际上,在内存比较紧俏的时候,仍然会回收该page,只不过,但该用户程序再次执行的时候,访问正文段产生异常,然后再次分配page并从backup的磁盘中加载该page的数据,返回异常的现场。
qkhhyga
2017-04-19 19:55
@郭健:Hi,linuxer
但该用户程序再次执行的时候,访问正文段产生异常,然后再次分配page并从backup的磁盘中加载该page的数据,返回异常的现场。
》》》我想问问,在回收page时,会把page 的内存backup到磁盘吗?
linuxer
2017-04-21 10:41
@qkhhyga:正文段是read only的,不会被修改,因此不需要讲page上的内容backup到磁盘。
qkhhyga
2017-04-27 19:56
@linuxer:Hi,linux,应用层的函数栈在该函数末退出时,这种情况的栈page 是否会被回收?又是如何来判断这种page 是否可以被回收呢?
别外,我们都知道,应用程序在堆分配出来的内存属于匿名页面,这种页面又是如何设置page的count和mapcount参数的?
linuxer
2017-04-28 08:43
@qkhhyga:栈上的page属于匿名映射,只要内核配置了swap on,那么所有匿名page都会拥有了backup file或者backup device,只要有了backup file或者backup device,一般情况下(没有锁住)都可以被回收。

mapcount参数是和地址映射相关的,在为该page创建新的地址映射关系的时候,会累加mapcount。

count是真正的,通用意义上的reference counter。
qkhhyga
2017-04-28 14:11
@linuxer:Hi,linuxer
   非常感谢你的回复
  count 在什么时候加一,减一又是什么时候?初始时,count是多少?当上层应用在执行free 的时候是否会对count 进行减一操作?
linuxer
2017-04-28 16:35
@linuxer:一个物理页面(page frame)是由struct page来抽象,其成员_count表示了该page frame被使用的次数。刚开始,一个物理页面不被任何进程使用,_count等于-1,一旦被分配给了某个进程(我们称之A进程),例如保存了data段的数据,那么该page frame的_count等于0。在进程fork的时候,新进程B产生了,由于COW的原因,两个进程的地址空间都指向了一个page frame,那么这时候,该page frame的_count就会加一。当B进程向data段写入的时候,会产生memory fault,然后会为B进程分配新的page frame,从而使得A和B不再共享一个page frame,那么旧的page的_count就会减一。

应用调用memory和free的时候,分配的都是虚拟地址,和物理页帧没有任何的关系
qkhhyga
2017-04-28 18:00
@linuxer:我在看shrink_page_list 的时候,发现只有在page—>_count 等于0时才会被释放,这里有个疑问,既然还有进程引用这个page,那么为什么还会释放?
当然shrink_page_list是在shrink_inactive_list 中调用的,是否在内存回收时并不在乎_count 的值,如果等于1或者2,只要try_to_unmap就可以了?
Daniel Shieh
2015-11-24 15:27
恭喜蜗窝科技又有一员大将加入,期待后续的文章。顺便问一下,itrocker是要写Linux内存管理这个系列的哪些内容呢?不知道是否有目录放出?嘻嘻,迫不及待啊......
itrocker
2015-11-24 16:08
@Daniel Shieh:感谢关注:)
目前还没有完整的规划,都是利用业余时间解决心中对kenrel的一些疑问,并分享给大家,共同讨论。正如wowo所说,内存管理非常庞大,千页的大部头书也讲不完,我只能以绵薄之力陆续将常用技术的点点滴滴整理一下
linuxer
2015-11-14 00:13
itrocker,看你写了不少内存管理的文档,有没有兴趣负责内存管理子系统这个类别的文档维护?
itrocker
2015-11-16 09:23
@linuxer:有兴趣,荣幸之至:)
linuxer
2015-11-16 12:59
@itrocker:wowo同学,要不再加一个内存管理的入口?让itroker来维护如何?我感觉凭借我们两个人不可能能把内核中的所有的东西搞清楚(业余时间哪里够用啊),有必要把某些模块分出去,发动群众的力量
wowo
2015-11-16 13:28
@linuxer:没问题,交给我处理。
wowo
2015-11-16 13:33
@wowo:已经创建,并把itrocker的两篇移到这个分类下面了。
内存管理也是一个庞然大物啊,itrocker加油!
itrocker
2015-11-16 14:25
@wowo:感谢二位大神,我会努力!加油! ^_^

发表评论:

Copyright @ 2013-2015 蜗窝科技 All rights reserved. Powered by emlog