C语言的内存分布

总览

经典的 C 语言内存分布包括以下 5 个部分:

  1. 代码段 (Text segment)
  2. 初始化数据段 (Initialized data segment)
  3. 未初始化数据段 (Uninitialized data segment)
  4. 堆区 (Heap)
  5. 栈区 (Stack)

这是 C 语言程序运行中的经典内存布局,从低地址区域到高以此排布是:代码段、初始化数据段、未初始化数据段、堆、栈。

代码段

代码段 (Text segment),又叫做文本段。存放 CPU 执行的机器指令 (machine instructions)。

  • 通常,代码区是可以共享的(另外的执行程序可以调用它),因为对于频繁操作被执行的的程序,只需要在内存中有一份代码即可。
  • 代码区通常是只读的,防止程序意外的修改了它的指令。
  • 代码区在低地址区域,以防止堆或者栈的溢出

初始化数据段

初始化数据段 (Initialized data segment) 是程序的虚拟地址空间的一部分,它包含由程序员初始化的全局变量和静态变量。

  • 数据区不是只读的,因为变量的值可以在运行时改变
  • 该区可进一步分为初始化只读区和初始化读写区
1
2
3
4
5
6
7
// 声明一个在任何函数外的全局变量,存储在初始化读写区域中
int maxCount = 99;

// 声明一个静态数据
// 字符文本 “hello world” 存储在初始化只读区域中
// 指针变量 string 存储在在初始化读写区域中
const char* string = “hello world”;

未初始化数据段

未初始化数据段 (Uninitialized data segment),亦称BSS区,BSS这个叫法是根据一个早期的汇编运算符而来,这个汇编运算符标志着一个块的开始。

  • BSS区从初始化数据区的末尾开始,包含所有全局变量和静态变量,这些变量初始化为零或源代码中没有显式初始化
  • BSS区的数据在程序开始执行之前被内核初始化为 0 或者空指针(NULL)
1
2
3
// 以下两个变量都会被存储在未初始化数据区
long sum[1000];
static int i;

栈区

栈区(stack)。由编译器自动分配释放,存放函数的参数值、局部变量的值、函数的返回值等。

  • 其操作方式类似于数据结构中的栈。
  • 除了存储局部变量的值外,在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。
  • 由于栈的先进先出特点,所以栈特别方便用来保存/ 恢复调用现场。从这个意义上讲,我们可以把堆栈看成一个寄存、交换临时数据的内存区。

堆区

堆 (heap) 是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。

  • 一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收
  • 当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张)
  • 当利用free等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)
  • 在将应用程序加载到内存空间执行时,操作系统负责代码段、数据段和BSS段的加载,并将在内存中为这些段分配空间。栈段亦由操作系统分配和管理,而不需要程序员显示地管理;堆段由程序员自己管理,即显式地申请和释放空间。

堆区和栈区的区别

管理分配方式

栈的分配和释放是由编译器完成的,栈的动态分配由alloca()函数完成,无需程序员手工控制;

堆都是程序中由malloc()函数动态申请分配并由free()函数释放的,申请释放工作由程序员控制,容易产生内存泄漏。

空间大小

栈是向低地址扩展的数据结构,是一块连续的内存区域。栈顶的地址和栈的最大容量是系统预先规定好的,当超出申当申请的空间超过栈的剩余空间时,将提示溢出,用户能从栈获得的空间较小。在 WINDOWS 下,栈的大小是2M;

堆是向高地址扩展的数据结构,是不连续的内存区域。因为系统是用链表来存储空闲内存地址的,且链表的遍历方向是由低地址向高地址。堆的大小受限于计算机系统中有效的虚拟内存。由此可见,堆获得的空间较灵活,也较大。

是否产生碎片

对于堆来讲,频繁的malloc/free(new/delete)势必会造成内存空间的不连续,从而造成大量的碎片,使程序效率降低(虽然程序在退出后操作系统会对内存进行回收管理);

对于栈来讲,则不会存在这个问题。

增长方向

堆的增长方向是向上的,即向着内存地址增加的方向;

栈的增长方向是向下的,即向着内存地址减小的方向。

分配效率

栈是机器系统提供的数据结构,计算机会在底层对栈提供支持:分配专门的寄存器存放栈的地址,压栈出栈都有专门的指令执行。系统自动分配,速度较快,程序员是无法控制的;

堆则是C函数库提供的,它的机制很复杂,例如为了分配一块内存,库函数会按照一定的算法(具体的算法可以参考数据结构/操作系统)在堆内存中搜索可用的足够大的空间,如果没有足够大的空间(可能是由于内存碎片太多),就有需要操作系统来重新整理内存空间,这样就有机会分到足够大小的内存,然后返回。由new分配的内存,一般速度比较慢,而且容易产生内存碎片,不过用起来最方便。

申请后系统的响应

栈:只要栈的剩余空间大于所申请空间,系统将为程序提供内存,否则将报异常提示栈溢出。

堆:首先应该知道操作系统有一个记录空闲内存地址的链表,当系统收到程序的申请时,会遍历该链表,寻找第一个空间大于所申请空间的堆结点,然后将该结点从空闲结点链表中删除,并将该结点的空间分配给程序。对于大多数系统,会在这块内存空间中的首地址处记录本次分配的大小,这样,代码中的delete语句才能正确的释放本内存空间。由于找到的堆结点的大小不一定正好等于申请的大小,系统会自动的将多余的那部分重新放入空闲链表中。

存储的内容

堆:一般是在堆的头部用一个字节存放堆的大小。堆中的具体内容由程序员安排。

栈:在函数调用时,第一个进栈的是主函数中后的下一条指令(函数调用语句的下一条可执行语句)的地址,然后是函数的各个参数,在大多数的C编译器中,参数是由右往左入栈的,然后是函数中的局部变量(静态变量不入栈)。当本次函数调用结束后,局部变量先出栈,然后是参数,最后栈顶指针指向最开始存的地址,也就是主函数中的下一条指令,程序由该点继续运行。栈中的内存是在程序编译完成以后就可以确定的,不论占用空间大小,还是每个变量的类型。

防止越界

无论是堆还是栈,都要防止越界现象的发生(除非故意使其越界),因为越界的结果要么是程序崩溃,要么是摧毁程序的堆、栈结构,产生意想不到的结果。debug相当困难。