编译乱序(Compiler Reordering)
作者:smcdef 发布于:2019-1-23 22:59 分类:内核同步机制
编译乱序(Compiler Reordering)
编译器指令重排(Compiler Instruction Reordering)
int a, b; void foo(void) { a = b + 1; b = 0; }
ldr w0, [x0] // load b to w0
add w1, w0, #0x1
str w1, [x0] // a = b + 1
str wzr, [x0] // b = 0
<foo>: ... ldr w2, [x0] // load b to w2 str wzr, [x0] // b = 0 add w0, w2, #0x1 str w0, [x1] // a = b + 1 ...
比较优化和不优化的结果,我们可以发现。在不优化的情况下,a 和 b 的写入内存顺序符合代码顺序(program order)。但是-O2优化后,a 和 b 的写入顺序和program order是相反的。-O2优化后的代码转换成C语言可以看作如下形式:
int a, b;
void foo(void)
register int reg = b;
b = 0;
a = reg + 1;
这就是compiler reordering(编译器重排)。为什么可以这么做呢?对于单线程来说,a 和 b 的写入顺序,compiler认为没有任何问题。并且最终的结果也是正确的(a == 1 && b == 0)。
这种compiler reordering在大部分情况下是没有问题的。但是在某些情况下可能会引入问题。例如我们使用一个全局变量flag
是否就绪。由于compiler reordering,可能会引入问题。考虑下面的代码(无锁编程):
int flag, data; void write_data(int value) { data = value; flag = 1; }
显式编译器屏障(Explicit Compiler Barriers)
为了解决上述变量之间存在依赖关系导致compiler错误优化。compiler为我们提供了编译器屏障(compiler barriers),可用来告诉compiler不要reorder。我们继续使用上面的foo()函数作为演示实验,在代码之间插入compiler barriers。
#define barrier() __asm__ __volatile__("": : :"memory")
int a, b;
void foo(void)
a = b + 1;
b = 0;
barrier()就是compiler提供的屏障,作用是告诉compiler内存中的值已经改变,之前对内存的缓存(缓存到寄存器)都需要抛弃,barrier()之后的内存操作需要重新从内存load,而不能使用之前寄存器缓存的值。并且可以防止compiler优化barrier()前后的内存访问顺序。barrier()就像是代码中的一道不可逾越的屏障,barrier前的 load/store 操作不能跑到barrier后面;同样,barrier后面的 load/store 操作不能在barrier之前。依然使用-O2优化选项编译上述代码,反汇编得到如下结果:
ldr w2, [x0] // load b to w2
add w2, w2, #0x1
str w2, [x1] // a = a + 1
str wzr, [x0] // b = 0
我们可以看到插入compiler barriers之后,a 和 b 的写入顺序和program order一致。因此,当我们的代码中需要严格的内存顺序,就需要考虑compiler barriers。
隐式编译器屏障(Implied Compiler Barriers)
除了显示的插入compiler barriers之外,还有别的方法阻止compiler reordering。例如CPU barriers 指令,同样会阻止compiler reordering。后续我们再考虑CPU barriers。
除此以外,当某个函数内部包含compiler barriers时,该函数也会充当compiler barriers的作用。即使这个函数被inline,也是这样。例如上面插入barrier()的foo()函数,当其他函数调用foo()时,foo()就相当于compiler barriers。考虑下面的代码:
int a, b, c; void fun(void) { c = 2; barrier(); } void foo(void) { a = b + 1; fun(); /* fun() call act as compiler barriers */ b = 0; }
fun()函数包含barrier(),因此foo()函数中fun()调用也表现出compiler barriers的作用。同样可以保证 a 和 b 的写入顺序。如果fun()函数不包含barrier(),结果又会怎么样呢?实际上,大多数的函数调用都表现出compiler barriers的作用。但是,这不包含inline的函数。因此,fun()如果被inline进foo(),那么fun()就不会具有compiler barriers的作用。如果被调用的函数是一个外部函数,其副作用会比compiler barriers还要强。因为compiler不知道函数的副作用是什么。它必须忘记它对内存所作的任何假设,即使这些假设对该函数可能是可见的。我么看一下下面的代码片段,printf()一定是一个外部的函数。
int a, b; void foo(void) { a = 5; printf("smcdef"); b = a; }
mov w2, #0x5 // #5
str w2, [x19] // a = 5
bl 640 <__printf_chk@plt> // printf()
ldr w1, [x19] // reload a to w1
str w1, [x0] // b = a
compiler不能假设printf()不会使用或者修改 a 变量。因此在调用printf()之前会将 a 写5,以保证printf()可能会用到新值。在printf()调用之后,重新从内存中load a 的值,然后赋值给变量 b。重新load a 的原因是compiler也不知道printf()会不会修改 a 的值。
因此,我们可以看到即使存在compiler reordering,但是还是有很多限制。当我们需要考虑compiler barriers时,一定要显示的插入barrier(),而不是依靠函数调用附加的隐式compiler barriers。因为,谁也无法保证调用的函数不会被compiler优化成inline方式。
barriers()作用除了防止compiler reordering之外,还有什么妙用吗?我们考虑下面的代码片段。
int run = 1;
void foo(void)
while (run)
0000000000000748 <foo>:
748: 90000080 adrp x0, 10000
74c: f947e800 ldr x0, [x0, #4048]
750: b9400000 ldr w0, [x0] // load run to w0
754: d503201f nop
758: 35000000 cbnz w0, 758 <foo+0x10> // if (w0) while (1);
75c: d65f03c0 ret
int run = 1;
void foo(void)
register int reg = run;
if (reg)
while (1)
0000000000000748 <foo>:
748: 90000080 adrp x0, 10000
74c: f947e800 ldr x0, [x0, #4048]
750: b9400001 ldr w1, [x0] // load run to w0
754: 34000061 cbz w1, 760 <foo+0x18>
758: b9400001 ldr w1, [x0] // load run to w0
75c: 35ffffe1 cbnz w1, 758 <foo+0x10> // if (w0) goto 758
760: d65f03c0 ret
我们可以看到加入barrier()后的结果真是我们想要的。每一次循环都会从内存中重新load run的值。因此,当有其他进程修改run的值为0的时候,foo()可以正常退出循环。为什么加入barrier()后的汇编代码就是正确的呢?因为barrier()作用是告诉compiler内存中的值已经变化,后面的操作都需要重新从内存load,而不能使用寄存器缓存的值。因此,这里的run变量会从内存重新load,然后判断循环条件。这样,其他进程修改run变量,foo()就可以看得见了。
在Linux kernel中,提供了cpu_relax()函数,该函数在ARM64平台定义如下:
static inline void cpu_relax(void) { asm volatile("yield" ::: "memory"); }
int run = 1; void foo(void) { while (run) cpu_relax(); }
当然也可以使用Linux 提供的READ_ONCE()。例如,下面的修改也同样可以达到我们预期的效果。
int run = 1;
void foo(void)
while (READ_ONCE(run)) /* similar to while (*(volatile int *)&run) */
当然你也可以修改run的定义为volatile int run,
volatile int run = 1; void foo(void) { while (run) ; }
标签: barrier

2025-02-14 15:29
2019-07-17 16:03
ldr w0, [x0] // load b to w0
add w1, w0, #0x1
str w1, [x0] // a = b + 1 这个地方有问题,str w1, [x0]不应该是x0,否则变成b=b+1
str wzr, [x0] // b = 0
2019-07-09 16:21
当使用了barrier(), 让compiler正确的编译出正确的顺序(program order),
却没有对cpu out-of-order execution做出确保(execution order)?
对一个C programmer而言, 这样的问题该理解到哪个层次, 才能确保程式正确性?
2019-02-19 11:55
- 2024年2月(1)
- 2023年5月(1)
- 2022年10月(1)
- 2022年8月(1)
- 2022年6月(1)
- 2022年5月(1)
- 2022年4月(2)
- 2022年2月(2)
- 2021年12月(1)
- 2021年11月(5)
- 2021年7月(1)
- 2021年6月(1)
- 2021年5月(3)
- 2020年3月(3)
- 2020年2月(2)
- 2020年1月(3)
- 2019年12月(3)
- 2019年5月(4)
- 2019年3月(1)
- 2019年1月(3)
- 2018年12月(2)
- 2018年11月(1)
- 2018年10月(2)
- 2018年8月(1)
- 2018年6月(1)
- 2018年5月(1)
- 2018年4月(7)
- 2018年2月(4)
- 2018年1月(5)
- 2017年12月(2)
- 2017年11月(2)
- 2017年10月(1)
- 2017年9月(5)
- 2017年8月(4)
- 2017年7月(4)
- 2017年6月(3)
- 2017年5月(3)
- 2017年4月(1)
- 2017年3月(8)
- 2017年2月(6)
- 2017年1月(5)
- 2016年12月(6)
- 2016年11月(11)
- 2016年10月(9)
- 2016年9月(6)
- 2016年8月(9)
- 2016年7月(5)
- 2016年6月(8)
- 2016年5月(8)
- 2016年4月(7)
- 2016年3月(5)
- 2016年2月(5)
- 2016年1月(6)
- 2015年12月(6)
- 2015年11月(9)
- 2015年10月(9)
- 2015年9月(4)
- 2015年8月(3)
- 2015年7月(7)
- 2015年6月(3)
- 2015年5月(6)
- 2015年4月(9)
- 2015年3月(9)
- 2015年2月(6)
- 2015年1月(6)
- 2014年12月(17)
- 2014年11月(8)
- 2014年10月(9)
- 2014年9月(7)
- 2014年8月(12)
- 2014年7月(6)
- 2014年6月(6)
- 2014年5月(9)
- 2014年4月(9)
- 2014年3月(7)
- 2014年2月(3)
- 2014年1月(4)
2025-02-14 16:21
a = 5;
b = a;