1517

from:http://yurichev.com/writings/RE_for_beginners-en.pdf

第一章

CPU簡介

CPU就是執行所有程序的工作單元。

詞匯表：

Instruction：CPU的原指令，例如：將數據在數據區與寄存器之間進行轉移操作，對數據進行操作，算術操作。原則上每種CPU會有自己獨特的一套指令構架(Instruction Set Architecture(ISA))。

Machine code: CPU的指令碼（機器碼），每條指令都會被譯成指令碼。

Assembly Language: 匯編語言，助記碼和其他一些例如宏那樣的特性組成的便于程序員編寫的語言。

CPU register：CPU寄存器，每個CPU都有一些通用寄存器(General Purpose Registers(GPR))。X86有8個，x86-64(amd64)有16個，ARM有16個，最簡單去理解寄存器的方法就是，把寄存器想成一個不需要類型的臨時變量。想象你在用高級編程語言，并且只有8個32bit的變量。只用這些可以完成非常多的事情。

那么機器碼跟程序語言有什么區別那？對于人類來講，使用例如C/C++, Java, Python這樣編程語言會比較簡單，但是CPU更喜歡低級抽象的東西。但愿有一天CPU也能直接來執行高級語言的語句，但那肯定會非常的復雜。相反人類使用匯編語言會感覺不很方便，因為它非常的低級。而且很難用它寫非常長的代碼并不出現錯誤。有一種將高級語言轉換到匯編語言的程序，它被叫做編譯器。

第二章

Hello,world!

讓我們用最著名的代碼例子開始吧：

#!cpp
#include <stdio.h> 
int main() {
??? printf("hello, world");
??? return 0;
};

2.1 x86

2.1.1 MSVC-x86

在MSVC 2010中編譯一下：

#!bash    
cl 1.cpp /Fa1.asm

（/Fa 選項表示生產匯編列表文件）

#!bash
CONST   SEGMENT
$SG3830 DB      'hello, world', 00H
CONST   ENDS
PUBLIC  _main
EXTRN   _printf:PROC
; Function compile flags: /Odtp
_TEXT   SEGMENT
_main   PROC

        push    ebp
        mov     ebp, esp
        push    OFFSET $SG3830
        call    _printf
        add     esp, 4
        xor     eax, eax
        pop     ebp
        ret     0

_main   ENDP 
_TEXT?? ENDS

MSVC生成的是Intel匯編語法。Intel語法與AT&T語法的區別將在后面討論。

編譯器會把1.obj文件連接成1.exe。

在我們的例子當中，文件包含兩個部分：CONST（放數據）和_TEXT（放代碼）。

字符串“hello,world”在 C/C++ 類型為const char*，然而他沒有自己的名稱。

編譯器需要處理這個字符串，就自己給他定義了一個$SG3830。

所以例子可以改寫為：

#!cpp
#include <stdio.h>
const char *$SG3830="hello, world";
int main() {
    printf($SG3830);
    return 0; 
};

我們回到匯編列表，正如我們看到的，字符串是由0字節結束的，這也是 C/C++的標準。

在代碼部分，_TEXT，只有一個函數：main()。

函數main()與大多數函數一樣都有開始的代碼與結束的代碼。

函數當中的開始代碼結束以后，調用了printf()函數：CALL _printf。

在PUSH指令的幫助下，我們問候語字符串的地址（或指向它的指針）在被調用之前存放在棧當中。

當printf()函數執行完返回到main()函數的時候，字符串地址(或指向它的指針)仍然在堆棧中。

當我們都不再需要它的時候，堆棧指針（ESP寄存器）需要改變。

#!bash
ADD ESP, 4?

意思是ESP寄存器加4。

為什么是4呢？由于是32位的代碼，通過棧傳送地址剛好需要4個字節。

在64位系統當中它是8字節。

“ADD ESP, 4” 實際上等同于“POP register”。

一些編輯器（如Intel C++編譯器）在同樣的情況下可能會用 POP ECX代替ADD（例如這樣的模式可以在Oracle RDBMS代碼中看到，因為它是由Intel C++編譯器編譯的），這條指令的效果基本相同，但是ECX的寄存器內容會被改寫。

Intel C++編譯器可能用POP ECX，因為這比ADD ESP, X需要的字節數更短，（1字節對應3字節）。

在調用printf()之后，在C/C++代碼之后執行return 0，return 0是main()函數的返回結果。

代碼被編譯成指令 XOR EAX, EAX

XOR事實上就是異或，但是編譯器經常用它來代替 MOV EAX, 0 原因就是它需要的字節更短（2字節對應5字節）。

有些編譯器用SUB EAX, EAX 就是EXA的值減去EAX，也就是返回0。

最后的指令RET 返回給調用者，他是C/C++代碼吧控制返還給操作系統。

2.1.2 GCC-x86

現在我們嘗試同樣的C/C++代碼在linux中的GCC 4.4.1編譯

#!bash
gcc 1.c -o 1

下一步，在IDA反匯編的幫助下，我們看看main()函數是如何被創建的。

（IDA，與MSVC一樣，也是顯示Intel語法）。

我也可以是GCC生成Intel語法的匯編代碼，添加參數

#!bash
-S -masm=intel

匯編代碼：

#!bash
main??????????? proc near 

var_10????????? = dword ptr -10h

??????????????? push??? ebp
??????????????? mov???? ebp, esp
??????????????? and???? esp, 0FFFFFFF0h
??????????????? sub???? esp, 10h
??????????????? mov???? eax, offset aHelloWorld ; "hello, world"
??????????????? mov???? [esp+10h+var_10], eax
??????????????? call _printf
??????????????? mov eax, 0
??????????????? leave
??????????????? retn
main??????????? endp

結果幾乎是相同的，“hello,world”字符串地址（保存在data段的）一開始保存在EAX寄存器當中，然后保存到棧當中。

同樣的在函數開始我們看到了

AND ESP, 0FFFFFFF0h

這條指令該指令對齊在16字節邊界在ESP寄存器中的值。這導致堆棧對準的所有值。

SUB ESP，10H在棧上分配16個字節。這里其實只需要4個字節。

這是因為，分配堆棧的大小也被排列在一個16字節的邊界。

該字符串的地址（或這個字符串指針），不使用PUSH??指令，直接寫入到堆棧空間。 var_10，是一個局部變量，也是printf()的參數。

?然后調用printf()函數。

不像MSVC，當gcc編譯不開啟優化，它使用MOV EAX，0清空EAX，而不是更短的代碼。

最后一條指令，LEAVE相當于MOV ESP，EBP和POP EBP兩條指令。

換句話說，這相當于指令將堆棧指針（ESP）恢復，EBP寄存器到其初始狀態。

這是必須的，因為我們在函數的開頭修改了這些寄存器的值（ESP和EBP）（執行MOV EBP，ESP/AND ESP...）。

2.1.3 GCC:AT&T 語法

我們來看一看在AT&T當中的匯編語法，這個語法在UNIX當中更普遍。

#!bash
gcc -S 1_1.c

我們將得到這個：

#!bash
.file?? "1_1.c" 
.section??? .rodata

.LC0:
??????? .string "hello, world"
??????? .text
??????? .globl? main
??????? .type?? main, @function
main:
.LFB0:
??????? .cfi_startproc
??????? pushl?? %ebp
??????? .cfi_def_cfa_offset 8
??????? .cfi_offset 5, -8
??????? movl??? %esp, %ebp
??????? .cfi_def_cfa_register 5
??????? andl??? $-16, %esp
??????? subl??? $16, %esp
??????? movl??? $.LC0, (%esp)
??????? call??? printf
??????? movl??? $0, %eax
??????? leave
??????? .cfi_restore 5
??????? .cfi_def_cfa 4, 4
??????? ret
??????? .cfi_endproc
.LFE0:
??????? .size?? main, .-main
??????? .ident? "GCC: (Ubuntu/Linaro 4.7.3-1ubuntu1) 4.7.3"
? ? ? ? .section??????? .note.GNU-stack,"",@progbits?

有很多的宏（用點開始）。現在為了簡單起見，我們先不看這些。（除了 .string ，就像一個C字符串編碼一個null結尾的字符序列）。然后，我們將看到這個：

#!bash
.LC0:
        .string "hello, world"
main:
        pushl   %ebp
        movl    %esp, %ebp
        andl    $-16, %esp
        subl    $16, %esp
        movl    $.LC0, (%esp)
        call    printf
        movl    $0, %eax
        leave
        ret

在Intel與AT&T語法當中比較重要的區別就是：

操作數寫在后面

在Intel語法中：<instruction> <destination operand> <source operand>
在AT&T語法中：<instruction> <source operand> <destination operand>

有一個理解它們的方法: 當你面對intel語法的時候，你可以想象把等號放到2個操作數中間，當面對AT&T語法的時候，你可以放一個右箭頭(→）到兩個操作數之間。

AT&T: 在寄存器名之前需要寫一個百分號(%)并且在數字前面需要美元符($)。方括號被圓括號替代。 AT&T: 一些用來表示數據形式的特殊的符號

l      long(32 bits)
w      word(16bits)
b      byte(8 bits)

讓我們回到上面的編譯結果：它和在IDA里看到的是一樣的。只有一點不同：0FFFFFFF0h 被寫成了$-16，但這是一樣的，10進制的16在16進制里表示為0x10。-0x10就等同于0xFFFFFFF0(這是針對于32位構架)。

外加返回值這里用的MOV來設定為0，而不是用XOR。MOV僅僅是加載（load）了變量到寄存器。指令的名稱并不直觀。在其他的構架上，這條指令會被稱作例如”load”這樣的。

2.2 x86-64

2.2.1 MSVC-x86-64

讓我們來試試64-bit的MSVC：

#!bash
$SG2989 DB      ’hello, world’, 00H
main    PROC 
        sub     rsp, 40
        lea     rcx, OFFSET FLAT:$SG2923
        call    printf
        xor     eax, eax
        add     rsp, 40
        ret     0
main ENDP

在x86-64里，所有被擴展到64位的寄存器都有R-前綴。并且盡量不用棧來傳遞函數的參數了，大量使用寄存器來傳遞參數，非常類似于fastcall。

在win64里，RCX,RDX,R8,R9寄存器被用來傳遞函數參數，如果還有更多就使用棧，在這里我們可以看到printf()函數的參數沒用通過棧來傳遞，而是使用了rcx。讓我們針對64位來看，作為64位寄存器會有R-前綴，并且這些寄存器向下兼容，32位的部分使用E-前綴。

如下圖所示，這是RAX/EAX/AX/AL在64位x86兼容cpu里的情況 ? enter image description here

在main()函數會返回一個int類型的值，在64位的程序里為了兼容和移植性，還是用32位的，所以可以看到EAX（寄存器的低32位部分）在函數最后替代RAX被清空成0。

2.2.2 GCC-x86-64

這次試試GCC在64位的Linux里：

#!bash
        .string "hello, world"
main:
        sub     rsp, 8
        mov     edi, OFFSET FLAT:.LC0 ; "hello, world"
        xor     eax, eax  ; number of vector registers passed
        call    printf
        xor     eax, eax
        add     rsp, 8
        ret

在Linux,*BSD和Mac OS X里使用同一種方式來傳遞函數參數。頭6個參數使用RDI,RSI,RDX,RCX,R8,R9來傳遞的，剩下的要靠棧。

所以在這個程序里，字串的指針被放到EDI（RDI的低32位部）。為什么不是64位寄存器RDI那？

這是一個重點，在64位模式下，對低32位進行操作的時候，會清空高32位的內容。比如 MOV EAX，011223344h將會把值寫到RAX里，并且清空RAX的高32位區域。如果我們打開編譯好的對象文件(object file(.o)),我們會看到所有的指令：

Listing 2.8：GCC 4.4.6 x64

#!bash
.text:00000000004004D0                  main proc near
.text:00000000004004D0 48 83 EC 08           sub rsp, 8
.text:00000000004004D4 BF E8 05 40 00        mov edi, offset format ; "hello, world"
.text:00000000004004D9 31 C0                 xor eax, eax
.text:00000000004004DB E8 D8 FE FF FF        call _printf
.text:00000000004004E0 31 C0                 xor eax, eax
.text:00000000004004E2 48 83 C4 08           add rsp, 8
.text:00000000004004E6 C3                    retn
.text:00000000004004E6                  main endp

就像看到的那樣，在04004d4那行給edi寫字串指針的那句花了5個bytes。如果把這句換做給rdi寫指針，會花掉7個bytes.就是說GCC在試圖節省空間，為此數據段(data segment)中包含的字串不會被分配到高于4GB地址的空間上。

可以看到在printf()函數調用前eax被清空了，這樣做事因為要eax被用作傳遞向量寄存器(vector registers)的個數。

參考【21】 MichaelMatz/JanHubicka/AndreasJaeger/MarkMitchell. Systemvapplicationbinaryinterface.amdarchitecture processor supplement, . Also available as http://x86-64.org/documentation/abi.pdf.

2.3 ARM

根據作者自身對ARM處理器的經驗，選擇了2款在嵌入式開發流行的編譯器，Keil Release 6/2013和蘋果的Xcode 4.6.3 IDE(其中使用了LLVM-GCC4.2編譯器)，這些可以為ARM兼容處理器和系統芯片(System on Chip)(SOC))來進行編碼。比如ipod/iphone/ipad,windows8 rt,并且包括raspberry pi。

2.3.1 未進行代碼優化的Keil編譯：ARM模式

讓我們在Keil里編譯我們的例子

#!bash
armcc.exe –arm –c90 –O0 1.c

armcc編譯器可以生成intel語法的匯編程序列表，但是里面有高級的ARM處理器相關的宏，對我們來講更希望看到的是IDA反匯編之后的結果。

Listing 2.9: Non-optimizing Keil + ARM mode + IDA
#!bash
.text:00000000                  main
.text:00000000 10 40 2D E9              STMFD SP!, {R4,LR}
.text:00000004 1E 0E 8F E2              ADR R0, aHelloWorld ; "hello, world"
.text:00000008 15 19 00 EB              BL __2printf
.text:0000000C 00 00 A0 E3              MOV R0, #0
.text:00000010 10 80 BD E8              LDMFD SP!, {R4,PC}

.text:000001EC 68 65 6C 6C+aHelloWorld  DCB "hello, world",0 ; DATA XREF: main+4

針對ARM處理器，我們需要預備一點知識，要知道ARM處理器至少有2種模式：ARM模式和thumb模式，在ARM模式下，所有的指令都被激活并且都是32位的。在thumb模式下所有的指令都是16位的。Thumb模式比較需要注意，因為程序可能需要更為緊湊，或者當微處理器用的是16位內存地址時會執行的更快。但也存在缺陷，在thumb模式下可用的指令沒ARM下多，只有8個寄存器可以訪問，有時候ARM模式下一條指令就能解決的問題，thumb模式下需要多個指令來完成。

從ARMv7開始引入了thumb-2指令集。這是一個加強的thumb模式。擁有了更多的指令，通常會有誤解，感覺thumb-2是ARM和thumb的混合。Thumb-2加強了處理器的特性，并且媲美ARM模式。程序可能會混合使用2種模式。其中大量的ipod/iphone/ipad程序會使用thumb-2是因為Xcode將其作為了默認模式。

在例子中，我們可以發現所有指令都是4bytes的，因為我們編譯的時候選擇了ARM模式，而不是thumb模式。

最開始的指令是”STMFD SP!, {R4, LR}”，這條指令類似x86平臺的PUSH指令，會寫2個寄存器（R4和LR）的變量到棧里。不過在armcc編譯器里輸出的匯編列表里會寫成”PUSH {R4, LR}”，但這并不準確，因為PUSH命令只在thumb模式下有，所以我建議大家注意用IDA來做反匯編工具。

這指令開始會減少SP的值，已加大棧空間，并且將R4和LR寫入分配好的棧里。

這條指令（類似于PUSH的STMFD）允許一次壓入好幾個值，非常實用。有一點跟x86上的PUSH不同的地方也很贊，就是這條指令不像x86的PUSH只能對sp操作，而是可以指定操作任意的寄存器。

“ADR R0, aHelloWorld”這條指令將PC寄存器的值與”hello, world”字串的地址偏移相加放入R0，為什么說要PC參與這個操作那？這是因為代碼是PIC（position-independet code）的，這段代碼可以獨立在內存運行，而不需要更改內存地址。ADR這條指令中，指令中字串地址和字串被放置的位置是不同的。但變化是相對的，這要看系統是如何安排字串放置的位置了。這也就說明了，為何每次獲取內存中字串的絕對地址，都要把這個指令里的地址加上PC寄存器里的值了。

”BL __2print”這條指令用于調用printf()函數，這是來說下這條指令時如何工作的：

將BL指令（0xC）后面的地址寫入LR寄存器；
然后把printf()函數的入口地址寫入PC寄存器，進入printf()函數。

當printf()函數完成之后，函數會通過LR寄存器保存的地址，來進行返回操作。

函數返回地址的存放位置也正是“純”RISC處理器（例如：ARM）和CISC處理器(例如x86)的區別。

另外，一個32位地址或者偏移不能被編碼到BL指令里，因為BL指令只有24bits來存放地址，所有的ARM模式下的指令都是4bytes（32bits）,所以一條指令里不能放滿4bytes的地址，這也就意味著最后2bits總會被設置成0，總的來說也就是有26bits的偏移（包括了最后2個bit一直被設為0）會被編碼進去。這也夠去訪問大約±32M的了。

下面我們來看“MOV R0， #0“這條語句，這條語句就是把0寫到了R0寄存器里，這是因為C函數返回了0，返回值當然是放在R0里的。

最后一條指令是”LDMFD SP!, R4,PC“，這條指令的作用跟開始的那條STMFD正好相反，這條指令將棧上的值保存到R4和PC寄存器里，并且增加SP棧寄存器的值。這非常類似x86平臺里的POP指令。最前面那條STMFD指令成對保存了R4，和LR寄存器，LDMFD的時候將當時這兩個值保存到了R4和PC里完成了函數的返回。

我前面也說過，函數的返回地址會保存到LD寄存器里。在函數的最開始會把他保存到棧里，這是因為main()函數里還需要調用printf()函數，這個時候就會影響LD寄存器。在函數的最后就會將LD拿出棧放入PC寄存器里，完成函數的返回操作。最后C/C++程序的main()函數會返回到類似系統加載器上或者CRT里面。

匯編代碼里的DCB關鍵字用來定義ASCII字串數組，就像x86匯編里的DB關鍵字。

2.3.2未進行代碼優化的Keil編譯： thumb模式

讓我們用下面的指令講例程用Keil的thumb模式來編譯一下。

#!bash
armcc.exe –thumb –c90 –O0 1.c

我們可以在IDA里得到下面這樣的代碼： Listing 2.10:Non-optimizing Keil + thumb mode + IDA

#!bash
.text:00000000          main
.text:00000000 10 B5                    PUSH {R4,LR}
.text:00000002 C0 A0                    ADR R0, aHelloWorld ; "hello, world"
.text:00000004 06 F0 2E F9              BL __2printf
.text:00000008 00 20                    MOVS R0, #0
.text:0000000A 10 BD                    POP {R4,PC}

.text:00000304 68 65 6C 6C+aHelloWorld  DCB "hello, world",0 ; DATA XREF: main+2

我們首先就能注意到指令都是2bytes(16bits)的了，這正是thumb模式的特征，BL指令作為特例是2個16bits來構成的。只用16bits沒可能加載printf()函數的入口地址到PC寄存器。所以前面的16bits用來加載函數偏移的高10bits位，后面的16bits用來加載函數偏移的低11bits位，正如我說過的，所有的thumb模式下的指令都是2bytes(16bits)。但是這樣的話thumb指令就沒法使用更大的地址。就像上面那樣，最后一個bits的地址將會在編碼指令的時候省略。總的來講，BL在thumb模式下可以訪問自身地址大于±2M大的周邊的地址。

至于其他指令:PUSH和POP，它們跟上面講到的STMFD跟LDMFD很類似，但這里不需要指定SP寄存器，ADR指令也跟上面的工作方式相同。MOVS指令將函數的返回值0寫到了R0里，最后函數返回。

2.3.3開啟代碼優化的Xcode（LLVM）編譯： ARM模式

Xcode 4.6.3不開啟代碼優化的情況下，會產生非常多冗余的代碼，所以我們學習一個盡量小的版本。

開啟-O3編譯選項

#!bash
Listing2.11：Optimizing Xcode(LLVM)+ARM mode
__text:000028C4         _hello_world
__text:000028C4 80 40 2D E9                     STMFD   SP!, {R7,LR}
__text:000028C8 86 06 01 E3                     MOV     R0, #0x1686
__text:000028CC 0D 70 A0 E1                     MOV     R7, SP
__text:000028D0 00 00 40 E3                     MOVT    R0, #0
__text:000028D4 00 00 8F E0                     ADD     R0, PC, R0
__text:000028D8 C3 05 00 EB                     BL      _puts
__text:000028DC 00 00 A0 E3                     MOV     R0, #0
__text:000028E0 80 80 BD E8                     LDMFD   SP!, {R7,PC}

__cstring:00003F62 48 65 6C 6C+aHelloWorld_0    DCB "Hello world!",0

STMFD和LDMFD對我們來說已經非常熟悉了。

MOV指令就是將0x1686寫入R0寄存器里。這個值也正是字串”Hello world！”的指針偏移。

R7寄存器里放入了棧地址，我們繼續。

MOVT R0， #0指令時將R0的高16bits寫入0。這是因為普通情況下MOV這條指令在ARM模式下，只對低16bits進行操作。需要記住的是所有在ARM模式下的指令都被限定在32bits內。當然這個限制并不影響2個寄存器直接的操作。這也是MOVT這種寫高16bits指令存在的意義。其實這樣寫的代碼會感覺有點多余，因為”MOVS R0，#0x1686”這條指令也能把高16位清0。或許這就是相對于人腦來說編譯器的不足。

“ADD R0，PC，R0“指令把R0寄存器的值與PC寄存器的值進行相加并且保存到R0寄存器里面，用來計算”Hello world!”這個字串的絕對地址。上面已經介紹過了，這是因為代碼是PIC(Position-independent code)的，所以這里需要這么做。

BL指令用來調用printf()的替代函數puts()函數。

GCC將printf（）函數替換成了puts()。因為printf()函數只有一個參數的時候跟puts()函數是類似的。

printf()函數的字串參數里存在特殊控制符（例如 ”%s”,”\n” ，需要注意的是，程序里字串里沒有“\n”，因為在puts()函數里這是不需要的）的時候，兩個函數的功效就會不同。

為什么編譯器會替換printf()到puts()那？因為puts()函數更快。

puts()函數效率更快是因為它只是做了字串的標準輸出(stdout)并不用比較%符號。

下面，我們可以看到非常熟悉的”MOV R0, #0”指令，用來將R0寄存器設為0。

2.3.4 開啟代碼優化的Xcode(LLVM)編譯thumb-2模式

在默認情況下，Xcode4.6.3會生成如下的thumb-2代碼

Listing 2.12:Optimizing Xcode(LLVM)+thumb-2 mode

#!bash
__text:00002B6C         _hello_world
__text:00002B6C 80 B5           PUSH    {R7,LR}
__text:00002B6E 41 F2 D8 30     MOVW    R0, #0x13D8
__text:00002B72 6F 46           MOV     R7, SP
__text:00002B74 C0 F2 00 00     MOVT.W  R0, #0
__text:00002B78 78 44           ADD     R0, PC
__text:00002B7A 01 F0 38 EA     BLX     _puts
__text:00002B7E 00 20           MOVS    R0, #0
__text:00002B80 80 BD           POP     {R7,PC}
...
__cstring:00003E70 48 65 6C 6C 6F 20+aHelloWorld DCB "Hello world!",0xA,0

BL和BLX指令在thumb模式下情況需要我們回憶下剛才講過的，它是由一對16-bit的指令來構成的。在thumb-2模式下這條指令跟thumb一樣被編碼成了32-bit指令。非常容易觀察到的是，thumb-2的指令的機器碼也是從0xFx或者0xEx的。對于thumb和thumb-2模式來說，在IDA的結果里機器碼的位置和這里是交替交換的。對于ARM模式來說4個byte也是反向的，這是因為他們用了不同的字節序。所以我們可以知道，MOVW，MOVT.W和BLX這幾個指令的開始都是0xFx。

在thumb-2指令里有一條是”MOVW R0, #0x13D8”,它的作用是寫數據到R0的低16位里面。

“MOVT.W R0, #0”的作用類似與前面講到的MOVT指令，但它可以工作在thumb-2模式下。

還有些跟上面不同的地方，比如BLX指令替代了上面用到的BL指令，這條指令不僅將控制puts()函數返回的地址放入了LR寄存器里，并且講代碼從thumb模式轉換到了ARM模式（或者ARM轉換到thumb（根據現有情況判斷））。這條指令跳轉到下面這樣的位置（下面的代碼是ARM編碼模式）。

#!bash
__symbolstub1:00003FEC _puts             ; CODE XREF: _hello_world+E
__symbolstub1:00003FEC 44 F0 9F E5       LDR PC, =__imp__puts

可能會有細心的讀者要問了:為什么不直接跳轉到puts()函數里面去？

因為那樣做會浪費內存空間。

很多程序都會使用額外的動態庫(dynamic libraries)(Windows里面的DLL，還有*NIX里面的.so，MAC OS X里面的.dylib),通常使用的庫函數會被放入動態庫中，當然也包括標準C函數puts()。

在可執行的二進制文件里(Windows的PE里的.exe文件，ELF和Mach-O文件)都會有輸入表段。它是一個用來引入額外模塊里模塊名稱和符號（函數或者全局變量）的列表。

系統加載器（OS loader）會加載所有需要的模塊，當在主模塊里枚舉輸入符號的時候，會把每個符號正確的地址與相應的符號確立起來。

在我們的這個例子里，__imp__puts就是一個系統加載器加載額外模塊的32位的地址值。LDR指令只需要把這個值加載到PC里面去，就可以控制程序流程到puts()函數里去。

所以只需要在系統加載器里的時候，一次性的就能將每個符號所對應的地址確定下來，這是個提高效率的好方式。

外加，我們前面也指出過，我們沒辦法只用一條指令并且不做內存操作的情況下就將一個32bit的值保存到寄存器里，ARM并不是唯一的模式的情況下，程序里去跳入動態庫中的某個函數里，最好的辦法就是這樣做一些類似與上面這樣單一指令的函數（稱做thunk function），然后從thumb模式里也能去調用。

在上面的例子（ARM編譯的那個例子）中BL指令也是跳轉到了同一個thunk function里。盡管沒有進行模式的轉變（所以指令里不存在那個”X”）。

第三章? 函數開始和結束

函數開始的指令,是像下面這樣的代碼片段:

#!bash
push    ebp
mov     ebp, esp
sub     esp, X

這些指令做了什么:將寄存器EBP的值入棧,將ESP賦值給EBP,在棧中分配空間, 用來保存局部變量。

在函數執行過程中,EBP是固定的,可以用來訪問局部變量和函數參數。也可以使用 ESP,但在函數運行過程中,ESP會變化,使用起來不方便。

#!bash
mov    esp, ebp
pop    ebp
ret    0

函數在運行結束時,會釋放在棧中所申請的內存,EBP的值出棧,將代碼控制權還原給調用者。

3.1 遞歸

函數調用開始和結束使遞歸變得難以理解。

舉個例子,有一次我寫了一個函數遍歷二叉樹右側節點。使用了看起來很高?上的遞歸函數,但由于每次函數調用開始和結束都需要花費很長時間,它運行速度比迭代方式要慢好多倍。

順便提一下,這就是尾部調用存在的原因。

第四章棧

棧在計算科學中是最重要和最基本的數據結構。

嚴格的來說,它只是在x86中被ESP,或x64中被RSP,或ARM中被SP所指向的一段程序內存區域。 ?? ?訪問棧內存,最常使用的指令是PUSH和POP(在x86和ARM Thumb模式中)。

PUSH指令在32位模式下,會將ESP/RSP/SP的值減去4(在64位系統中,會減去8),然后將操作數寫入到ESP/RSP/SP指向的內存地址。

POP是相反的操作運算:從SP指向的內存地址中獲取數據,存入操作數(一般為寄存器), 然后將SP(棧指針)加4(或8)。

4.1 為什么棧反向增長?

按正常思維來說,我們會認為像其它數據結構一樣,棧是正向增長的,比如:棧指針會指向高地址。

enter image description here

我們知道:

????? ?戶核心部分的映像文件被合理的分為三個部分,程度代碼段在內存空閑部分運行。在運行過程中,這部分是具有寫保護的,所有進程都可以共享訪問這個程序。在內存空間中,程序text區段開始的8k字節是不能共享的可寫區段,這個?大?小可以使?用系統函數來擴 ?大。在內存?高位地址是可以像硬件指針?自由活動向下增長的棧區段。 ?????

4.2 棧可以用來做什么?

4.2.1 保存函數返回地址以便在函數執行完成時返回控制權

x86

當使用CALL指令去調用一個函數時,CALL后面一條指令的地址會被保存到棧中,使用無條件跳轉指令跳轉到CALL中執行。 ? ?CALL指令等價于PUSH函數返回地址和JMP跳轉。

#!cpp
void f()
{
    f();
};

?MSVC 2008顯示的問題:

#!bash
c:\tmp6>cl ss.cpp /Fass.asm
Microsoft (R) 32-bit C/C++ Optimizing Compiler Version 15.00.21022.08 for 80x86
Copyright (C) Microsoft Corporation.  All rights reserved.
ss.cpp
c:\tmp6\ss.cpp(4) : warning C4717: ’f’ : recursive on all control paths, function will cause
    runtime stack overflow

但無論如何還是生成了正確的代碼:

#!bash
?f@@YAXXZ PROC                                          ; f
; File c:\tmp6\ss.cpp
; Line 2
        push ebp
        mov     ebp, esp
; Line 3
        call    ?f@@YAXXZ                               ; f
; Line 4
        pop ebp
        ret     0
?f@@YAXXZ ENDP                                          ; f

??如果我們設置優化(/0x)標識,生成的代碼將不會出現棧溢出,并且會運行的很好。

#!bash
?f@@YAXXZ PROC                                          ; f
; File c:\tmp6\ss.cpp
; Line 2
[email protected]:
; Line 3
        jmp     SHORT [email protected]
?f@@YAXXZ ENDP                                          ; f

GCC 4.4.1 在這兩種條件下,會生成同樣的代碼,而且不會有任何警告。

ARM

ARM程序員經常使用棧來保存返回地址,但有些不同。像是提到的“Hello,World!(2.3), RA保存在LR(鏈接寄存器)。然而,如果需要調用另外一個函數,需要多次使用LR寄存器,它的值會被保存起來。通常會在函數開始的時候保存。像我們經常看到的指令“PUSH R4-R7, LR”,在函數結尾處的指令“POP R4-R7, PC”,在函數中使?用到的寄存器會被保存到棧中,包括LR。

盡管如此,如果一個函數從未調用其它函數,在ARM專用術語中被叫稱作葉子函數。因此,葉?函數不需要LR寄存器。如果一個函數很小并使用了少量的寄存器,可能不會?到棧。因此,是可以不使用棧而實現調用葉子函數的。在擴展ARM上不使用棧,這樣就會比在x86上運行要快。在未分配棧內存或棧內存不可用的情況下,這種方式是非常有用的。

4.2.2 傳遞函數參數

在x86中,最常見的傳參方式是“cdecl”:

#!bash
push arg3
push arg2
push arg1
call f
add esp, 4*3

被調用函數通過棧指針訪問函數參數。因此,這就是為什么要在函數f()執行之前將數據放入棧中的原因。

enter image description here

來看一下其它調用約定。沒有意義也沒有必要強迫程序員一定要使用棧來傳遞參數。

這不是必需的,可以不使用棧,通過其它方式來實現。

例如,可以為參數分配一部分堆空間,存入參數,將指向這部分內存的指針存入EAX,這樣就可以了。然而,在x86和ARM中,使用棧傳遞參數還是更加方便的。

另外一個問題,被調用的函數并不知道有多少參數被傳遞進來。有些函數可以傳遞不同個數的參數(如:printf()),通過一些說明性的字符(以%開始)才可以判斷。如果我們這樣調用函數

#!cpp
printf("%d %d %d", 1234);

printf()會傳?入1234,然后另外傳入棧中的兩個隨機數字。這就讓我們使用哪種方式調用 main()函數變得不重要,像main(),main(int argc, char *argv[])或main(int argc, char *argv[], char *envp[])。

事實上,CRT函數在調?main()函數時,使用了下面的指令: ???? #!bash push envp push argv push argc call main ...

?如果你使用了沒有參數的main()函數,盡管如此,但它們仍然在棧中,只是無法使用。如果你使用了main(int argc, char *argv[]),你可以使用兩個參數,第三個參數對你的函數是“不可見的”。如果你使用main(int argc)這種方式,同樣是可以正常運?的。

4.2.3 局部變量存放

局部變量存放到任何你想存放的地方,但傳統上來說,大家更喜歡通過將棧指針移動到棧底,來存放局部變量,當然,這不是必需的。

4.2.4 x86: alloca() 函數

對alloca()函數并沒有值得學習的。

該函數的作用像malloc()一樣,但只會在棧上分配內存。

它分配的內存并不需要在函數結束時,調用像free()這樣的函數來釋放,當函數運行結束,ESP的值還原時,這部分內存會自動釋放。對alloca()函數的實現也沒有什么值得介紹的。

這個函數,如果精簡一下,就是將ESP指針指向棧底,根據你所需要的內存大小將ESP指向所分配的內存塊。讓我們試一下:

#!cpp
#include <malloc.h>
#include <stdio.h>
void f() {
    char *buf=(char*)alloca (600);
    _snprintf (buf, 600, "hi! %d, %d, %d\n", 1, 2, 3);
    puts (buf);
};

(_snprintf()函數作用與printf()函數基本相同,不同的地方是printf()會將結果輸出到的標準輸出stdout,?_snprintf()會將結果保存到內存中,后面兩?代碼可以使用printf()替換,但我想說明小內存的使用習慣。)

MSVC

讓我們來編譯 (MSVC 2010):

#!bash
...
???????        mov    eax, 600         ; 00000258H
        call   __alloca_probe_16
        mov    esi, esp

???????        push   3
        push   2
        push   1
        push   OFFSET $SG2672
        push   600              ; 00000258H
        push   esi
        call   __snprintf

???????        push   esi
        call   _puts
        add    esp, 28          ; 0000001cH
...

? ??這唯一的函數參數是通過EAX(未使用棧)傳遞。在函數調用結束時,ESP會指向 600字節的內存,我們可以像使用一般內存一樣來使用它做為緩沖區。

GCC + Intel格式

GCC 4.4.1不需要調用函數就可以實現相同的功能:

#!bash
.LC0:
           .string "hi! %d, %d, %d\n"
f:
           push    ebp
           mov     ebp, esp
           push    ebx
           sub     esp, 660
           lea     ebx, [esp+39]
           and     ebx, -16                             ; align pointer by 16-bit border
           mov     DWORD PTR [esp], ebx                 ; s
           mov     DWORD PTR [esp+20], 3
           mov     DWORD PTR [esp+16], 2
           mov     DWORD PTR [esp+12], 1
           mov     DWORD PTR [esp+8], OFFSET FLAT:.LC0  ; "hi! %d, %d, %d\n"
           mov     DWORD PTR [esp+4], 600               ; maxlen
           call    _snprintf
           mov     DWORD PTR [esp], ebx
           call    puts
           mov     ebx, DWORD PTR [ebp-4]
           leave
           ret

?####GCC + AT&T 格式

我們來看相同的代碼,但使用了AT&T格式:

#!bash
.LC0:
        .string "hi! %d, %d, %d\n"
f:
        pushl %ebp
        movl    %esp, %ebp
        pushl   %ebx
        subl    $660, %esp
        leal    39(%esp), %ebx
        andl    $-16, %ebx
        movl    %ebx, (%esp)
        movl    $3, 20(%esp)
        movl    $2, 16(%esp)
        movl    $1, 12(%esp)
        movl    $.LC0, 8(%esp)
        movl    $600, 4(%esp)
        call    _snprintf
        movl    %ebx, (%esp)
        call    puts
        movl    -4(%ebp), %ebx
        leave
        ret

?代碼與上面的那個圖是相同的。

例如:movl $3, 20(%esp)與mov DWORD PTR [esp + 20],3是等價的,Intel的內存地址增加是使用register+offset,而AT&T使用的是offset(%register)。

4.2.5 (Windows) 結構化異常處理

SEH也是存放在棧中的(如果存在的話)。想了解更多，請等待后續翻譯在(51.3)。

4.2.6 緩沖區溢出保護

想了解更多，請等待后續翻譯，在(16.2)。

4.3 典型的內存布局

在32位系統中，函數開始時，棧的布局:

enter image description here

这里只有精品视频

原文地址:http://drops.wooyun.org/tips/1517

第一章

CPU簡介

詞匯表：

第二章

Hello,world!

2.1 x86

2.1.1 MSVC-x86

2.1.2 GCC-x86

2.1.3 GCC:AT&T 語法

2.2 x86-64

2.2.1 MSVC-x86-64

2.2.2 GCC-x86-64

2.3 ARM

2.3.1 未進行代碼優化的Keil編譯：ARM模式

2.3.2未進行代碼優化的Keil編譯： thumb模式

2.3.3開啟代碼優化的Xcode（LLVM）編譯： ARM模式

2.3.4 開啟代碼優化的Xcode(LLVM)編譯thumb-2模式

第三章? 函數開始和結束

3.1 遞歸

第四章 棧

4.1 為什么棧反向增長?

4.2 棧可以用來做什么?

4.2.1 保存函數返回地址以便在函數執行完成時返回控制權

x86

ARM

4.2.2 傳遞函數參數

4.2.3 局部變量存放

4.2.4 x86: alloca() 函數

MSVC

GCC + Intel格式

4.2.5 (Windows) 結構化異常處理

4.2.6 緩沖區溢出保護

4.3 典型的內存布局

第四章棧