當(dāng)掌握越來越多的基礎(chǔ)知識(shí)之后,你所看到的代碼視角和你之前看代碼的視角會(huì)發(fā)生一個(gè)翻天覆地的變化,就像你寫代碼看到的是一行一行代碼的邏輯,而高級(jí)程序員看到的是一行一行指令或者你寫函數(shù)調(diào)用是一個(gè)正常的函數(shù)調(diào)用,其他人看到的是調(diào)用鏈背后被調(diào)用的情況,所以學(xué)東西盡量學(xué)習(xí)一些基礎(chǔ),這樣能夠帶給我們很不一樣的編程體驗(yàn),也能夠讓你了解整個(gè)程序的本質(zhì)。當(dāng)遇到瓶頸之后,更應(yīng)該多學(xué)一些基礎(chǔ)知識(shí)來豐富自己的眼界。
首先看下編譯的過程,
源代碼會(huì)經(jīng)過編譯器,首先編譯成匯編文件,匯編文件經(jīng)過匯編器變成目標(biāo)文件。在目標(biāo)文件當(dāng)中,函數(shù)調(diào)用地址是沒有被真正的鏈接起來的,鏈接的過程是需要經(jīng)過鏈接器,把目標(biāo)文件當(dāng)中相關(guān)的地址信息給鏈接起來,最后形成可執(zhí)行的文件。
c編譯舉例
這是一個(gè)簡單的add函數(shù),在main方法里面調(diào)用這個(gè)add函數(shù),然后進(jìn)行打印。
生成目標(biāo)文件
gcc -c main.c
用gcc -c的命令可以生成一個(gè)目標(biāo)文件,
看下生成的目標(biāo)文件里的地址信息
objdump -d main.o
objdump反編譯看下目標(biāo)文件存了哪些信息,
這是一個(gè).test段,程序最終在內(nèi)存上面或磁盤上面存儲(chǔ)的時(shí)候,它不是無規(guī)律的存儲(chǔ),最后被翻譯成機(jī)器碼之后,也是一段一段存儲(chǔ)的,每一段所存的內(nèi)容是不一樣的,像.test段存儲(chǔ)的就是正常的代碼段也是函數(shù)段,而聲明的全局變量會(huì)存在.data段或.bss段。
這里只需要理解,我們寫的代碼被翻譯成機(jī)器碼大概的分段邏輯就行了。
左邊是這條指令的地址0 4 5 8 .... ,就是我們寫的程序加載到內(nèi)存當(dāng)中的時(shí)候是被加載成一條一條指令,然后每一個(gè)指令都會(huì)對(duì)應(yīng)一個(gè)特定的地址,cpu在取的時(shí)候,就會(huì)取這個(gè)地址上面的信息,就可以知道這條指令地址所對(duì)應(yīng)指令的具體內(nèi)容。目標(biāo)文件的這個(gè)地址是相對(duì)地址,相對(duì)于當(dāng)前段的地址,當(dāng)前段是.test段,所以是從0開始 按順序排下來。
callq在匯編里面是調(diào)用函數(shù)的指令,這里寫的是33 ,但其實(shí)在真正目標(biāo)文件被鏈接成可執(zhí)行文件之后,33會(huì)變成add函數(shù)的絕對(duì)地址。
被鏈接成可執(zhí)行文件之后,看下整個(gè)代碼地址的變化,用gcc命令編譯了一個(gè)可執(zhí)行文件,反匯編看下,將.test段的地址列出來了,它已經(jīng)不是相對(duì)于.test段的相對(duì)地址了,而是一個(gè)絕對(duì)地址。
然后看下調(diào)用callq add函數(shù)的時(shí)候 ,1149所對(duì)應(yīng)的首地址是add函數(shù)的第一行。<>括號(hào)在真正的機(jī)器代碼中是不存在的,反匯編為了增加可讀性才顯示的。
在看了程序是怎么被編譯成可執(zhí)行文件之后,我們又知道了可執(zhí)行文件里面,每一條指令所對(duì)應(yīng)的地址代表什么意思之后,來看下是如何被加載?
這里要明白一點(diǎn),程序是在內(nèi)存里面被執(zhí)行的,被加載到內(nèi)存之后,cpu才能從內(nèi)存里面讀取并執(zhí)行,所以有一個(gè)從磁盤加載到內(nèi)存的過程,這個(gè)過程由加載器去完成的。
提到內(nèi)存的話,就要提到cpu的實(shí)模式和保護(hù)模式。
在很早之前,cpu在實(shí)模式時(shí)期,我們的程序所使用的地址都是物理地址,就是真正的在內(nèi)存芯片上所能看到的物理地址,使用物理地址之后,就會(huì)導(dǎo)致我們寫的程序被編譯成可執(zhí)行文件之后,可執(zhí)行文件是由鏈接器編譯成鏈接腳本生成的,然后在鏈接腳本里面可以指定程序的首地址,如果要指定首地址(有一個(gè)默認(rèn)的首地址),在實(shí)模式下,指定了當(dāng)前編譯程序的首地址之后,那它被加載到物理地址之后,這個(gè)首地址就只能是真正的被加載到物理地址的那個(gè)地方,如果它的首地址比如是0x10,那它被加載到的物理地址的首地址如果不是0x10 就會(huì)導(dǎo)致后面那些指令的順序出現(xiàn)問題,因?yàn)橹噶钍琼樞蚺挪嫉模蜁?huì)導(dǎo)致后面的那些指令地址和可執(zhí)行文件里面描述的這些指令地址是不吻合的。
這樣會(huì)導(dǎo)致callq函數(shù)會(huì)調(diào)用到錯(cuò)誤的地址,所以在cpu的實(shí)模式下,調(diào)用程序,程序在執(zhí)行的時(shí)候,它的首地址要固定住,這樣就會(huì)導(dǎo)致一個(gè)問題就是得考慮調(diào)得那個(gè)地址是不是可用的,調(diào)用期間內(nèi)存是不是可用的,所以會(huì)演變成后面的cpu保護(hù)模式。
cpu保護(hù)模式能夠讓程序使用的是一個(gè)虛擬地址,現(xiàn)在的64位系統(tǒng)都是使用的頁式管理,基于這個(gè)分析一下。要明白虛擬地址,首先要明白地址空間的概念,地址空間可以理解為進(jìn)程能用的一個(gè)地址范圍,比如進(jìn)程能用的內(nèi)存是512G,然后由于程序經(jīng)過編譯之后是分段的,就認(rèn)為這512G里面,0-10G是屬于.test段,10-20G是屬于.data段,20-200G屬于堆空間,其他范圍分:棧空間是哪個(gè)范圍,內(nèi)核空間又是哪個(gè)范圍,只是將這段區(qū)間劃分為了具體的內(nèi)容所在的這段范圍,但是不會(huì)實(shí)際的在內(nèi)存上去分配這些內(nèi)存,只是將范圍劃分出來,而實(shí)際保存的也是這些范圍,當(dāng)需要用到這些范圍地址的時(shí)候,cpu才會(huì)去通過MMU列表里面去尋找這個(gè)虛擬地址所對(duì)應(yīng)的物理地址,如果沒有這個(gè)映射關(guān)系,才會(huì)去真正的分配物理內(nèi)存創(chuàng)建映射關(guān)系,如果可執(zhí)行文件一開始沒有加載到內(nèi)存,那么后續(xù)地址缺失是如何找到磁盤上面的文件位置的?所以需要看下可執(zhí)行文件里面到底有哪些信息?
這里列出了可執(zhí)行文件里面段的頭部信息,在段的頭部信息里面包含了虛擬地址、文件的偏移量,文件的偏移量可以理解為磁盤信息,可以通過偏移量去定位到在磁盤上的哪個(gè)位置,所以操作系統(tǒng)是可以這樣做的:在可執(zhí)行文件里面能夠讀到段地址還有文件偏移地址,所以在進(jìn)程被加載執(zhí)行的時(shí)候,剛開始被加載的時(shí)候,是可以為這個(gè)進(jìn)程創(chuàng)建頁表項(xiàng),頁表項(xiàng)是能夠覆蓋每個(gè)段的地址還有文件偏移的地址,但是這個(gè)時(shí)候,只是標(biāo)記這個(gè)頁表項(xiàng)所映射的這個(gè)映射關(guān)系,只是標(biāo)記,并沒有真正的分配實(shí)際的物理內(nèi)存,這樣等到頁缺失的時(shí)候 ,夠找到這個(gè)頁表項(xiàng)并并且能夠從這個(gè)頁表項(xiàng)的標(biāo)記去發(fā)現(xiàn)沒有分配物理內(nèi)存,這個(gè)時(shí)候再從磁盤上去讀,再建立映射關(guān)系,這樣就能夠達(dá)到在真正使用的時(shí)候再去分配物理內(nèi)存的目的了。
審核編輯:劉清
-
cpu
+關(guān)注
關(guān)注
68文章
10902瀏覽量
213014 -
GCC
+關(guān)注
關(guān)注
0文章
108瀏覽量
24887 -
編譯器
+關(guān)注
關(guān)注
1文章
1642瀏覽量
49286 -
匯編器
+關(guān)注
關(guān)注
0文章
31瀏覽量
11272
原文標(biāo)題:程序從編譯到被執(zhí)行的流程
文章出處:【微信號(hào):IC學(xué)習(xí),微信公眾號(hào):IC學(xué)習(xí)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論