電子發(fā)燒友網(wǎng)>電子資料下載>C語言|源代碼>C編譯器及其優(yōu)化

C編譯器及其優(yōu)化

2362486 2017-10-17 | rar | 0.6 MB | 次下載 | 1積分

資料介紹

本章將幫助讀者在ARM 處理器上編寫高效的C代碼。本章涉及的一些技術不僅適用于ARM處理器，也適用于其他RISC處理器。本章首先從ARM編譯器及其優(yōu)化入手，講解C編譯器在優(yōu)化代碼時所碰到的一些問題。理解這些問題，將有助于編寫出在提高執(zhí)行速度和減少代碼尺寸方面更高效的C源代碼。
　　本章假定讀者熟悉C語言，并且有一些匯編語言編程方面的知識。有關ARM編程的詳細信息，請參閱本書的相關章節(jié)。
　　14.1 C編譯器及其優(yōu)化
　　本章主要講解C編譯器在代碼優(yōu)化時遇到的一些問題。要編寫高效的C語言源代碼，必須了解C編譯器對什么形式的代碼有所改動，編譯器涉及的處理器結構的限制，以及一些特殊的C編譯器的限制。
　　14.1.1 為編譯器選擇處理器結構
　　在編譯C源文件時，必須為編譯器指定正確的處理器類型。這樣可以使編譯的代碼最大限度地利用處理器的硬件結構，如對半字加載（Halfword Load）、存儲指令（Store Instructions）和指令調(diào)度（Instruction Scheduling）的支持。所以編譯程序時，應該盡量準確地告訴編譯器該代碼是運行在什么類型的處理器上。有些處理器類型編譯器是不能直接支持，如SA-1100，這時可以使用與該類型處理器為同一指令集的基本處理器，比如對于SA-100，可以使用StrongARM。
　　注意指定目標處理器可能使代碼與其他ARM處理器不兼容。例如，編譯時指定了ARMv6體系結構的代碼，可能不能運行在ARM920T的處理器上（如果代碼中使用了ARMv6體系結構中特有的指令）。
　　選擇處理器類型可以使用--cpu name編譯選項。該選項生成用于特定ARM處理器或體系結構的代碼。
　　如果name是處理器名稱。
　　· 輸入名稱必須和ARM數(shù)據(jù)表中所示嚴格一致，例如ARM7TDMI。該選項不接受通配符字符。有效值是任何 ARM6 或更高版本的 ARM 處理器。
　　· 選擇處理器操作會選擇適當?shù)捏w系結構、浮點單元（FPU）以及存儲結構。
　　· 某些--cpu選擇暗含--fpu選擇。例如，當使用--arm選項編譯時，--cpu ARM1136JF-S暗含--fpu vfpv2。隱式FPU只覆蓋命令行上出現(xiàn)在--cpu選項前面的顯式--fpu選項。如果沒有指定--fpu選項和--cpu選項，則使用--fpu softvfp。
　　14.1.2 調(diào)試選項
　　如果在編譯C源程序時，設置了調(diào)試選項，這將很大程度地影響最終代碼的大小和執(zhí)行效率。因為帶調(diào)試信息的代碼映像，為了能夠在調(diào)試程序時正確地顯示變量或設置斷點，包含很多冗余的代碼和數(shù)據(jù)。所以如果想最大限度地提供程序執(zhí)行效率、減少代碼尺寸，就要在編譯源文件時，去除編譯器的調(diào)試選項。
　　以下選項指定調(diào)試表生成方法。
　　· -g （--debug）：該選項啟用生成當前編譯的調(diào)試表。無論是否使用-g選項，編譯器都生成的代碼是相同的。惟一差別是調(diào)試表的存在與否。編譯器是否對代碼進行優(yōu)化是由-O選項指定調(diào)的。默認情況下，使用-g選項等價于使用：-g -dwarf2 --debug_macros。
　　注意編譯程序時，只使用-g選項而沒有使用優(yōu)化選項，編譯器會提示警告信息。
　　· --no_debug：該選項禁止生成當前編譯的調(diào)試表。這是默認選項。
　　· --no_debug_macros：當與-g一起使用時，該選項禁止生成預處理程序宏定義的調(diào)試表條目（Entry）。這會減小調(diào)試映像的大小。-gt-p是-gtp的同義字。
　　--debug_macros 當與 -g 一起使用時，該選項啟用生成預處理程序宏定義的調(diào)試表條目。這是默認選項，會增加調(diào)試映像的大小。一些調(diào)試程序忽略預處理程序條目。
　　14.1.3 優(yōu)化選項
　　使用-Onum選擇編譯器的優(yōu)化級別。優(yōu)化級別分別為。
　　· -O0：除一些簡單的代碼編號之外，關閉所有優(yōu)化。使用該編譯選項可以提供最直接的優(yōu)化信息。
　　· -O1：關閉嚴重影響調(diào)試效果的優(yōu)化功能。使用該編譯選項，編譯器會移除程序中未使用到的內(nèi)聯(lián)函數(shù)和靜態(tài)函數(shù)。如果與 --debug 一起使用，該選項可以在較好的代碼密度下，給出最佳調(diào)試視圖。
　　· -O2：生成充分優(yōu)化代碼。如果與 --debug 一起使用，調(diào)試效果可能不令人滿意，因為目標代碼到源代碼的映射可能因為代碼優(yōu)化而發(fā)生變化。
　　如果不生成調(diào)試表，這是默認優(yōu)化級別。
　　· -O3：最高優(yōu)化級別。使用該優(yōu)化級別，使生成的代碼在時間和空間上尋求平衡。該選項常和-Ospace和-Otime配合使用。
　　· -O3 –Otime：使用該選項編譯的代碼比-O2 –Otime選項編譯的代碼，在執(zhí)行速度上要快，但占用的空間也更大。
　　· -O3 -Ospace：產(chǎn)生的代碼比使用-O2 -Ospace選項產(chǎn)生的代碼尺寸小，但執(zhí)行效率可能會差。
　　如果要使編譯的代碼更側重于代碼的尺寸或執(zhí)行效率（兩者往往不可兼得），可以使用下面的編譯選項。
　　· -Ospace：指示編譯程序執(zhí)行優(yōu)化，以延長執(zhí)行時間為代價減小映像大小。例如，由外部函數(shù)調(diào)用代替內(nèi)聯(lián)函數(shù)。如果代碼大小比性能更重要，則使用該選項。這是編譯器的默認設置。
　　· -Otime：指示編譯程序執(zhí)行優(yōu)化，以增大映像大小為代價縮短執(zhí)行時間。如果執(zhí)行時間比代碼大小更重要，則使用該選項。例如，它編譯：
　　while （expression） body;
　　為：
　　if （expression） {
　　do body;
　　while （expression）;
　　}
　　如果既不指定-Otime也不指定-Ospace，則編譯器默認使用-Ospace。可使用-Otime編譯代碼中對時間要求嚴格的部分，使用-Ospace編譯其余部分。但不能在同一編譯程序調(diào)用中同時指定-Otime和-Ospace。
　　14.1.4 AAPCS選項
　　ARM結構過程調(diào)用標準AAPCS（Procedure Call Standard for the ARM Architecture）是ARM體系結構二進制接口ABI（Application Binary Interface for the ARM Architecture【BSABI】）標準的一部分。使用該標準可以很方便的執(zhí)行C和匯編語言的相互調(diào)用。
　　編譯程序時，使用--apcs選項可以指定所使用得AAPCS標準的版本。如果沒有指定--apcs或--cpu選項，則編譯器使用下面默認編譯選項。
　　--apcs /noswst/nointer/noropi/norwpi --cpu ARM7TDMI --fpu softvfp
　　有關AAPCS的詳細信息，請參加ARM相關文檔。
　　14.1.5 編譯選項對代碼生成影響示例
　　本節(jié)舉例說明編譯器的優(yōu)化選項如何影響代碼生成。
　　1．使用-O0選項
　　下面的例子顯示了即使使用-O0編譯選項對代碼進行編譯時，有些冗余代碼還是會被編譯器自動清除。
　　int f（int *p）
　　{
　　return （*p = = *p）;
　　}
　　使用armcc -c -O0對源程序進行編譯，生成的匯編代碼如下所示。
　　f
　　MOV r1， r0
　　MOV r0， #1
　　MOV pc， lr
　　通過上面的例子可以看到，編譯出的最終代碼中沒有加載（Load）指針P的值，變量*p被編譯器優(yōu)化掉了。如果不想讓編譯器對變量*p做優(yōu)化，可以使用“volatile”對變量進行聲明。下面的例子，顯示了將變量聲明為“volatile”類型后，使用armcc編譯（-O2的優(yōu)化級別）后的結果。
　　f
　　LDR r1，［r0］
　　LDR r0，［r0］
　　CMP r1，r0
　　MOVNE r0，#0
　　MOVEQ r0，#1
　　MOV pc，lr
　　另外，編譯的代碼中的“MOV r1， r0”并沒有實際意義，只是為了方便調(diào)試程序時設置斷點使用。
　　2．冗余代碼的清除
　　下面例子顯示了一段急待優(yōu)化的代碼。
　　int dummy（）
　　{
　　int a=10， b=20;
　　int c;
　　c=a+b;
　　return 0;
　　}
　　當使用arm –c –O0進行編譯時，產(chǎn)生的匯編碼如下所示。
　　dummy：
　　0000807C E3A0100A MOV r1，#0xa
　　》》》 REDUNDANT\#3 int a=10，b=20;
　　00008080 E3A02014 MOV r2，#0x14
　　》》》 REDUNDANT\#5 c=a+b;
　　00008084 E0813002 ADD r3，r1，r2
　　》》》 REDUNDANT\#6 return 0;
　　00008088 E3A00000 MOV r0，#0
　　》》》 REDUNDANT\#7 }
　　0000808C E12FFF1E BX r14
　　從上面的匯編輸出可以看到，編譯器并沒有對程序中的冗余變量做任何工作。但上面這段代碼在編譯時，編譯器會給出警告，警告信息如下所示。
　　Warning ： #550-D： variable “c” was set but never used
　　Redundant.c line 4 int c;
　　但如果將編譯器的優(yōu)化級別提高，如使用arm –c –O1命令，則編譯器輸出的匯編代碼如下所示。
　　dummy：
　　0000807C E3A00000 MOV r0，#0
　　》》》 REDUNDANT\#7 }
　　00008080 E12FFF1E BX r14
　　從上面的例子看出，當優(yōu)化級別提高到-O1時，程序中的冗余變量就會被清除。
　　3．指令重排
　　當指定編譯器對程序代碼進行優(yōu)化時，編譯器會對程序中排列不合理的匯編指令序列進行重排（只有在-O1及其以上的優(yōu)化級別中才有），重排的目的是為了減少指令互鎖（interload）。所謂互鎖就是指如果一條指令需要前一條指令的執(zhí)行結果，而這時結果還沒有出來，那么處理器就會等待。這被稱為流水線冒險（pipeline hazard），也被稱為流水線互鎖。
　　下面例子顯示了對同一程序使用代碼重排和不使用代碼重排所產(chǎn)生的匯編碼的區(qū)別。÷
　　程序的源代碼如下所示。
　　int f（int *p， int x）
　　{ return *p + x * 3; }
　　使用-O0選項對代碼進行編譯（無代碼重排），產(chǎn)生的結果如下所示。
　　ADD r1，r1，r1，LSL #1
　　LDR r0，［r0，#0］
　　ADD r0，r0，r1 ; ARM9上產(chǎn)生互鎖
　　MOV pc，lr
　　使用-O1選項對代碼進行編譯（存在代碼重排），產(chǎn)生的結果如下所示。
　　ADD r1，r1，r1，LSL #1
　　ADD r0，r0，r1
　　MOV pc，lr
　　指令重排發(fā)生在寄存器定位和代碼產(chǎn)生階段。代碼重排只對ARM9及其以后的處理器版本產(chǎn)生作用。當使用代碼重排時，代碼的執(zhí)行速度平均提供4％。可以使用-zpno_optimize_
　　scheduling編譯選項關閉代碼重排。
　　4．內(nèi)嵌函數(shù)
　　通常情況下，如果不指定編譯選項，編譯器會將一些代碼量小且調(diào)用次數(shù)少的函數(shù)內(nèi)嵌進調(diào)用函數(shù)中。如果某段子程序在其他模塊中沒有被調(diào)用，請使用Static關鍵字將其標識。
　　編譯選項的--autoinline和--no_autoinline可以作為內(nèi)嵌函數(shù)的使能開關。--no_autoinline選項為-O0和-O1選項的默認選項，但如果指定-O2或-O3的優(yōu)化選項，編譯器將默認使用--autoinline選項。
　　有關內(nèi)嵌函數(shù)的詳細信息，請參見本書內(nèi)嵌函數(shù)一節(jié)。
　　下面的例子顯示了同一段程序，使用內(nèi)嵌功能和不使用內(nèi)嵌功能編譯出的不同結果。
　　要編譯的源文件如下。
　　int bar（int a）
　　{
　　a=a+5;
　　return a;
　　}
　　int foo（int i）
　　{
　　i=bar（i）;
　　i=i-2;
　　i=bar（i）;
　　i++;
　　return i;
　　}
　　下面的匯編程序為不使用內(nèi)嵌功能時編譯出的結果。
　　bar
　　ADD r0，r0，#5
　　MOV pc，lr
　　foo
　　STR lr，［sp，#-4］！
　　BL bar
　　SUB r0，r0，#2
　　BL bar
　　ADD r0，r0，#1
　　LDR pc，［sp］，#4
　　下面的匯編碼是使用內(nèi)嵌功能時編譯出的結果。
　　foo
　　ADD r0，r0，#5
　　SUB r0，r0，#2
　　ADD r0，r0，#5
　　ADD r0，r0，#1
　　MOV pc，lr
　　從上面的例子可以看出在使用內(nèi)嵌功能時，函數(shù)間的相互調(diào)用減少了數(shù)據(jù)的壓棧和出棧，節(jié)省了程序的執(zhí)行時間，但如果內(nèi)嵌函數(shù)被調(diào)用多次會造成空間的浪費。
?