理解運轉良好的系統對于處理不可避免的故障是最好的準備。
關于開源軟件最古老的笑話是:“代碼是自具文檔化的self-documenting”。經驗表明,閱讀源代碼就像聽天氣預報一樣:明智的人依然出門會看看室外的天氣。本文講述了如何運用調試工具來觀察和分析 Linux 系統的啟動。分析一個功能正常的系統啟動過程,有助于用戶和開發人員應對不可避免的故障。
從某些方面看,啟動過程非常簡單。內核在單核上以單線程和同步狀態啟動,似乎可以理解。但內核本身是如何啟動的呢?initrd(initial ramdisk) 和引導程序bootloader具有哪些功能?還有,為什么以太網端口上的 LED 燈是常亮的呢?
請繼續閱讀尋找答案。在 GitHub 上也提供了 介紹演示和練習的代碼。
啟動的開始:OFF 狀態
局域網喚醒Wake-on-LAN
OFF 狀態表示系統沒有上電,沒錯吧?表面簡單,其實不然。例如,如果系統啟用了局域網喚醒機制(WOL),以太網指示燈將亮起。通過以下命令來檢查是否是這種情況:
# sudo ethtool
其中
# sudo ethtool -s
響應魔法數據包的處理器可能是網絡接口的一部分,也可能是 底板管理控制器Baseboard Management Controller(BMC)。
英特爾管理引擎、平臺控制器單元和 Minix
BMC 不是唯一的在系統關閉時仍在監聽的微控制器(MCU)。x86_64 系統還包含了用于遠程管理系統的英特爾管理引擎(IME)軟件套件。從服務器到筆記本電腦,各種各樣的設備都包含了這項技術,它開啟了如 KVM 遠程控制和英特爾功能許可服務等 功能。根據 Intel 自己的檢測工具,IME 存在尚未修補的漏洞。壞消息是,要禁用 IME 很難。Trammell Hudson 發起了一個 me_cleaner 項目,它可以清除一些相對惡劣的 IME 組件,比如嵌入式 Web 服務器,但也可能會影響運行它的系統。
IME 固件和系統管理模式System Management Mode(SMM)軟件是 基于 Minix 操作系統 的,并運行在單獨的平臺控制器單元Platform Controller Hub上(LCTT 譯注:即南橋芯片),而不是主 CPU 上。然后,SMM 啟動位于主處理器上的通用可擴展固件接口Universal Extensible Firmware Interface(UEFI)軟件,相關內容 已被提及多次。Google 的 Coreboot 小組已經啟動了一個雄心勃勃的 非擴展性縮減版固件Non-Extensible Reduced Firmware(NERF)項目,其目的不僅是要取代 UEFI,還要取代早期的 Linux 用戶空間組件,如 systemd。在我們等待這些新成果的同時,Linux 用戶現在就可以從 Purism、System76 或 Dell 等處購買 禁用了 IME 的筆記本電腦,另外 帶有 ARM 64 位處理器筆記本電腦 還是值得期待的。
引導程序
除了啟動那些問題不斷的間諜軟件外,早期引導固件還有什么功能呢?引導程序的作用是為新上電的處理器提供通用操作系統(如 Linux)所需的資源。在開機時,不但沒有虛擬內存,在控制器啟動之前連 DRAM 也沒有。然后,引導程序打開電源,并掃描總線和接口,以定位內核鏡像和根文件系統的位置。U-Boot 和 GRUB 等常見的引導程序支持 USB、PCI 和 NFS 等接口,以及更多的嵌入式專用設備,如 NOR 閃存和 NAND 閃存。引導程序還與可信平臺模塊Trusted Platform Module(TPM)等硬件安全設備進行交互,在啟動最開始建立信任鏈。
在構建主機上的沙盒中運行 U-boot 引導程序。
包括樹莓派、任天堂設備、汽車主板和 Chromebook 在內的系統都支持廣泛使用的開源引導程序U-Boot。它沒有系統日志,當發生問題時,甚至沒有任何控制臺輸出。為了便于調試,U-Boot 團隊提供了一個沙盒,可以在構建主機甚至是夜間的持續集成(CI)系統上測試補丁程序。如果系統上安裝了 Git 和 GNU Compiler Collection(GCC)等通用的開發工具,使用 U-Boot 沙盒會相對簡單:
# git clone git://git.denx.de/u-boot; cd u-boot
# make ARCH=sandbox defconfig
# make; ./u-boot
=> printenv
=> help
在 x86_64 上運行 U-Boot,可以測試一些棘手的功能,如 模擬存儲設備 的重新分區、基于 TPM 的密鑰操作以及 USB 設備熱插拔等。U-Boot 沙盒甚至可以在 GDB 調試器下單步執行。使用沙盒進行開發的速度比將引導程序刷新到電路板上的測試快 10 倍,并且可以使用 Ctrl + C 恢復一個“變磚”的沙盒。
啟動內核
配置引導內核
引導程序完成任務后將跳轉到已加載到主內存中的內核代碼,并開始執行,傳遞用戶指定的任何命令行選項。內核是什么樣的程序呢?用命令 file /boot/vmlinuz 可以看到它是一個 “bzImage”,意思是一個大的壓縮的鏡像。Linux 源代碼樹包含了一個可以解壓縮這個文件的工具—— extract-vmlinux:
# scripts/extract-vmlinux /boot/vmlinuz-$(uname -r) > vmlinux
# file vmlinux
vmlinux: ELF64-bit LSB executable,x86-64,version1(SYSV),statically
linked,stripped
內核是一個 可執行與可鏈接格式 Executable and Linking Format(ELF)的二進制文件,就像 Linux 的用戶空間程序一樣。這意味著我們可以使用 binutils 包中的命令,如 readelf 來檢查它。比較一下輸出,例如:
# readelf -S /bin/date
# readelf -S vmlinux
這兩個二進制文件中的段內容大致相同。
所以內核必須像其他的 Linux ELF 文件一樣啟動,但用戶空間程序是如何啟動的呢?在 main() 函數中?并不確切。
在 main() 函數運行之前,程序需要一個執行上下文,包括堆棧內存以及 stdio、stdout 和 stderr 的文件描述符。用戶空間程序從標準庫(多數 Linux 系統在用 “glibc”)中獲取這些資源。參照以下輸出:
# file /bin/date
/bin/date: ELF64-bit LSB shared object,x86-64,version1(SYSV),dynamically
linked,interpreter /lib64/ld-linux-x86-64.so.2,forGNU/Linux2.6.32,
BuildID[sha1]=14e8563676febeb06d701dbee35d225c5a8e565a,
stripped
ELF 二進制文件有一個解釋器,就像 Bash 和 Python 腳本一樣,但是解釋器不需要像腳本那樣用#!指定,因為 ELF 是 Linux 的原生格式。ELF 解釋器通過調用_start()函數來用所需資源配置一個二進制文件,這個函數可以從 glibc 源代碼包中找到,可以用 GDB 查看。內核顯然沒有解釋器,必須自我配置,這是怎么做到的呢?
用 GDB 檢查內核的啟動給出了答案。首先安裝內核的調試軟件包,內核中包含一個未剝離的unstripped vmlinux,例如apt-get install linux-image-amd64-dbg,或者從源代碼編譯和安裝你自己的內核,可以參照Debian Kernel Handbook中的指令。gdb vmlinux后加info files可顯示 ELF 段init.text。在init.text中用l *(address)列出程序執行的開頭,其中address是init.text的十六進制開頭。用 GDB 可以看到 x86_64 內核從內核文件arch/x86/kernel/head_64.S開始啟動,在這個文件中我們找到了匯編函數start_cpu0(),以及一段明確的代碼顯示在調用x86_64 start_kernel()函數之前創建了堆棧并解壓了 zImage。ARM 32 位內核也有類似的文件arch/arm/kernel/head.S。start_kernel()不針對特定的體系結構,所以這個函數駐留在內核的init/main.c中。start_kernel()可以說是 Linux 真正的main()函數。
從 start_kernel() 到 PID 1
內核的硬件清單:設備樹和 ACPI 表
在引導時,內核需要硬件信息,不僅僅是已編譯過的處理器類型。代碼中的指令通過單獨存儲的配置數據進行擴充。有兩種主要的數據存儲方法:設備樹device-tree和高級配置和電源接口(ACPI)表。內核通過讀取這些文件了解每次啟動時需要運行的硬件。
對于嵌入式設備,設備樹是已安裝硬件的清單。設備樹只是一個與內核源代碼同時編譯的文件,通常與vmlinux一樣位于/boot目錄中。要查看 ARM 設備上的設備樹的內容,只需對名稱與/boot/*.dtb匹配的文件執行binutils包中的strings命令即可,這里dtb是指設備樹二進制文件device-tree binary。顯然,只需編輯構成它的類 JSON 的文件并重新運行隨內核源代碼提供的特殊dtc編譯器即可修改設備樹。雖然設備樹是一個靜態文件,其文件路徑通常由命令行引導程序傳遞給內核,但近年來增加了一個設備樹覆蓋的功能,內核在啟動后可以動態加載熱插拔的附加設備。
x86 系列和許多企業級的 ARM64 設備使用ACPI機制。與設備樹不同的是,ACPI 信息存儲在內核在啟動時通過訪問板載 ROM 而創建的/sys/firmware/acpi/tables虛擬文件系統中。讀取 ACPI 表的簡單方法是使用acpica-tools包中的acpidump命令。例如:
聯想筆記本電腦的 ACPI 表都是為 Windows 2001 設置的。
是的,你的 Linux 系統已經準備好用于 Windows 2001 了,你要考慮安裝嗎?與設備樹不同,ACPI 具有方法和數據,而設備樹更多地是一種硬件描述語言。ACPI 方法在啟動后仍處于活動狀態。例如,運行acpi_listen命令(在apcid包中),然后打開和關閉筆記本機蓋會發現 ACPI 功能一直在運行。暫時地和動態地覆蓋 ACPI 表是可能的,而永久地改變它需要在引導時與 BIOS 菜單交互或刷新 ROM。如果你遇到那么多麻煩,也許你應該安裝 coreboot,這是開源固件的替代品。
從 start_kernel() 到用戶空間
init/main.c中的代碼竟然是可讀的,而且有趣的是,它仍然在使用 1991 – 1992 年的 Linus Torvalds 的原始版權。在一個剛啟動的系統上運行dmesg | head,其輸出主要來源于此文件。第一個 CPU 注冊到系統中,全局數據結構被初始化,并且調度程序、中斷處理程序(IRQ)、定時器和控制臺按照嚴格的順序逐一啟動。在timekeeping_init()函數運行之前,所有的時間戳都是零。內核初始化的這部分是同步的,也就是說執行只發生在一個線程中,在最后一個完成并返回之前,沒有任何函數會被執行。因此,即使在兩個系統之間,dmesg的輸出也是完全可重復的,只要它們具有相同的設備樹或 ACPI 表。Linux 的行為就像在 MCU 上運行的 RTOS(實時操作系統)一樣,如 QNX 或 VxWorks。這種情況持續存在于函數rest_init()中,該函數在終止時由start_kernel()調用。
早期的內核啟動流程。
函數rest_init()產生了一個新進程以運行kernel_init(),并調用了do_initcalls()。用戶可以通過將initcall_debug附加到內核命令行來監控initcalls,這樣每運行一次initcall函數就會產生 一個dmesg條目。initcalls會歷經七個連續的級別:early、core、postcore、arch、subsys、fs、device 和 late。initcalls最為用戶可見的部分是所有處理器外圍設備的探測和設置:總線、網絡、存儲和顯示器等等,同時加載其內核模塊。rest_init()也會在引導處理器上產生第二個線程,它首先運行cpu_idle(),然后等待調度器分配工作。
kernel_init()也可以設置對稱多處理(SMP)結構。在較新的內核中,如果dmesg的輸出中出現 “Bringing up secondary CPUs…” 等字樣,系統便使用了 SMP。SMP 通過“熱插拔” CPU 來進行,這意味著它用狀態機來管理其生命周期,這種狀態機在概念上類似于熱插拔的 U 盤一樣。內核的電源管理系統經常會使某個核core離線,然后根據需要將其喚醒,以便在不忙的機器上反復調用同一段的 CPU 熱插拔代碼。觀察電源管理系統調用 CPU 熱插拔代碼的BCC 工具稱為offcputime.py。
請注意,init/main.c中的代碼在smp_init()運行時幾乎已執行完畢:引導處理器已經完成了大部分一次性初始化操作,其它核無需重復。盡管如此,跨 CPU 的線程仍然要在每個核上生成,以管理每個核的中斷(IRQ)、工作隊列、定時器和電源事件。例如,通過ps -o psr命令可以查看服務每個 CPU 上的線程的 softirqs 和 workqueues。
# ps -o pid,psr,comm $(pgrep ksoftirqd)
PID PSR COMMAND
7 0ksoftirqd/0
16 1ksoftirqd/1
22 2ksoftirqd/2
28 3ksoftirqd/3
# ps -o pid,psr,comm $(pgrep kworker)
PIDPSR COMMAND
4 0kworker/0:0H
18 1kworker/1:0H
24 2kworker/2:0H
30 3kworker/3:0H
[...]
其中,PSR 字段代表“處理器processor”。每個核還必須擁有自己的定時器和cpuhp熱插拔處理程序。
那么用戶空間是如何啟動的呢?在最后,kernel_init()尋找可以代表它執行init進程的initrd。如果沒有找到,內核直接執行init本身。那么為什么需要initrd呢?
早期的用戶空間:誰規定要用 initrd?
除了設備樹之外,在啟動時可以提供給內核的另一個文件路徑是initrd的路徑。initrd通常位于/boot目錄中,與 x86 系統中的 bzImage 文件 vmlinuz 一樣,或是與 ARM 系統中的 uImage 和設備樹相同。用initramfs-tools-core軟件包中的lsinitramfs工具可以列出initrd的內容。發行版的initrd方案包含了最小化的/bin、/sbin和/etc目錄以及內核模塊,還有/scripts中的一些文件。所有這些看起來都很熟悉,因為initrd大致上是一個簡單的最小化 Linux 根文件系統。看似相似,其實不然,因為位于虛擬內存盤中的/bin和/sbin目錄下的所有可執行文件幾乎都是指向BusyBox 二進制文件的符號鏈接,由此導致/bin和/sbin目錄比 glibc 的小 10 倍。
如果要做的只是加載一些模塊,然后在普通的根文件系統上啟動init,為什么還要創建一個initrd呢?想想一個加密的根文件系統,解密可能依賴于加載一個位于根文件系統/lib/modules的內核模塊,當然還有initrd中的。加密模塊可能被靜態地編譯到內核中,而不是從文件加載,但有多種原因不希望這樣做。例如,用模塊靜態編譯內核可能會使其太大而不能適應存儲空間,或者靜態編譯可能會違反軟件許可條款。不出所料,存儲、網絡和人類輸入設備(HID)驅動程序也可能存在于initrd中。initrd基本上包含了任何掛載根文件系統所必需的非內核代碼。initrd也是用戶存放自定義ACPI表代碼的地方。
救援模式的 shell 和自定義的initrd還是很有意思的。
initrd對測試文件系統和數據存儲設備也很有用。將這些測試工具存放在initrd中,并從內存中運行測試,而不是從被測對象中運行。
最后,當init開始運行時,系統就啟動啦!由于第二個處理器現在在運行,機器已經成為我們所熟知和喜愛的異步、可搶占、不可預測和高性能的生物。的確,ps -o pid,psr,comm -p 1很容易顯示用戶空間的init進程已不在引導處理器上運行了。
總結
Linux 引導過程聽起來或許令人生畏,即使是簡單嵌入式設備上的軟件數量也是如此。但換個角度來看,啟動過程相當簡單,因為啟動中沒有搶占、RCU 和競爭條件等撲朔迷離的復雜功能。只關注內核和 PID 1 會忽略了引導程序和輔助處理器為運行內核執行的大量準備工作。雖然內核在 Linux 程序中是獨一無二的,但通過一些檢查 ELF 文件的工具也可以了解其結構。學習一個正常的啟動過程,可以幫助運維人員處理啟動的故障。
-
Linux
+關注
關注
87文章
11423瀏覽量
212390
原文標題:Linux 啟動過程分析
文章出處:【微信號:LinuxHub,微信公眾號:Linux愛好者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
詳解STM32啟動過程
Linux和Windows系統啟動過程的簡單分析
嵌入式Linux系統的構成和啟動過程
嵌入式uCLinux內核啟動過程分析
IC啟動過程及Vcc電壓波形的認知
詳解bootloader的執行流程與ARM Linux啟動過程分析

openwrt啟動過程詳細分析

走進Linux之systemd啟動過程
stm32啟動過程

STM32啟動過程分析

評論