Linux I/O 接口
Linux I/O 接口可以分為以下幾種類型:
文件 I/O 接口:用于對文件進行讀寫操作的接口,包括 open()、read()、write()、close()、lseek() 等。
網絡 I/O 接口:用于網絡通信的接口,包括 socket()、connect()、bind()、listen()、accept() 等。
設備 I/O 接口:用于對設備(e.g. 字符設備、塊設備)進行讀寫操作的接口,包括 ioctl()、mmap()、select()、poll()、epoll() 等。
其他 I/O 接口:如管道接口、共享內存接口、信號量接口等。
Linux I/O 處理流程
下面以最常用的 read() 和 write() 函數來介紹 Linux 的 I/O 處理流程。
read() 和 write()
read() 和 write() 函數,是最基本的文件 I/O 接口,也可用于在 TCP Socket 中進行數據讀寫,屬于阻塞式 I/O(Blocking I/O),即:如果沒有可讀數據或者對端的接收緩沖區已滿,則函數將一直等待直到有數據可讀或者對端緩沖區可寫。
函數原型:
fd 參數:指示 fd 文件描述符。
buf 參數:指示 read/write 緩沖區的入口地址。
count 參數:指示 read/write 數據的大小,單位為 Byte。
函數返回值:
- 返回實際 read/write 的字節數。
- 返回 0,表示已到達文件末尾。
- 返回 -1,表示操作失敗,可以通過 errno 全局變量來獲取具體的錯誤碼。
ssize_t read(int fd, void *buf, size_t count);
ssize_t write(int fd, const void *buf, size_t count);
處理流程
下面以同時涉及了 Storage I/O 和 Network I/O 的一次網絡文件下載操作來展開 read() 和 write() 的處理流程。
read() 的處理流程:
- Application 調用 read(),CPU 模式從用戶態切換到內核態。
- Kernel 根據 file fd 查表(進程文件符表),找到對應的 file 結構體(普通文件),從而找到此文件的 inode 編號。
- Kernel 將 buf 和 count 參數、以及文件指針位置等信息傳遞給 Device Driver(磁盤驅動程序)。
- Driver 將請求的數據從 Disk Device 中 DMA Copy 到 Kernel PageCache Buffer 中。
- Kernel 將數據從 Kernel PageCache Buffer 中 CPU Copy 到 Userspace Buffer 中(Application 不能直接訪問 Kernel space)。
- read() 最終返回讀取的字節數或錯誤代碼給 Application,CPU 模式從內核態切換到用戶態。
write() 的處理流程:
- Application 調用 write(),CPU 模式從用戶態切換到內核態。
- Kernel 根據 socket fd 查表,找到對應的 file 結構體(套接字文件),從而找到該 Socket 的 sock 結構體。
- Kernel 將 buf 和 count 參數、以及文件指針位置等信息傳遞給 Device Driver(網卡驅動程序)。
- Driver 將請求的數據從 Userspace Buffer 中 CPU Copy 到 Kernel Socket Buffer 中。
- Kernel 將數據從 Kernel Socket Buffer 中 DMA Copy 到 NIC Device。
- write() 最終返回寫入的字節數或錯誤代碼給 Application,CPU 模式從內核態切換到用戶態。
可見,在一次常規的 I/O(read/write)操作流程中 處理流程中,總共需要涉及到:
- 4 次 CPU 模式切換:當 Application 調用 SCI 時,CPU 從用戶態切換到內核態;當 SCI 返回時,CPU 從內核態切換回用戶態。
- 2 次 CPU Copy:CPU 執行進程數據拷貝指令,將數據從 User Process 虛擬地址空間 Copy 到 Kernel 虛擬地址空間。
- 2 次 DMA Copy:CPU 向 DMA 控制器下達設備數據拷貝指令,將數據從 DMA 物理內存空間 Copy 到 Kernel 虛擬地址空間。
I/O 性能優化機制
I/O buff/cache
Linux Kernel 為了提高 I/O 性能,劃分了一部分物理內存空間作為 I/O buff/cache,也就是內核緩沖區。當 Kernel 接收到 read() / write() 等讀寫請求時,首先會到 buff/cache 查找,如果找到,則立即返回。如果沒有則通過驅動程序訪問 I/O 外設。
查看 Linux 的 buff/cache:
total used free shared buff/cache available
Mem: 7.6G 4.2G 2.9G 10M 547M 3.1G
Swap: 4.0G 0B 4.0G
實際上,Cache(緩存)和 Buffer(緩沖)從嚴格意義上講是 2 個不同的概念,Cache 側重加速 “讀”,而 Buffer 側重緩沖 “寫”。但在很多場景中,由于讀寫總是成對存在的,所以并沒有嚴格區分兩者,而是使用 buff/cache 來統一描述。
Page Cache
Page Cache(頁緩存)是最常用的 I/O Cache 技術,以頁為單位的,內容就是磁盤上的物理塊,用于減少 Application 對 Storage 的 I/O 操作,能夠令 Application 對文件進行順序讀寫的速度接近于對內存的讀寫速度。
頁緩存讀策略:當 Application 發起一個 Read() 操作,Kernel 首先會檢查需要的數據是否在 Page Cache 中:
- 如果在,則直接從 Page Cache 中讀取。
- 如果不在,則按照原 I/O 路徑從磁盤中讀取。同時,還會根據局部性原理,進行文件預讀,即:將已讀數據隨后的少數幾個頁面(通常是三個)一同緩存到 Page Cache 中。
頁緩存寫策略:當 Application 發起一個 write() 操作,Kernel 首先會將數據寫到 Page Cache,然后方法返回,即:Write back(寫回)機制,區別于 Write Through(寫穿)。此時數據還沒有真正的寫入到文件中去,Kernel 僅僅將已寫入到 Page Cache 的這一個頁面標記為 “臟頁(Dirty Page)”,并加入到臟頁鏈表中。然后,由 flusher(pdflush,Page Dirty Flush)kernel thread(回寫內核線程)周期性地將臟頁鏈表中的頁寫到磁盤,并清理 “臟頁” 標識。在以下 3 種情況下,臟頁會被寫回磁盤:
- 當空閑內存低于一個特定的閾值時,內核必須將臟頁寫回磁盤,以便釋放內存。
- 當臟頁在內存中駐留時間超過一個特定的閾值時,內核必須將超時的臟頁寫回磁盤。
- 當 Application 主動調用 sync、fsync、fdatasync 等 SCI 時,內核會執行相應的寫回操作。
flusher 刷新策略由以下幾個內核參數決定(數值單位均為 1/100 秒):
$ sysctl vm.dirty_writeback_centisecs
vm.dirty_writeback_centisecs = 500
# 內存中駐留 30 秒以上的臟數據將由 flush 在下一次執行時寫入磁盤
$ sysctl vm.dirty_expire_centisecs
vm.dirty_expire_centisecs = 3000
# 若臟頁占總物理內存 10% 以上,則觸發 flush 把臟數據寫回磁盤
$ sysctl vm.dirty_background_ratio
vm.dirty_background_ratio = 10
綜上可見,Page Cache 技術在理想的情況下,可以在一次 Storage I/O 的流程中,減少 2 次 DMA Copy 操作(不直接訪問磁盤)。
Buffered I/O
下圖展示了一個 C 程序通過 stdio 庫中的 printf() 或 fputc() 等輸出函數來執行數據寫入的操作處理流程。過程中涉及到了多處 I/O Buffer 的實現:
- stdio buffer:在 Userspace 實現的 Buffer,因為 SCI 的成本昂貴,所以,Userspace Buffer 用于 “積累“ 到更多的待寫入數據,然后再通過一次 SCI 來完成真正的寫入。另外,stdio 也支持 fflush() 強制刷新函數。
- Kernel buffer cache:處理包括上文以及提到的 Page Cache 技術之外,磁盤設備驅動程序也提供塊級別的 Buffer 技術,用于 “積累“ 更多的文件系統元數據和磁盤塊數據,然后在合適的時機完成真正的寫入。
零拷貝技術(Zero-Copy)
零拷貝技術(Zero-Copy),是通過盡量避免在 I/O 處理流程中使用 CPU Copy 和 DMA Copy 的技術。實際上,零拷貝并非真正做到了沒有任何拷貝動作,它更多是一種優化的思想。
下列表格從 CPU Copy 次數、DMA Copy 次數以及 SCI 次數這 3 個方面來對比了幾種常見的零拷貝技術??梢钥匆姡? 次 DMA Copy 是不可避免的,因為 DMA 是外設 I/O 的基本行為。零拷貝技術主要從減少 CPU Copy 和 CPU 模式切換這 2 個方面展開。
1、Userspace Direct I/O
Userspace Direct I/O(用戶態直接 I/O)技術的底層原理由 Kernel space 中的 ZONE_DMA 支持。ZONE_DMA 是一塊 Kernel 和 User Process 都可以直接訪問的 I/O 外設 DMA 物理內存空間?;诖?, Application 可以直接讀寫 I/O 外設,而 Kernel 只會輔助執行必要的虛擬存儲配置工作,不直接參與數據傳輸。因此,該技術可以減少 2 次 CPU Copy。
Userspace Direct I/O 的缺點:
- 由于旁路了 要求 Kernel buffer cache 優化,就需要 Application 自身實現 Buffer Cache 機制,稱為自緩存應用程序,例如:數據庫管理系統。
- 由于 Application 直接訪問 I/O 外設,會導致 CPU 阻塞,浪費 CPU 資源,這個問題需要結合異步 I/O 技術來規避。
具體流程看下圖:Using Direct I/O with DMA
2、mmap() + write()
mmap() SCI 用于將 I/O 外設(e.g. 磁盤)中的一個文件、或一段內存空間(e.g. Kernel Buffer Cache)直接映射到 User Process 虛擬地址空間中的 Memory Mapping Segment,然后 User Process 就可以通過指針的方式來直接訪問這一段內存,而不必再調用傳統的 read() / write() SCI。
申請空間函數原型:
- addr 參數:分配 MMS 映射區的入口地址,由 Kernel 指定,調用時傳入 NULL。
- length 參數:指示 MMS 映射區的大小。
- prot 參數:指示 MMS 映射區的權限,可選:PROT_READ、PROT_WRITE、PROT_READ|PROT_WRITE 類型。
- flags 參數:標志位參數,可選:
- MAP_SHARED:映射區所做的修改會反映到物理設備(磁盤)上。
- MAP_PRIVATE:映射區所做的修改不會反映到物理設備上。
- fd 參數:指示 MMS 映射區的文件描述符。
- offset 參數:指示映射文件的偏移量,為 4k 的整數倍,可以映射整個文件,也可以只映射一部分內容。
- 函數返回值:
- 成功:更新 addr 入口地址。
- 失?。焊?MAP_FAILED 宏。
釋放空間函數原型:
- addr 參數:分配 MMS 映射區的入口地址,由 Kernel 指定,調用時傳入 NULL。
- length 參數:指示 MMS 映射區的大小。
- 函數返回值:
- 成功:返回 0。
- 失?。悍祷?-1。
可見,mmap() 是一種高效的 I/O 方式。通過 mmap() 和 write() 結合的方式,可以實現一定程度的零拷貝優化。
buf = mmap(diskfd, len);
// 寫
write(sockfd, buf, len);
mmap() + write() 的 I/O 處理流程如下。
mmap() 映射:
- Application 發起 mmap() 調用,進行文件操作,CPU 模式從用戶態切換到內核態。
- mmap() 將指定的 Kernel Buffer Cache 空間映射到 Application 虛擬地址空間。
- mmap() 返回,CPU 模式從內核態切換到用戶態。
- 在 Application 后續的文件訪問中,如果出現 Page Cache Miss,則觸發缺頁異常,并執行 Page Cache 機制。通過已經建立好的映射關系,只使用一次 DMA Copy 就將文件數據從磁盤拷貝到 Application User Buffer 中。
write() 寫入:
- Application 發起 write() 調用,CPU 模式從用戶態切換到內核態。
- 由于此時 Application User Buffer 和 Kernel Buffer Cache 的數據是一致的,所以直接從 Kernel Buffer Cache 中 CPU Copy 到 Kernel Socket Buffer,并最終從 NIC 發出。
- write() 返回,CPU 模式從內核態切換到用戶態。
可見,mmap() + write() 的 I/O 處理流程減少了一次 CPU Copy,但沒有減少 CPU 模式切換的次數。另外,由于 mmap() 的進程間共享特性,非常適用于共享大文件的 I/O 場景。
mmap() + write() 的缺點:當 mmap 映射一個文件時,如果這個文件被另一個進程所截獲,那么 write 系統調用會因為訪問非法地址被 SIGBUS 信號終止,SIGBUS 默認會殺死進程并產生一個 coredump。解決這個問題通常需要使用文件租借鎖實現。在 mmap 之前加鎖,操作完之后解鎖。即:首先為文件申請一個租借鎖,當其他進程想要截斷這個文件時,內核會發送一個實時的 RT_SIGNAL_LEASE 信號,告訴當前進程有進程在試圖破壞文件,這樣 write 在被 SIGBUS 殺死之前,會被中斷,返回已經寫入的字節數,并設置 errno 為 success。
3、sendfile()
Linux Kernel 從 v2.1 開始引入了 sendfile(),用于在 Kernel space 中將一個 in_fd 的內容復制到另一個 out_fd 中,數據無需經過 Userspace,所以應用在 I/O 流程中,可以減少一次 CPU Copy。同時,sendfile() 比 mmap() 方式更具安全性。
函數原型:
- out_fd 參數:目標文件描述符,數據輸入文件。
- in_fd 參數:源文件描述符,數據輸出文件。該文件必須是可以 mmap 的。
- offset 參數:指定從源文件的哪個位置開始讀取數據,若不需要指定,傳遞一個 NULL。
- count 參數:指定要發送的數據字節數。
- 函數返回值:
- 成功:返回復制的字節數。
- 失敗:返回 -1,并設置 errno 全局變量來指示錯誤類型。
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
sendfile() 處理流程:
- Application 調用 sendfile(),CPU 從用戶態切換到內核態。
- Kernel 將數據通過 DMA Copy 從磁盤設備寫入 Kernel Buffer Cache。
- Kernel 將數據從 Kernel Buffer Cache 中 CPU Copy 到 Kernel Socket Buffer。
- Kernel 將數據從 Kernel Socket Buffer 中 DMA Copy 到 I/O 網卡設備。
- sendfile() 返回,CPU 從內核態切換到用戶態。
4、sendfile() + DMA Gather Copy
上文知道 sendfile() 還具有一次 CPU Copy,通過結合 DMA Gather Copy 技術,可以進一步優化它。
DMA Gather Copy 技術,底層有 I/O 外設的 DMA Controller 提供的 Gather 功能支撐,所以又稱為 “DMA 硬件輔助的 sendfile()“。借助硬件設備的幫助,在數據從 Kernel Buffer Cache 到 Kernel Socket Buffer 之間,并不會真正的數據拷貝,而是僅拷貝了緩沖區描述符(fd + size)。待完成后,DMA Controller,可以根據這些緩沖區描述符找到依舊存儲在 Kernel Buffer Cache 中的數據,并進行 DMA Copy。
顯然,DMA Gather Copy 技術依舊是 ZONE_DMA 物理內存空間共享性的一個應用場景。
sendfile() + DMA Gather Copy 的處理流程:
- Application 調用 sendfile(),CPU 從用戶態切換到內核態模式。
- Kernel 將數據通過 DMA Copy 從磁盤設備寫入 Kernel Buffer Cache。
- Kernel 將數據的緩沖區描述符從 Kernel Buffer Cache 中 CPU Copy 到 Kernel Socket Buffer(幾乎不費資源)。
- 基于緩沖區描述符,CPU 利用 DMA Controller 的 Gather / Scatter 操作直接批量地將數據從 Kernel Buffer Cache 中 DMA Copy 到網卡設備。
- sendfile() 返回,CPU 從內核態切換到用戶態。
5、splice()
splice() 與 sendfile() 的處理流程類似,但數據傳輸方式有本質不同。
- sendfile() 的傳輸方式是 CPU Copy,且具有數據大小限制;
- splice() 的傳輸方式是 Pipeline,打破了數據范圍的限制。但也要求 2 個 fd 中至少有一個必須是管道設備類型。
函數原型:
- fd_in 參數:源文件描述符,數據輸出文件。
- off_in 參數:輸出偏移量指針,表示從源文件描述符的哪個位置開始讀取數據。
- fd_out 參數:目標文件描述符,數據輸入文件。
- off_out 參數:輸入偏移量指針,表示從目標文件描述符的哪個位置開始寫入數據。
- len 參數:指示要傳輸的數據長度。
- flags:控制數據傳輸的行為的標志位。
#include
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);
splice() 的處理流程如下:
- Application 調用 splice(),CPU 從用戶態切換到內核態。
- Kernel 將數據通過 DMA Copy 從磁盤設備寫入 Kernel Buffer Cache。
- Kernel 在 Kernel Buffer Cache 和 Kernel Socket Buffer 之間建立 Pipeline 傳輸。
- Kernel 將數據從 Kernel Socket Buffer 中 DMA Copy 到 I/O 網卡設備。
- splice() 返回,CPU 從內核態切換到用戶態。
6、緩沖區共享技術
緩沖區共享技術,是對 Linux I/O 的一種顛覆,所以往往需要由 Application 和設備來共同實現。
其核心思想是:每個 Applications 都維護著一個 Buffer Pool,并且這個 Buffer Pool 可以同時映射到 Kernel 虛擬地址空間,這樣 Userspace 和 Kernel space 就擁有了一塊共享的空間。以此來規避掉 CPU Copy 的行為。
-
接口
+關注
關注
33文章
8980瀏覽量
153557 -
Linux
+關注
關注
87文章
11506瀏覽量
213409 -
內存
+關注
關注
8文章
3118瀏覽量
75165 -
網絡通信
+關注
關注
4文章
825瀏覽量
30874
發布評論請先 登錄
PLC I/O接口的作用及選擇
Linux系統中網絡I/O性能改進方法的研究
Linux 系統應用編程之標準I/O詳解
基于FPGA I/O接口的五大優勢與FPGA深層分析

學會處理Linux內核訪問外設I/O資源的方式
Linux中如何使用信號驅動式I/O?

深入理解Linux傳統的System Call I/O

評論