盗墓笔记txt全集下载,小说排行榜完结版,《完美世界》txt全集

Linux I/O 接口

Linux I/O 接口可以分為以下幾種類型：

文件 I/O 接口：用于對文件進行讀寫操作的接口，包括 open()、read()、write()、close()、lseek() 等。

網絡 I/O 接口：用于網絡通信的接口，包括 socket()、connect()、bind()、listen()、accept() 等。

設備 I/O 接口：用于對設備（e.g. 字符設備、塊設備）進行讀寫操作的接口，包括 ioctl()、mmap()、select()、poll()、epoll() 等。

其他 I/O 接口：如管道接口、共享內存接口、信號量接口等。

Linux I/O 處理流程

下面以最常用的 read() 和 write() 函數來介紹 Linux 的 I/O 處理流程。

read() 和 write()

read() 和 write() 函數，是最基本的文件 I/O 接口，也可用于在 TCP Socket 中進行數據讀寫，屬于阻塞式 I/O（Blocking I/O），即：如果沒有可讀數據或者對端的接收緩沖區已滿，則函數將一直等待直到有數據可讀或者對端緩沖區可寫。

函數原型：

fd 參數：指示 fd 文件描述符。

buf 參數：指示 read/write 緩沖區的入口地址。

count 參數：指示 read/write 數據的大小，單位為 Byte。

函數返回值：

返回實際 read/write 的字節數。
返回 0，表示已到達文件末尾。
返回 -1，表示操作失敗，可以通過 errno 全局變量來獲取具體的錯誤碼。

#include

ssize_t read(int fd, void *buf, size_t count);
ssize_t write(int fd, const void *buf, size_t count);

處理流程

下面以同時涉及了 Storage I/O 和 Network I/O 的一次網絡文件下載操作來展開 read() 和 write() 的處理流程。

read() 的處理流程：

Application 調用 read()，CPU 模式從用戶態切換到內核態。
Kernel 根據 file fd 查表（進程文件符表），找到對應的 file 結構體（普通文件），從而找到此文件的 inode 編號。
Kernel 將 buf 和 count 參數、以及文件指針位置等信息傳遞給 Device Driver（磁盤驅動程序）。
Driver 將請求的數據從 Disk Device 中 DMA Copy 到 Kernel PageCache Buffer 中。
Kernel 將數據從 Kernel PageCache Buffer 中 CPU Copy 到 Userspace Buffer 中（Application 不能直接訪問 Kernel space）。
read() 最終返回讀取的字節數或錯誤代碼給 Application，CPU 模式從內核態切換到用戶態。

write() 的處理流程：

Application 調用 write()，CPU 模式從用戶態切換到內核態。
Kernel 根據 socket fd 查表，找到對應的 file 結構體（套接字文件），從而找到該 Socket 的 sock 結構體。
Kernel 將 buf 和 count 參數、以及文件指針位置等信息傳遞給 Device Driver（網卡驅動程序）。
Driver 將請求的數據從 Userspace Buffer 中 CPU Copy 到 Kernel Socket Buffer 中。
Kernel 將數據從 Kernel Socket Buffer 中 DMA Copy 到 NIC Device。
write() 最終返回寫入的字節數或錯誤代碼給 Application，CPU 模式從內核態切換到用戶態。

可見，在一次常規的 I/O（read/write）操作流程中處理流程中，總共需要涉及到：

4 次 CPU 模式切換：當 Application 調用 SCI 時，CPU 從用戶態切換到內核態；當 SCI 返回時，CPU 從內核態切換回用戶態。
2 次 CPU Copy：CPU 執行進程數據拷貝指令，將數據從 User Process 虛擬地址空間 Copy 到 Kernel 虛擬地址空間。
2 次 DMA Copy：CPU 向 DMA 控制器下達設備數據拷貝指令，將數據從 DMA 物理內存空間 Copy 到 Kernel 虛擬地址空間。

I/O 性能優化機制

I/O buff/cache

Linux Kernel 為了提高 I/O 性能，劃分了一部分物理內存空間作為 I/O buff/cache，也就是內核緩沖區。當 Kernel 接收到 read() / write() 等讀寫請求時，首先會到 buff/cache 查找，如果找到，則立即返回。如果沒有則通過驅動程序訪問 I/O 外設。

查看 Linux 的 buff/cache：

$ free -mh
total used free shared buff/cache available
Mem: 7.6G 4.2G 2.9G 10M 547M 3.1G
Swap: 4.0G 0B 4.0G

實際上，Cache（緩存）和 Buffer（緩沖）從嚴格意義上講是 2 個不同的概念，Cache 側重加速 “讀”，而 Buffer 側重緩沖 “寫”。但在很多場景中，由于讀寫總是成對存在的，所以并沒有嚴格區分兩者，而是使用 buff/cache 來統一描述。

Page Cache

Page Cache（頁緩存）是最常用的 I/O Cache 技術，以頁為單位的，內容就是磁盤上的物理塊，用于減少 Application 對 Storage 的 I/O 操作，能夠令 Application 對文件進行順序讀寫的速度接近于對內存的讀寫速度。

頁緩存讀策略：當 Application 發起一個 Read() 操作，Kernel 首先會檢查需要的數據是否在 Page Cache 中：

如果在，則直接從 Page Cache 中讀取。
如果不在，則按照原 I/O 路徑從磁盤中讀取。同時，還會根據局部性原理，進行文件預讀，即：將已讀數據隨后的少數幾個頁面（通常是三個）一同緩存到 Page Cache 中。

頁緩存寫策略：當 Application 發起一個 write() 操作，Kernel 首先會將數據寫到 Page Cache，然后方法返回，即：Write back（寫回）機制，區別于 Write Through（寫穿）。此時數據還沒有真正的寫入到文件中去，Kernel 僅僅將已寫入到 Page Cache 的這一個頁面標記為 “臟頁（Dirty Page）”，并加入到臟頁鏈表中。然后，由 flusher（pdflush，Page Dirty Flush）kernel thread（回寫內核線程）周期性地將臟頁鏈表中的頁寫到磁盤，并清理 “臟頁” 標識。在以下 3 種情況下，臟頁會被寫回磁盤：

當空閑內存低于一個特定的閾值時，內核必須將臟頁寫回磁盤，以便釋放內存。
當臟頁在內存中駐留時間超過一個特定的閾值時，內核必須將超時的臟頁寫回磁盤。
當 Application 主動調用 sync、fsync、fdatasync 等 SCI 時，內核會執行相應的寫回操作。

flusher 刷新策略由以下幾個內核參數決定（數值單位均為 1/100 秒）：

# flush 每隔 5 秒執行一次
$ sysctl vm.dirty_writeback_centisecs
vm.dirty_writeback_centisecs = 500

# 內存中駐留 30 秒以上的臟數據將由 flush 在下一次執行時寫入磁盤
$ sysctl vm.dirty_expire_centisecs
vm.dirty_expire_centisecs = 3000

# 若臟頁占總物理內存 10％以上，則觸發 flush 把臟數據寫回磁盤
$ sysctl vm.dirty_background_ratio
vm.dirty_background_ratio = 10

綜上可見，Page Cache 技術在理想的情況下，可以在一次 Storage I/O 的流程中，減少 2 次 DMA Copy 操作（不直接訪問磁盤）。

Buffered I/O

下圖展示了一個 C 程序通過 stdio 庫中的 printf() 或 fputc() 等輸出函數來執行數據寫入的操作處理流程。過程中涉及到了多處 I/O Buffer 的實現：

stdio buffer：在 Userspace 實現的 Buffer，因為 SCI 的成本昂貴，所以，Userspace Buffer 用于 “積累“ 到更多的待寫入數據，然后再通過一次 SCI 來完成真正的寫入。另外，stdio 也支持 fflush() 強制刷新函數。
Kernel buffer cache：處理包括上文以及提到的 Page Cache 技術之外，磁盤設備驅動程序也提供塊級別的 Buffer 技術，用于 “積累“ 更多的文件系統元數據和磁盤塊數據，然后在合適的時機完成真正的寫入。

零拷貝技術（Zero-Copy）

零拷貝技術（Zero-Copy），是通過盡量避免在 I/O 處理流程中使用 CPU Copy 和 DMA Copy 的技術。實際上，零拷貝并非真正做到了沒有任何拷貝動作，它更多是一種優化的思想。

下列表格從 CPU Copy 次數、DMA Copy 次數以及 SCI 次數這 3 個方面來對比了幾種常見的零拷貝技術?？梢钥匆姡? 次 DMA Copy 是不可避免的，因為 DMA 是外設 I/O 的基本行為。零拷貝技術主要從減少 CPU Copy 和 CPU 模式切換這 2 個方面展開。

1、Userspace Direct I/O

Userspace Direct I/O（用戶態直接 I/O）技術的底層原理由 Kernel space 中的 ZONE_DMA 支持。ZONE_DMA 是一塊 Kernel 和 User Process 都可以直接訪問的 I/O 外設 DMA 物理內存空間?；诖?， Application 可以直接讀寫 I/O 外設，而 Kernel 只會輔助執行必要的虛擬存儲配置工作，不直接參與數據傳輸。因此，該技術可以減少 2 次 CPU Copy。

Userspace Direct I/O 的缺點：

由于旁路了要求 Kernel buffer cache 優化，就需要 Application 自身實現 Buffer Cache 機制，稱為自緩存應用程序，例如：數據庫管理系統。
由于 Application 直接訪問 I/O 外設，會導致 CPU 阻塞，浪費 CPU 資源，這個問題需要結合異步 I/O 技術來規避。

具體流程看下圖：Using Direct I/O with DMA

2、mmap() + write()

mmap() SCI 用于將 I/O 外設（e.g. 磁盤）中的一個文件、或一段內存空間（e.g. Kernel Buffer Cache）直接映射到 User Process 虛擬地址空間中的 Memory Mapping Segment，然后 User Process 就可以通過指針的方式來直接訪問這一段內存，而不必再調用傳統的 read() / write() SCI。

申請空間函數原型：

addr 參數：分配 MMS 映射區的入口地址，由 Kernel 指定，調用時傳入 NULL。
length 參數：指示 MMS 映射區的大小。
prot 參數：指示 MMS 映射區的權限，可選：PROT_READ、PROT_WRITE、PROT_READ|PROT_WRITE 類型。
flags 參數：標志位參數，可選：
MAP_SHARED：映射區所做的修改會反映到物理設備（磁盤）上。
MAP_PRIVATE：映射區所做的修改不會反映到物理設備上。
fd 參數：指示 MMS 映射區的文件描述符。
offset 參數：指示映射文件的偏移量，為 4k 的整數倍，可以映射整個文件，也可以只映射一部分內容。
函數返回值：
成功：更新 addr 入口地址。
失?。焊?MAP_FAILED 宏。

void *mmap(void *adrr, size_t length, int prot, int flags, int fd, off_t offset);

釋放空間函數原型：

addr 參數：分配 MMS 映射區的入口地址，由 Kernel 指定，調用時傳入 NULL。
length 參數：指示 MMS 映射區的大小。
函數返回值：
成功：返回 0。
失?。悍祷?-1。

int munmap(void *addr, size_t length)

可見，mmap() 是一種高效的 I/O 方式。通過 mmap() 和 write() 結合的方式，可以實現一定程度的零拷貝優化。

// 讀
buf = mmap(diskfd, len);
// 寫
write(sockfd, buf, len);

mmap() + write() 的 I/O 處理流程如下。

mmap() 映射：

Application 發起 mmap() 調用，進行文件操作，CPU 模式從用戶態切換到內核態。
mmap() 將指定的 Kernel Buffer Cache 空間映射到 Application 虛擬地址空間。
mmap() 返回，CPU 模式從內核態切換到用戶態。
在 Application 后續的文件訪問中，如果出現 Page Cache Miss，則觸發缺頁異常，并執行 Page Cache 機制。通過已經建立好的映射關系，只使用一次 DMA Copy 就將文件數據從磁盤拷貝到 Application User Buffer 中。

write() 寫入：

Application 發起 write() 調用，CPU 模式從用戶態切換到內核態。
由于此時 Application User Buffer 和 Kernel Buffer Cache 的數據是一致的，所以直接從 Kernel Buffer Cache 中 CPU Copy 到 Kernel Socket Buffer，并最終從 NIC 發出。
write() 返回，CPU 模式從內核態切換到用戶態。

可見，mmap() + write() 的 I/O 處理流程減少了一次 CPU Copy，但沒有減少 CPU 模式切換的次數。另外，由于 mmap() 的進程間共享特性，非常適用于共享大文件的 I/O 場景。

mmap() + write() 的缺點：當 mmap 映射一個文件時，如果這個文件被另一個進程所截獲，那么 write 系統調用會因為訪問非法地址被 SIGBUS 信號終止，SIGBUS 默認會殺死進程并產生一個 coredump。解決這個問題通常需要使用文件租借鎖實現。在 mmap 之前加鎖，操作完之后解鎖。即：首先為文件申請一個租借鎖，當其他進程想要截斷這個文件時，內核會發送一個實時的 RT_SIGNAL_LEASE 信號，告訴當前進程有進程在試圖破壞文件，這樣 write 在被 SIGBUS 殺死之前，會被中斷，返回已經寫入的字節數，并設置 errno 為 success。

3、sendfile()

Linux Kernel 從 v2.1 開始引入了 sendfile()，用于在 Kernel space 中將一個 in_fd 的內容復制到另一個 out_fd 中，數據無需經過 Userspace，所以應用在 I/O 流程中，可以減少一次 CPU Copy。同時，sendfile() 比 mmap() 方式更具安全性。

函數原型：

out_fd 參數：目標文件描述符，數據輸入文件。
in_fd 參數：源文件描述符，數據輸出文件。該文件必須是可以 mmap 的。
offset 參數：指定從源文件的哪個位置開始讀取數據，若不需要指定，傳遞一個 NULL。
count 參數：指定要發送的數據字節數。
函數返回值：
成功：返回復制的字節數。
失敗：返回 -1，并設置 errno 全局變量來指示錯誤類型。

#include

ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

sendfile() 處理流程：

Application 調用 sendfile()，CPU 從用戶態切換到內核態。
Kernel 將數據通過 DMA Copy 從磁盤設備寫入 Kernel Buffer Cache。
Kernel 將數據從 Kernel Buffer Cache 中 CPU Copy 到 Kernel Socket Buffer。
Kernel 將數據從 Kernel Socket Buffer 中 DMA Copy 到 I/O 網卡設備。
sendfile() 返回，CPU 從內核態切換到用戶態。

4、sendfile() + DMA Gather Copy

上文知道 sendfile() 還具有一次 CPU Copy，通過結合 DMA Gather Copy 技術，可以進一步優化它。

DMA Gather Copy 技術，底層有 I/O 外設的 DMA Controller 提供的 Gather 功能支撐，所以又稱為 “DMA 硬件輔助的 sendfile()“。借助硬件設備的幫助，在數據從 Kernel Buffer Cache 到 Kernel Socket Buffer 之間，并不會真正的數據拷貝，而是僅拷貝了緩沖區描述符（fd + size）。待完成后，DMA Controller，可以根據這些緩沖區描述符找到依舊存儲在 Kernel Buffer Cache 中的數據，并進行 DMA Copy。

顯然，DMA Gather Copy 技術依舊是 ZONE_DMA 物理內存空間共享性的一個應用場景。

sendfile() + DMA Gather Copy 的處理流程：

Application 調用 sendfile()，CPU 從用戶態切換到內核態模式。
Kernel 將數據通過 DMA Copy 從磁盤設備寫入 Kernel Buffer Cache。
Kernel 將數據的緩沖區描述符從 Kernel Buffer Cache 中 CPU Copy 到 Kernel Socket Buffer（幾乎不費資源）。
基于緩沖區描述符，CPU 利用 DMA Controller 的 Gather / Scatter 操作直接批量地將數據從 Kernel Buffer Cache 中 DMA Copy 到網卡設備。
sendfile() 返回，CPU 從內核態切換到用戶態。

5、splice()

splice() 與 sendfile() 的處理流程類似，但數據傳輸方式有本質不同。

sendfile() 的傳輸方式是 CPU Copy，且具有數據大小限制；
splice() 的傳輸方式是 Pipeline，打破了數據范圍的限制。但也要求 2 個 fd 中至少有一個必須是管道設備類型。

函數原型：

fd_in 參數：源文件描述符，數據輸出文件。
off_in 參數：輸出偏移量指針，表示從源文件描述符的哪個位置開始讀取數據。
fd_out 參數：目標文件描述符，數據輸入文件。
off_out 參數：輸入偏移量指針，表示從目標文件描述符的哪個位置開始寫入數據。
len 參數：指示要傳輸的數據長度。
flags：控制數據傳輸的行為的標志位。

#define _GNU_SOURCE /* See feature_test_macros(7) */

#include

ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);

splice() 的處理流程如下：