本文主要是對(duì)eBPF進(jìn)行介紹,帶大家了解eBPF是什么、通過(guò)eBPF可以做些什么事情。
1.BPF起源
BPF源頭起源于一篇1992年的論文,這篇論文主要提出一種新的網(wǎng)絡(luò)數(shù)據(jù)包的過(guò)濾的框架,如下圖所示。
提出bpf的原因其實(shí)也很簡(jiǎn)單,早期我們從網(wǎng)卡中接收到很多的數(shù)據(jù)包,我們要想從中過(guò)濾出我們想要的數(shù)據(jù)包,我們需要將網(wǎng)卡接收的數(shù)據(jù)包都要從內(nèi)核空間拷貝一份到用戶空間。然后,用戶程序在對(duì)這些進(jìn)行過(guò)濾。那么,我們可以從中就能夠發(fā)現(xiàn)一個(gè)問(wèn)題。數(shù)據(jù)包必須全部拷貝。然后再過(guò)濾出所需的數(shù)據(jù)包,那么對(duì)于那些不需要的數(shù)據(jù)包,我們拷貝的操作是無(wú)效的、浪費(fèi)的。并且對(duì)于內(nèi)存數(shù)據(jù)的拷貝是很費(fèi)cpu系統(tǒng)的資源的。所以,這篇論文,就提出了一種新的框架,在內(nèi)核中直接過(guò)濾,這也可以避免一些無(wú)用的、浪費(fèi)的拷貝。
其背后的思想其實(shí)就是:與其把數(shù)據(jù)包復(fù)制到用戶空間執(zhí)行用戶態(tài)程序過(guò)濾,不如把過(guò)濾程序灌進(jìn)內(nèi)核去。
這種新的框架,其實(shí)還是很容易理解的。大概的理解就是,當(dāng)我們從網(wǎng)卡接收到一個(gè)數(shù)據(jù)包的時(shí)候,我們數(shù)據(jù)鏈路層,將數(shù)據(jù)包額外的拷貝一份。然后這個(gè)新的數(shù)據(jù)包就交給BPF程序進(jìn)行處理,這個(gè)BPF根據(jù)用戶編寫(xiě)的過(guò)濾規(guī)則對(duì)這個(gè)新的數(shù)據(jù)包進(jìn)行匹配。如果符合此規(guī)則就將數(shù)據(jù)包放到接收隊(duì)列中,那么用戶事后就可以從接收隊(duì)列中將這個(gè)數(shù)據(jù)包從內(nèi)核空間拷貝到用戶空間,這樣就減少了無(wú)用的數(shù)據(jù)包的拷貝。
像tcpdump/wireshark等用戶工具就是基于BPF框架實(shí)現(xiàn)的。其大概實(shí)現(xiàn)的過(guò)程就是,編寫(xiě)B(tài)PF指令集的過(guò)濾規(guī)則,然后創(chuàng)建raw/packet類(lèi)型的套接字socket,將網(wǎng)卡設(shè)置為混雜模式。在通過(guò)setsockopt函數(shù)將BPF代碼拷貝到內(nèi)核,并attach到相關(guān)聯(lián)的socket套接字上。當(dāng)網(wǎng)卡接收到數(shù)據(jù)包的時(shí)候,因?yàn)樵O(shè)置的混雜模式,那么就會(huì)額外的拷貝一份新的數(shù)據(jù)包,然后在根據(jù)BPF的代碼進(jìn)行過(guò)濾,將符合規(guī)則的數(shù)據(jù)包接收到socket套接字的接收隊(duì)列里面。最后用戶程序就可以從這個(gè)接收隊(duì)列獲取到過(guò)濾后的數(shù)據(jù)包了。這類(lèi)工具的實(shí)現(xiàn)流程就是大概這個(gè)樣子。
2.偽機(jī)器碼、BPF指令集、JIT
使用過(guò)tcpdump工具的應(yīng)該都見(jiàn)過(guò)在tcpdump命令后面會(huì)加一些表達(dá)式,用來(lái)表示過(guò)濾規(guī)則。
如:sudo tcpdump -d -i lo tcp and dst port 7070
注意不要以為這個(gè)表達(dá)式就是BPF程序了,其實(shí)這不是的。這個(gè)表達(dá)式是要經(jīng)過(guò)編譯過(guò)后才會(huì)變成BPF程序的。在我們?cè)缙谑巧a(chǎn)這類(lèi)編譯器,那么是如何將這個(gè)表達(dá)式編譯出BPF指令集的呢?
tcpdump的實(shí)現(xiàn)是基于libcap庫(kù)的,tcpdump使用的過(guò)濾表達(dá)式是使用libcap庫(kù)進(jìn)行解析的,生成我們BPF指令集。那為什么沒(méi)有單獨(dú)做成一個(gè)這類(lèi)的編譯器?究其原因就是但是的BPF框架使用的功能較少,只用在了網(wǎng)絡(luò)的數(shù)據(jù)包過(guò)濾方面。除此之外,當(dāng)時(shí)的BPF指令集個(gè)數(shù)很少,所以沒(méi)有必要花費(fèi)大量的資源單獨(dú)做一個(gè)編譯器。但是隨著B(niǎo)PF的發(fā)展,指令集的復(fù)雜、支持的BPF程序類(lèi)型越來(lái)越多,就急需要一個(gè)編譯器了。那這個(gè)就是我們后面將要提到的eBPF和clang/llvm編譯器了。
偽機(jī)器碼:假的機(jī)器碼,機(jī)器碼都是能夠在物理機(jī)上直接執(zhí)行的,偽機(jī)器碼不能夠直接執(zhí)行,需要在虛擬機(jī)上執(zhí)行。
BPF指令集:BPF指令集就是一個(gè)偽機(jī)器碼,是不能夠在物理機(jī)上直接執(zhí)行的,需要一個(gè)虛擬機(jī)才能夠執(zhí)行。我們都知道不同的處理器體系結(jié)構(gòu)有自己的不同指令集,這邊的BPF指令集可以理解為在BPF虛擬機(jī)上執(zhí)行的指令集。
JIT:just in time 的縮寫(xiě),我們將編譯好的BPF指令集需要在虛擬機(jī)上執(zhí)行,虛擬機(jī)需要一條一條的解析為本機(jī)機(jī)器碼才能夠執(zhí)行,所以這個(gè)執(zhí)行效率會(huì)很低,但是如果我們的處理器有了JIT就能夠?qū)⑽覀傿PF直接直接編譯為能夠在機(jī)器直接執(zhí)行的機(jī)器碼,這樣大大提高了執(zhí)行的速度。
3.eBPF介紹
eBPF是extend BPF的簡(jiǎn)稱,擴(kuò)展的BPF。我們剛了解BPF了,都知道BPF的功能比較單一只能夠作用于網(wǎng)路的數(shù)據(jù)包的過(guò)濾上,但是擴(kuò)展后的BPF的功能得到了很大的豐富,可以這樣說(shuō)基本上可以使用在Linux各個(gè)子系統(tǒng)中。除了功能上的擴(kuò)展,BPF程序的指令集也變得相當(dāng)復(fù)雜了,所以就出現(xiàn)了專(zhuān)門(mén)用于編譯BPF程序的clang/llvm編譯。在框架上BPF的框架也發(fā)生了變化,所以擴(kuò)展后的BPF不再是早期的BPF的可以比擬的。因而,早期的BPF被稱為cBPF,擴(kuò)展后的BPF被稱為eBPF。
現(xiàn)在看下擴(kuò)展后的BPF的框架,如下圖所示:
注意:我們后面說(shuō)的BPF指的是cBPF和eBPF的統(tǒng)稱,除非特別說(shuō)明。
雖然,框架發(fā)生變化,但是其基本的思想還沒(méi)有發(fā)生變化的。都是將BPF程序進(jìn)行編譯后生成字節(jié)碼,然后將BPF字節(jié)碼注入到內(nèi)核中,當(dāng)發(fā)生事件觸發(fā)的時(shí)候,我們就會(huì)執(zhí)行相應(yīng)的BPF程序。
現(xiàn)在,我們對(duì)cBPF和eBPF進(jìn)行對(duì)比:
一、cBPF支持的功能比較單一,只能夠作用于網(wǎng)絡(luò)的數(shù)據(jù)包的過(guò)濾上。而eBPF除了能夠支持網(wǎng)絡(luò)的數(shù)據(jù)包的過(guò)濾上,也支持其他的事件類(lèi)型,如上圖中的XDP、Perf Event、kprobe、tracepoint等等。cBPF的功能在eBPF其實(shí)對(duì)應(yīng)的就是Socket的部分。
二、引入Map機(jī)制。在cBPF我們通過(guò)接收隊(duì)列將過(guò)濾后數(shù)據(jù)獲取出來(lái),但是在eBPF我們可以將數(shù)據(jù)放到Map空間中。Map空間是用戶空間和內(nèi)核空間共享的,所以一般是在內(nèi)核中將數(shù)據(jù)存入到Map空間中,然后在用戶空間取出數(shù)據(jù)。
三、指令集變得更復(fù)雜了,與此同時(shí),有了專(zhuān)門(mén)的用于編譯BPF字節(jié)碼的編譯器clang/llvm。
四、還有在安全機(jī)制方面等等一些改變。
4.eBPF類(lèi)型和Map機(jī)制
首先,看下eBPF支持的類(lèi)型,其中BPF_PROG_TYPE_SOCKET_FILTER對(duì)應(yīng)的就是早期cBPF的功能。只不過(guò)在eBPF中使用的框架不再是以前的cBPF的框架了,但是其實(shí)現(xiàn)的功能是一樣的。
bpf_prog_typeBPF prog 入口參數(shù)(R1)程序類(lèi)型
BPF_PROG_TYPE_
SOCKET_FILTERstruct __sk_buff用于過(guò)濾進(jìn)出口網(wǎng)絡(luò)報(bào)文,功能上和 cBPF 類(lèi)似。
BPF_PROG_TYPE_
KPROBEstruct pt_regs用于 kprobe 功能的 BPF 代碼。
BPF_PROG_TYPE_
TRACEPOINT這類(lèi) BPF 的參數(shù)比較特殊,根據(jù) tracepoint 位置的不同而不同。用于在各個(gè) tracepoint 節(jié)點(diǎn)運(yùn)行。
BPF_PROG_TYPE_
XDPstruct xdp_md用于控制 XDP(eXtreme Data Path)的 BPF 代碼。
BPF_PROG_TYPE_
PERF_EVENTstruct bpf_perf_event_
data用于定義 perf event 發(fā)生時(shí)回調(diào)的 BPF 代碼。
BPF_PROG_TYPE_
CGROUP_SKBstruct __sk_buff用于在 network cgroup 中運(yùn)行的 BPF 代碼。功能上
和 Socket_Filter 近似。具體用法可以參考范例
test_cgrp2_attach。
BPF_PROG_TYPE_
CGROUP_SOCKstruct bpf_sock另一個(gè)用于在 network
cgroup 中運(yùn)行的 BPF 代碼,范例 test_cgrp2_sock2 中就展示了一個(gè)利用 BPF 來(lái)控制 host 和 netns 間通信的例子。
Map機(jī)制的優(yōu)勢(shì):
Map機(jī)制引入的原因,其中一個(gè)最大的原因就是通信。對(duì)于Map空間是用戶和內(nèi)核共享的,我們可以在內(nèi)核中將處理后的數(shù)據(jù)直接存入Map空間。然后,可以從用戶空間中進(jìn)行獲取。這樣就是大大方便了通信。除此之外,我們?cè)趦?nèi)核中進(jìn)行數(shù)據(jù)處理后,相應(yīng)的數(shù)據(jù)的占用的空間就會(huì)變小的很多,然后,在將數(shù)據(jù)存入到Map空間中。想比較于cBPF需要將數(shù)據(jù)獲取到后,在進(jìn)行處理,這樣可以大大節(jié)省存儲(chǔ)空間。
Map機(jī)制下的常見(jiàn)的數(shù)據(jù)類(lèi)型:
CategorySourceBpf_map_type用途
ArrayArraymap.cBPF_MAP_TYPE_ARRAY
BPF_MAP_TYPE_CGROUP_ARRAY BPF_MAP_TYPE_PERF_EVENT_ARRAY BPF_MAP_TYPE_PERCPU_
ARRAY BPF_MAP_TYPE_
ARRAY_OF_MAPS實(shí)際就是數(shù)組,所以所有的 key 必須是整數(shù)。
BPF_MAP_TYPE_PROG_
ARRAY該類(lèi)型是一個(gè)特例,主要用于自定義函數(shù),利用
JUMP_TAIL_CALL令跳轉(zhuǎn)
HashHashmap.cBPF_MAP_TYPE_HASH
BPF_MAP_TYPE_PERCPU_HASH BPF_MAP_TYPE_
LRU_PERCPU_HASH BPF_MAP_TYPE_HASH_OF_
MAPS真正意義上的 map 數(shù)據(jù)類(lèi)型,如果 key 值為整數(shù)以外的類(lèi)型必須使用
Stack
TraceStackmap.cBPF_MAP_TYPE_STACK_TRACE真正意義上的 map 數(shù)據(jù)類(lèi)型,如果 key 值為整數(shù)以外的類(lèi)型必須使用存儲(chǔ)特定應(yīng)用在某一特定時(shí)間點(diǎn)的棧狀態(tài)(包括內(nèi)核態(tài)和用戶態(tài)),key 只有兩個(gè):分別為內(nèi)核棧 id 和
用戶棧 id,利用 bpf_get_stackid()獲取;
Longest Prefix
Match
TrieLpm_trie.cBPF_MAP_TYPE_LPM_
TRIE基于 Longest Prefix
Match 前綴樹(shù)實(shí)現(xiàn),適宜處理以 CIBR 為鍵值時(shí)的情況
5.BPF程序編寫(xiě)使用的語(yǔ)言
對(duì)于早期的cBPF程序的編寫(xiě),一般都是直接使用BPF指令集來(lái)編寫(xiě)程序。像tcpdump這類(lèi)工具,提供的使用方法可以類(lèi)似于高級(jí)語(yǔ)言的人性化的表達(dá)式的使用,但是其實(shí)還是一樣的,只不過(guò)是讓libcap進(jìn)行解析了。BPF程序的編寫(xiě)難度是極高的。
后來(lái),由于BPF的擴(kuò)展,急需要一種高級(jí)語(yǔ)言來(lái)編寫(xiě)B(tài)PF程序,就出現(xiàn)了c語(yǔ)言的編程。通過(guò)c語(yǔ)言進(jìn)行編寫(xiě),然后,通過(guò)clang/llvm將c語(yǔ)言編譯為BPF字節(jié)碼,然后在注入到內(nèi)核中。但是對(duì)于注入的方式,還是需要通過(guò)自己手動(dòng)的方式才能夠注入。
后來(lái),就出現(xiàn)了BPF Compiler Collection(BCC),BCC 是一個(gè) python 庫(kù),但是其中有很大一部分的實(shí)現(xiàn)是基于 C 和 C++的,python 只不過(guò)實(shí)現(xiàn)了對(duì) BCC 應(yīng)用層接口的封裝而已。使用bcc的最大好處是,用戶只需要關(guān)注BPF程序的設(shè)計(jì),對(duì)于剩余的工作都不用管,包括編譯、解析 ELF、加載 BPF 代碼塊以及創(chuàng)建 map 等等基本可以由 BCC 一力承擔(dān),無(wú)需多勞開(kāi)發(fā)者費(fèi)心。
6.BPF工作原理總結(jié)
首先,看下BPF框架圖,如下圖所示:
一般我們都是通過(guò)c語(yǔ)言編寫(xiě)B(tài)PF程序,然后通過(guò)clang/llvm編譯器,將BPF程序編譯為BPF字節(jié)碼。然后通過(guò)bpf系統(tǒng)調(diào)用,將BPF字節(jié)碼注入到內(nèi)核中,在注入的時(shí)候,我們必須要經(jīng)過(guò)BPF程序的驗(yàn)證,來(lái)保證我們寫(xiě)的BPF程序沒(méi)有問(wèn)題,以防干掉我們的系統(tǒng)。然后,在判斷是否開(kāi)啟了JIT,然后開(kāi)啟了,還需要將BPF字節(jié)碼編譯為本機(jī)機(jī)器碼,以加快運(yùn)行速度。
當(dāng)我們BPF程序attach的事件觸發(fā)了,就會(huì)執(zhí)行我們的BPF程序,然如是經(jīng)過(guò)JIT編譯過(guò)后的就能夠直接執(zhí)行,然后沒(méi)有開(kāi)啟JIT就需要通過(guò)虛擬機(jī)進(jìn)行解析在執(zhí)行。在執(zhí)行BPF程序的過(guò)程中,會(huì)將需要保存的數(shù)據(jù)存儲(chǔ)到map空間中,用戶時(shí)候可以從map空間讀取出數(shù)據(jù)。BPF程序的大致流程就是這個(gè)樣子。
注意:BPF是基于事件觸發(fā)的。這是什么意思呢?
就是如果我們將BPF程序attach到某個(gè)事件上,當(dāng)這個(gè)事件觸發(fā)的時(shí)候,就會(huì)執(zhí)行我們這個(gè)BPF程序。其實(shí)這就是BPF的工作原理。
如,我們將BPF程序attach到kprobe類(lèi)型的事件上,這個(gè)kprobe事件是個(gè)函數(shù),當(dāng)cpu執(zhí)行到這個(gè)函數(shù)的時(shí)候,就會(huì)觸發(fā)。然后就會(huì)執(zhí)行我們的BPF程序。
7.eBPF的作用
eBPF能夠用于內(nèi)核追蹤、應(yīng)用性能調(diào)優(yōu)/監(jiān)控、流量控制等方面,是非常有用的。
針對(duì)用于監(jiān)控、跟蹤使用的eBPF程序來(lái)說(shuō),主要是通過(guò)在內(nèi)核運(yùn)行的過(guò)程中,來(lái)獲取內(nèi)核運(yùn)行時(shí)的一些參數(shù)和統(tǒng)計(jì)信息。例如:系統(tǒng)調(diào)用的參數(shù)值、返回值,然后通過(guò)Map空間,將得到的信息傳遞給用戶態(tài)的程序,進(jìn)而可以在用戶程序中在進(jìn)行邏輯處理。
eBPF除了能夠獲取內(nèi)核運(yùn)行的狀態(tài)信息,也能夠改變內(nèi)核的處理流程,可以在內(nèi)核某些路徑上加入直接的處理邏輯,來(lái)改變內(nèi)核的運(yùn)行的流程。例如:XDP,就是在網(wǎng)卡驅(qū)動(dòng)中,在進(jìn)入內(nèi)核協(xié)議棧之前插入eBPF的擴(kuò)展的網(wǎng)絡(luò)包的過(guò)濾和轉(zhuǎn)發(fā)功能。
編輯:lyn
-
Linux
+關(guān)注
關(guān)注
87文章
11508瀏覽量
213567 -
Extended
+關(guān)注
關(guān)注
0文章
2瀏覽量
7650 -
MAP
+關(guān)注
關(guān)注
0文章
49瀏覽量
15495 -
BPF
+關(guān)注
關(guān)注
0文章
26瀏覽量
4327
原文標(biāo)題:eBPF介紹
文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
隔離式收發(fā)器的工作原理與作用
倍頻器的工作原理及作用
光學(xué)儀器的工作原理 光學(xué)儀器的種類(lèi)及功能
超級(jí)電容電池的工作原理
輔助電源的工作原理
鋅銀電池的工作原理
補(bǔ)償電容的作用和工作原理是什么
工業(yè)廠房人員定位管理系統(tǒng)的工作原理、功能及作用

評(píng)論