接續前一篇主題 XDP
,今天我們要繼續來聊聊 eBPF 在 linux netowrk data path 上的另外一個進入點 tc
,並同樣以 bcc 的 neighbor_sharing 作為範例。
Linux tc 介紹#
首先我們要先聊聊 tc
是什麼東西。Traffic Control (tc) 是 linux kernel 網路系統裡面和 netfilter/iptables 同等重要的一個組件。不過 netfilter 主要著重在 packet mangling (封包修改) 和 filter (過濾)。而 tc 的重點是在調控流量,提供限速、整形等功能。
tc 的工作時機點分成 ingress tc
和 egress tc
,以 ingress tc
來說,他發生在 skb allocation 之後,進入 netfilter 之前。ingress tc
主要用於輸入流量控制,egress tc
則用於流量優先級、QoS 的功能。在傳統使用上,tc 更主要是用在 egress tc
,ingress tc
本身有比較大的功能限制。
在 tc
裡面有三個主要的概念,qdisc
、class
和 filter (classifier)
。
tc 的基礎是 queue,封包要進出主機時,會先進入 queue,根據特定的策略重新排序、刪除、延遲後再交給網卡送出,或 netfilter 等系統收入。
qdisc
是套用在這個 queue 上面的策略規則。下列舉例一部份:
- 最基本的策略規則是 pfifo,就是一個簡單的 FIFO queue,只能設定 queue 的可儲存的封包大小和封包個數。
- 更進階的如 pfifo_fast,會根據 ip 封包內的
ToS
欄位將封包分成三個優先度,每個優先度內是走 FIFO 規則,但是會優先清空高優先度的封包。 - sfq 則是會根據 tcp/udp/ip 欄位 hash 的結果區分出不同的連線,將不同連線的封包放入獨立的 bucket 內,然後 bucket 間使用輪尋的方式,來讓不同連線均等的輸出。
- ingress 是專門用在 ingress tc 的 qdisc 上面的 qdisc 都歸為 classless QDisc,因為我們不能透過自定義的方式對流量進行分類,提供不同的策略。
與 classless 相反的是 classful qdisc,在 classful qdisc 內,我們可以以定義出多個 class
,針對不同的 class 設定不同的限速策略等規則。也可以將多個 class 附屬在另外一個 class 下,讓子 class 共用一個父 class 的最大總限速規則,但是子分類又獨立有限速規則等等。
而要對流量進行分類就會用到 filter
, 對於某個 qdisc (classless/classful 皆可) 或著父 class 上的封包,如果滿足 filter 的條件,就可以把封包歸到某個 class 上。除了歸類到某個 class 上,filter 也可以設置為執行某個 action,包括丟棄封包、複製封包流量到另外一個網路介面上之類的…
對於 qdisc 和 class 在建立時需指定或自動分配一個在網卡上唯一的 handle 作為識別 id,格式是 <major>:<minor>
(數字),對於 qdisc 來說只有 major 的部分 <major>:
,對 class 來說 major 必須與對應 qdisc 相同。
另外在 egress pipeline 可以有多個 qdisc,其中一個作為 root,其他的藉由 filter 從 root qdisc dispatch 過去,所以需要有 major 這個欄位。
在 linux 上面主要透過 tc
這個指令來設置 qdisc
、class
和 filter
。
# 添加 eth0 egress 的 root qdisc,類型是 htb,後面是 htb 的參數
tc qdisc add dev enp0s3 root handle 1: htb default 30
# 添加 eth 的 ingress qdisc
tc qdisc add dev enp0s3 ingress
# 設置一個 class,速度上下限都是 20mbps,附屬於 eth0 的 root qdisc (1:) 下
tc class add dev enp0s3 partent 1: classid 1:1 htb rate 20mbit ceil 20mbit
# 當封包為 ip, dst port 80 時分類到上述分類
tc filter add dev enp0s3 protocol ip parent 1: prio 1 u32 match ip dport 80 0xffff flowid 1:1
# 查看 egress filter
tc filter show dev eth0
# 查看 ingress filter
tc filter show dev eth0 ingress
eBPF 與 tc#
eBPF 在 tc 系統裡面是在 filter
的部分作用,並可分成兩種模式,classifier (BPF_PROG_TYPE_SCHED_CLS) 和 action (BPF_PROG_TYPE_SCHED_ACT)。
- classifier: 前者分析封包後,決定是否 match,並可以將封包分類給透過 tc 指令預設的 classid 或著重新指定 classid。
- 0: mismatch
- 1: match, 使用 filter 預設的 classid
- 直接回傳一個 classid
- action: 作為該
filter
的 action,當 tc 設置的 filter 規則 match 後,呼叫 eBPF 程式決定 action 是 drop (2), 執行預設 action (-1) 等。下列是 action 的完整定義
#define TC_ACT_UNSPEC (-1)
#define TC_ACT_OK 0
#define TC_ACT_RECLASSIFY 1
#define TC_ACT_SHOT 2
#define TC_ACT_PIPE 3
#define TC_ACT_STOLEN 4
#define TC_ACT_QUEUED 5
#define TC_ACT_REPEAT 6
#define TC_ACT_REDIRECT 7
#define TC_ACT_JUMP 0x10000000
BCC neighbor_sharing#
介紹#
這次要看的是 examples/networking/neighbor_sharing
。(原始碼)
這次的 eBPF 程式會提供 QoS 的服務,對經過某張網卡的針對往特定的 IP 提供不同的限速群組。
/------------\ |
neigh1 --|->->->->->->->-| | |
neigh2 --|->->->->->->->-| <-128kb-| /------\ |
neigh3 --|->->->->->->->-| | wan0 | wan | |
| ^ | br100 |-<-<-<--| sim | |
| clsfy_neigh () | | ^ \------/ |
lan1 ----|->->->->->->->-| <--1Mb--| | |
lan2 ----|->->->->->->->-| | classify_wan () |
^ \------------/ |
pass () |
上圖是 neighbor_sharing 自帶的網路拓譜圖,neight1-3, lan1-2, wan0 是獨立的 network namespace 擁有獨立的 IP,neighbor_sharing 會在 wansim 到 br100 的介面上建立 ingress tc
,針對 neigh1-3 的 IP 提供總共 128kb/s 的網路速度,對其他 IP 提供總共 1024kb/s 的網路速度。
首先在測試之前要先安裝 pyroute2 和 netperf,前者是 python 接接 tc 指令的 library,後者是用來測試網速的工具。另外要記得設置防火牆規則不然 br100 不會轉發封包
pip3 install pyroute2
apt install netperf
iptables -P FORWARD ACCEPT
sysctl -w net.ipv4.ip_forward=1
neight1-3 會被分配 172.16.1.100-102 的 IP, lan 則是 172.16.1.150-151。
sudo ip netns exec wan0 netperf -H 172.16.1.100 -l 2 -k
MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF_INET to 172.16.1.100 () port 0 AF_INET : demo
Recv Send Send
Socket Socket Message Elapsed
Size Size Size Time Throughput
bytes bytes bytes secs. 10^6bits/sec
131072 16384 16384 6.00 161.45
透過 netperf 可以測出來到 neight1 的封包流量被限制在約 161.45 kbits/sec。
ip netns exec wan0 netperf -H 172.16.1.150 -l 2 -f k
MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF_INET to 172.16.1.150 () port 0 AF_INET : demo
Recv Send Send
Socket Socket Message Elapsed
Size Size Size Time Throughput
bytes bytes bytes secs. 10^3bits/sec
131072 16384 16384 2.67 1065.83
而到 lan1 大約是 1065.83kbits/sec,接近預先設置的規則。
python 實作#
這次會先看 python 的程式碼,由於這次的程式碼包含大量用來建立測試環境的部分,所以會跳過只看相關的內容。
b = BPF (src_file="tc_neighbor_sharing.c", debug=0)
wan_fn = b.load_func ("classify_wan", BPF.SCHED_CLS)
pass_fn = b.load_func ("pass", BPF.SCHED_CLS)
neighbor_fn = b.load_func ("classify_neighbor", BPF.SCHED_CLS)
首先這次的 eBPF 程式包含三個部分,因此會分別載入,並且全部都是 classifier (BPF_PROG_TYPE_SCHED_CLS)
ipr.tc ("add", "ingress", wan_if ["index"], "ffff:")
ipr.tc ("add-filter", "bpf", wan_if ["index"], ":1", fd=wan_fn.fd,
prio=1, name=wan_fn.name, parent="ffff:", action="drop",
classid=1, rate="128kbit", burst=1024 * 32, mtu=16 * 1024)
ipr.tc ("add-filter", "bpf", wan_if ["index"], ":2", fd=pass_fn.fd,
prio=2, name=pass_fn.name, parent="ffff:", action="drop",
classid=2, rate="1024kbit", burst=1024 * 32, mtu=16 * 1024)
接著會建立 wan_if 的 ingress qdisc (wan_if 是 wan0 接到 br100 的介面),並且會 ingress qdisc 下建立兩條 filter,首先它的 type 指定為 bpf 並透過 fd=wan_fn.fd
選定 eBPF program,所以會交由 eBPF classifier 來決定是不是要 match。
classifier match 後就會執行下屬的 policing action,跟 classid 無關,且在這次的範例中並不存在 class,所以 classid 其實是無意義的,不一定要設置。
後半段 action="drop", rate="128kbit", burst=1024 * 32, mtu=16 * 1024
定義了一條 policing action,只有當封包滿足 policy 條件時才會觸發具體的 action,這邊指定是流量超出 128kbit 時執行 drop,也就達到了限制 neigh 流量的效果。
第二條同理,match pass_fn 並且流量到達 1024kbit 時執行 drop,由於 pass_fn 顧名思義是無條件 match 的意思,所以等價於所有非 neigh 的流量共用這一條的 1024kbit 流量限制。
因此總結來說,eBPF 程式 wan_fn 透過某種方式判斷封包是否是往 neigh 的 ip,是的話就 match 第一條 filter 執行 policing action 來限流,不然就 match 第二條 filter 來做限流。
ret = self._create_ns ("neighbor% d" % i, ipaddr=ipaddr,
fn=neighbor_fn, cmd=cmd)
接著就會看到,在建立 neigh1-3 的 namespace 時,attach 了 neighbor_fn 到網卡上,因此就很好理解了 neighbor_fn 監聽了從 neigh 發出的封包,解析拿到 neigh 的 IP 後,透過 map share 給 wan_fn,讓 wan_fn 可以根據 ip 決定要不要 match 第一條 policing action。
eBPF 實作#
到這裡其實就分析出整個程式的執行邏輯了,我們接續來看看 neighbor_sharing 的 eBPF 程式,這次的 eBPF 程式分成三個部分,首先是接在每個 neigh ingress 方向的 classify_neighbor,接著是接在 wan0 ingress 方向的 classify_wan 和 pass。
前面說到出來 classify_neighbor
要做的事情就是紀錄 neigh1-3 的 IP,提供給 classify_wan
判斷是否要 match 封包,執行 128kbits 的流量限制。
struct ipkey {
u32 client_ip;
};
BPF_HASH (learned_ips, struct ipkey, int, 1024);
首先定義了一個 hash map 用 key 來儲存所有 neigh 的 IP
int classify_neighbor(struct __sk_buff *skb) {
u8 *cursor = 0;
ethernet: {
struct ethernet_t *ethernet = cursor_advance (cursor, sizeof(*ethernet));
switch (ethernet->type) {
case ETH_P_IP: goto ip;
default: goto EOP;
}
}
ip: {
struct ip_t *ip = cursor_advance (cursor, sizeof(*ip));
u32 sip = ip->src;
struct ipkey key = {.client_ip=sip};
int val = 1;
learned_ips.insert (&key, &val);
goto EOP;
}
EOP:
return 1;
}
接著 classify_neighbor
就會用 cursor 解析出 source ip,將其作為 hash map 的 key 放到 learned_ips 裡面,value 則都設為 1。不論如何都會 return 1 放行封包。雖然其實這是 neighbor ingress 方向上唯一的一條 filter,所以不論回傳值為多少其實都可以,不影響執行結果。
這邊就要提到第一次學習 tc 還有 classifier 時會感到很困惑的地方了,首先 classifier 的回傳值 0 表示 mismatch, 1 表示 match 並轉移到預設的 class,其餘回傳值表示直接指定 classid 為回傳的數值。接著不論 classid 是多少,都會執行 filter 上面綁定的 action。在這次的範例中,所有的 filter 其實都不存在任何的 class,因此 return 值唯一的意義是控制是否要執行 action。這邊 classify_neighbor 綁定的 action 是 ok,表示放行封包的意思
int classify_wan(struct __sk_buff *skb) {
u8 *cursor = 0;
ethernet: {
struct ethernet_t *ethernet = cursor_advance (cursor, sizeof(*ethernet));
switch (ethernet->type) {
case ETH_P_IP: goto ip;
default: goto EOP;
}
}
ip: {
struct ip_t *ip = cursor_advance (cursor, sizeof(*ip));
u32 dip = ip->dst;
struct ipkey key = {.client_ip=dip};
int *val = learned_ips.lookup (&key);
if (val)
return *val;
goto EOP;
}
EOP:
return 0;
}
接著看到 classify_wan
,他會提取封包的 dst ip address,並嘗試搜尋 learned_ips,如果找的到就表示這個是 neighbor 的 ip,回傳 map 對應的 value,前面提到所有的 value 都會設置為 1,因此表示 match 的意思,不然就跳轉到 EOP 回傳 0,表示 mismatch。同樣由於這邊不存在 class,因此 value 只要是非 0 即可,只是用來 match 執行 policing action。
int pass(struct __sk_buff *skb) {
return 1;
}
最後的 pass
其實就是一條無條件回傳 1 表示 match,來執行 wan0 方向第二條 1024kbits/sec 的限流政策用的。
tc 與 XDP 比較#
在 eBPF 裡面,XDP 和 TC 兩個功能常常被拿來一起討輪,前面有提到 eBPF 可以做為 tc actions 使用來達到封包過濾之類的效果,雖然實行效果上是比不上 XDP 的,但是 tc ingress 的 eBPF hook point 也在 kernel data path 的最早期,因此也能夠提供不錯的效能,加上 tc ebpf program 的 context 是 sk_buff
,相較於 xdp_buff
,可以直接透過 __sk_buff
取得和修改更多的 meta data,加上 tc 在 ingress 和 egress 方向都有 hook point,不像 XDP 只能作用在 ingress 方向,且 tc 完全不需要驅動支援即可工作,因此 tc 在使用彈性和靈活度上是比 XDP 更占優的。
不過 tc 其實也有提供 offload 的功能,將 eBPF 程式 offload 到網卡上面執行。
Direct action#
然而由於 tc 的 hook point 分成 classifier 和 action 因此無法透過單一個 eBPF 程式做到 match-action 的效果,然而大多數時候 eBPF tc 程式的開發並不是要利用 tc 系統的功能做限速等功能,而是要利用 tc 在 kernel path 極早期這點做 packet mangling 和 filter 等事項,再加上 tc 系統的使用學習難度相對高,因此 eBPC 在 tc 後引入了 direct-action 和 clsact 這兩個功能。
首先介紹 direct-action (da),這個是在 classifier (BPF_PROG_TYPE_SCHED_CLS) 可啟用的一個選項,如果啟用 da,classifier 的回傳值就變成是 action,和 BPF_PROG_TYPE_SCHED_ACT 相同,而原本的 classid 改成設置__skb_buff->tc_classid 來傳輸。
在 kernel code 內使用 prog->exts_integrated 標示是否啟用 da 功能
透過 da 可以透過單一個 eBPF 程式完成 classifier 和 action 的功能,降低了 tc hook point 對原本 tc 系統框架的依賴,能夠透過 eBPF 程式簡潔的完成功能。
在 da 的使用上可以參考 bcc 的範例 examples/networking/tc_perf_event.py
,使用上與普通的 classifer 幾乎無異,只要在載入時 ipr.tc ("add-filter","bpf", me,":1", fd=fn.fd, ... ,direct_action=True)
加上 direct_action 選項即可。
透過 tc 指令查看時也可以看到 direct-action
字樣。
tc filter show dev t1a
filter parent 1: protocol all pref 49152 bpf chain 0
filter parent 1: protocol all pref 49152 bpf chain 0 handle 0x1 flowid :1 hello direct-action not_in_hw id 308 tag 57cd311f2e27366b jited
action order 1: gact action pass
random type none pass val 0
index 2 ref 1 bind 1
clsact#
後來 tc 加入了 clsact,clsact 是一個專為 eBPF 設計的偽 qdisc。首先 clsact 同時作用在 ingress 和 egress 方向,也進一步簡化了 ebpf 程式的掛載。
tc qdisc add dev em1 clsact
tc filter add dev em1 ingress bpf da obj tc-example.o sec ingress
tc filter add dev em1 egress bpf da obj tc-example.o sec egress
同時 clsact 工作在真的 qdisc 本身的 lock 之前,因此可以避免 lock 的開銷,預先完成比較複雜繁重的封包分類,在進入到真的 queue filter 時只根據更簡單的欄位 (如 tc_index) 做分類。另外 da 本來只能使用在 ingress 方向,透過 clsact,da 可以工作在 egress 方向。
關於 eBPF tc 的部分就大致上介紹到這裡,對於 tc 這個子系統相對來說是真的蠻陌生的,因此介紹這個部分的確是有比較大的難度和說不清楚的地方。