0%

  1. 下载最新的otel-windows-amd64.exe,改名otel.exe放到$GOPATH/bin目录下

    $GOPATH/bin 需要加入到系统环境变量。

  2. 参考demo 使用otel工具编译出可执行文件.

OTEL_EXPORTER_OTLP_ENDPOINT="http://172.16.20.91:12394"  GOOS=linux GOARCH=amd64 otel go build

  1. 下载一个opentelemetry-javaagent.jar 挂载到容器目录下,如/root/trace

  2. 容器启动时添加环境变量

  • JAVA_TOOL_OPTIONS: -javaagent:/root/trace/opentelemetry-javaagent.jar
  • OTEL_EXPORTER_JAEGER_ENDPOINT: http://opentelemetry-collector.loki:14250
  • OTEL_SERVICE_NAME : 自定义服务名
  • OTEL_TRACES_EXPORTER : jaeger
  • OTEL_METRICS_EXPORTER : none

离线安装

如果是离线安装的docker,可以自己准备一份containerd.service用于管理containerd启停。

# 生成或检查默认配置文件
containerd config default > /etc/containerd/config.toml

# 创建服务文件
sudo vim /etc/systemd/system/containerd.service
[Unit]
Description=containerd container runtime
Documentation=https://containerd.io
After=network.target local-fs.target

[Service]
ExecStartPre=-/sbin/modprobe overlay
ExecStart=/usr/bin/containerd

Type=notify
Delegate=yes
KillMode=process
Restart=always
RestartSec=5
# Having non-zero Limit*s causes performance problems due to accounting overhead
# in the kernel. We recommend using cgroups to do container-local accounting.
LimitNPROC=infinity
LimitCORE=infinity
LimitNOFILE=1048576
# Comment TasksMax if your systemd version does not supports it.
# Only systemd 226 and above support this version.
TasksMax=infinity
OOMScoreAdjust=-999

[Install]
WantedBy=multi-user.target
# 重新加载 Systemd 配置
sudo systemctl daemon-reload
# 启动 containerd
sudo systemctl start containerd
# 设置为开机自启动:
sudo systemctl enable containerd

nerdctl

containerd自带的ctl命令与docker命令不一样,使用不习惯的用户可以考虑安装nerdctl。这个工具命令风格和docker一致。

# 下载最新版本
wget https://github.com/containerd/nerdctl/releases/download/v2.0.1/nerdctl-2.0.1-linux-amd64.tar.gz
# 安装
sudo tar -C /usr/local/bin -xzf nerdctl-2.0.1-linux-amd64.tar.gz
# 测试
nerdctl version

安装CNI插件

下载页下载最新版本

wget https://github.com/containernetworking/plugins/releases/download/v1.6.1/cni-plugins-linux-amd64-v1.6.1.tgz
# 解压到 /opt/cni/bin 目录
sudo mkdir -p /opt/cni/bin
sudo tar -xzf cni-plugins-linux-amd64-v1.6.1.tgz -C /opt/cni/bin
# 验证插件是否安装成功
ls /opt/cni/bin

检查containerd配置,确保CNI配置正确

[plugins."io.containerd.grpc.v1.cri".cni]
  bin_dir = "/opt/cni/bin"
  conf_dir = "/etc/cni/net.d"

然后重启sudo systemctl restart containerd.

使用nerdctl network create bridge创建一个新的默认 bridge 网络.

# 检查网络是否创建成功
nerdctl network ls

问题现象

k8s集群中有一台机器重启了,重启后在这台节点ping其他机器的pod ip都不通。

抓ping的包可以看到只有request的,正常情况是有reply的。

tcpdump -i flannel.1 icmp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on flannel.1, link-type EN10MB (Ethernet), capture size 262144 bytes
22:28:45.852513 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 48, length 64
22:28:46.872698 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 49, length 64
22:28:47.896618 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 50, length 64
22:28:49.851093 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 13, seq 1, length 64
22:28:50.872665 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 13, seq 2, length 64

NC命令测试,问题节点启动UDP监听

# 启动udp监听
nc -u -l -p 12345 
# 抓包
tcpdump -i flannel.1 port 12345

正常节点发送udp报文

echo "test"| nc -u 10.233.64.0  12345

此时后台抓包可以看到有报文过来,但是nc控制台无任何显示。

问题解决

  1. 网上搜很多是云平台安全组策略问题,这可能是一种情况,但是我这里安全组策略都是开通的。

  2. 学习下Flannel网络模式之VXLAN
    文中提到每个节点都会保存Routing TableARP TableFDB Table,然后我在所有节点上都查询了这些表,

# 查询route
route -n

# 查询ARP
ip neigh | grep flannel

# 查询 FDB
bridge fdb show | grep flannel.1

发现别的节点 ARP 表和 FDB 表保存的重启节点的 Flannel.1 网卡的 MAC 地址不对。更新MAC地址:

# 删除FDB命令:bridge fdb del <MAC地址> dev <接口> dst <目标IP>
bridge fdb del 46:83:71:f7:d7:69 dev flannel.1 dst 10.201.112.29
# 新增:bridge fdb add <MAC地址> dev <接口> dst <目标IP>
bridge fdb add 46:83:71:f7:d7:69 dev flannel.1 dst 10.201.112.29

# 删除ARP
ip neigh del 10.233.64.0 dev flannel.1
# 新增
ip neigh add 10.233.64.0 lladdr f2:b5:5e:29:23:55 dev flannel.1 nud permanent
# 注意:删除ARP后可能会自动添加一个,导致新增失败,RTNETLINK answers: File exists,可以将删除和新增放同一个命令执行。
ip neigh del 10.233.64.0 dev flannel.1 && ip neigh add 10.233.64.0 lladdr 0a:9c:93:d8:1c:bd dev flannel.1 nud permanent

然后测试ping别的机器POD IP,问题解决。

配置客户端最大连接数

apiVersion: traefik.containo.us/v1alpha1
kind: Middleware
metadata:
  name: rate-limit
spec:
  rateLimit:
    average: 50  # 每秒允许的平均请求数
    burst: 100   # 最大突发请求数

然后将这个 Middleware 应用到你的 IngressRoute 中:

apiVersion: traefik.containo.us/v1alpha1
kind: IngressRoute
metadata:
  name: example
  namespace: default
spec:
  entryPoints:
    - web
  routes:
    - match: Host(`example.com`)
      kind: Rule
      middlewares:
        - name: rate-limit
      services:
        - name: example-service
          port: 80

配置读超时时间

  • EntryPoints 配置
entryPoints:
  web:
    address: ":80"
    transport:
      lifeCycle:
        requestAcceptGraceTimeout: 0s
        graceTimeOut: 10s
      respondingTimeouts:
        readTimeout: 5s # 设置从客户端读取请求头的超时时间,防止慢速发送请求头的攻击。
        writeTimeout: 5s # 设置向客户端写入响应的超时时间。
        idleTimeout: 180s # 空闲连接超时时间,防止攻击者占用空闲连接。
  websecure:
    address: ":443"
    transport:
      lifeCycle:
        requestAcceptGraceTimeout: 0s
        graceTimeOut: 10s
      respondingTimeouts:
        readTimeout: 5s # 设置从客户端读取请求头的超时时间,防止慢速发送请求头的攻击。
        writeTimeout: 5s # 设置向客户端写入响应的超时时间。
        idleTimeout: 180s # 空闲连接超时时间,防止攻击者占用空闲连接。
  • 也可以在命令行启动时添加参数
traefik \
  --entryPoints.web.address=":80" \
  --entryPoints.web.transport.respondingTimeouts.readTimeout="10s" \
  --entryPoints.web.transport.respondingTimeouts.writeTimeout="10s" \
  --entryPoints.web.transport.respondingTimeouts.idleTimeout="60s" \
  --entryPoints.websecure.address=":443" \
  --entryPoints.websecure.transport.respondingTimeouts.readTimeout="5s" \
  --entryPoints.websecure.transport.respondingTimeouts.writeTimeout="5s" \
  --entryPoints.websecure.transport.respondingTimeouts.idleTimeout="120s" \
  --entryPoints.websecure.transport.maxIdleConnsPerHost=100

设置 readTimeout 即可。

什么是慢速攻击

对任何一个开放了HTTP访问的服务器HTTP服务器,先建立了一个连接(三次握手),指定一个比较大的content-length,然后以非常低的速度发包,比如1-10s发一个字节,然后维持住这个连接不断开。如果客户端持续建立这样的连接,那么服务器上可用的连接将一点一点被占满,从而导致拒绝服务。对HTTP服务而言,会有几种基本攻击方式:

  • Slow header
  • Slow body
  • Slow read
    我们可以使用httpslowtest工具来测试程序是否存在此漏洞,这个工具目前提供了docker镜像:
docker run --rm shekyan/slowhttptest:latest -c 1000 -H -g -o my_header_stats -i 10 -r 200 -t GET -u <test_url> -p 3

工具的参数如下:

-g 在测试完成后,以时间戳为名生成一个CVS和HTML文件的统计数据
-H SlowLoris模式
-B Slow POST模式
-R Range Header模式
-X Slow Read模式
-c number of connections 测试时建立的连接数
-d HTTP proxy host:port 为所有连接指定代理
-e HTTP proxy host:port 为探测连接指定代理
-i seconds 在slowrois和Slow POST模式中,指定发送数据间的间隔。
-l seconds 测试维持时间 -n seconds 在Slow Read模式下,指定每次操作的时间间隔。
-o file name 使用-g参数时,可以使用此参数指定输出文件名
-p seconds 指定等待时间来确认DoS攻击已经成功
-r connections per second 每秒连接个数
-s bytes 声明Content-Length header的值
-t HTTP verb 在请求时使用什么操作,默认GET
-u URL 指定目标url
-v level 日志等级(详细度)
-w bytes slow read模式中指定tcp窗口范围下限
-x bytes 在slowloris and Slow POST tests模式中,指定发送的最大数据长度
-y bytes slow read模式中指定tcp窗口范围上限
-z bytes 在每次的read()中,从buffer中读取数据量

下载安装包

# https://download.docker.com/linux/static/stable/x86_64/
wget https://download.docker.com/linux/static/stable/x86_64/docker-24.0.6.tgz

安装

# 解压
tar -zxvf docker-24.0.6.tgz
# 将解压之后的docker文件移到 /usr/bin目录下
sudo cp docker/* /usr/bin/
# 将docker注册成系统服务
vim /etc/systemd/system/docker.service
# 给文件增加可执行权限
chmod +x /etc/systemd/system/docker.service
systemctl daemon-reload
# 设置开机自启动
systemctl enable docker.service
systemctl start docker
  • docker.service
[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
After=network-online.target firewalld.service
Wants=network-online.target

[Service]
Type=notify
ExecStart=/usr/bin/dockerd
ExecReload=/bin/kill -s HUP $MAINPID
LimitNOFILE=infinity
LimitNPROC=infinity
TimeoutStartSec=0
Delegate=yes
KillMode=process
Restart=on-failure
StartLimitBurst=3
StartLimitInterval=60s

[Install]
WantedBy=multi-user.target

配置docker

  • /etc/docker/daemon.json
{
"data-root":"/data/docker",
"log-opts": {
    "max-size": "50m",
    "max-file":"1"
  }
}