0%

问题现象

k8s集群中有一台机器重启了,重启后在这台节点ping其他机器的pod ip都不通。

抓ping的包可以看到只有request的,正常情况是有reply的。

tcpdump -i flannel.1 icmp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on flannel.1, link-type EN10MB (Ethernet), capture size 262144 bytes
22:28:45.852513 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 48, length 64
22:28:46.872698 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 49, length 64
22:28:47.896618 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 50, length 64
22:28:49.851093 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 13, seq 1, length 64
22:28:50.872665 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 13, seq 2, length 64

NC命令测试,问题节点启动UDP监听

# 启动udp监听
nc -u -l -p 12345 
# 抓包
tcpdump -i flannel.1 port 12345

正常节点发送udp报文

echo "test"| nc -u 10.233.64.0  12345

此时后台抓包可以看到有报文过来,但是nc控制台无任何显示。

问题解决

  1. 网上搜很多是云平台安全组策略问题,这可能是一种情况,但是我这里安全组策略都是开通的。

  2. 学习下Flannel网络模式之VXLAN
    文中提到每个节点都会保存Routing TableARP TableFDB Table,然后我在所有节点上都查询了这些表,

# 查询route
route -n

# 查询ARP
ip neigh | grep flannel

# 查询 FDB
bridge fdb show | grep flannel.1

发现别的节点 ARP 表和 FDB 表保存的重启节点的 Flannel.1 网卡的 MAC 地址不对。更新MAC地址:

# 删除FDB命令:bridge fdb del <MAC地址> dev <接口> dst <目标IP>
bridge fdb del 46:83:71:f7:d7:69 dev flannel.1 dst 10.201.112.29
# 新增:bridge fdb add <MAC地址> dev <接口> dst <目标IP>
bridge fdb add 46:83:71:f7:d7:69 dev flannel.1 dst 10.201.112.29

# 删除ARP
ip neigh del 10.233.64.0 dev flannel.1
# 新增
ip neigh add 10.233.64.0 lladdr f2:b5:5e:29:23:55 dev flannel.1 nud permanent
# 注意:删除ARP后可能会自动添加一个,导致新增失败,RTNETLINK answers: File exists,可以将删除和新增放同一个命令执行。
ip neigh del 10.233.64.0 dev flannel.1 && ip neigh add 10.233.64.0 lladdr 0a:9c:93:d8:1c:bd dev flannel.1 nud permanent

然后测试ping别的机器POD IP,问题解决。

配置客户端最大连接数

apiVersion: traefik.containo.us/v1alpha1
kind: Middleware
metadata:
  name: rate-limit
spec:
  rateLimit:
    average: 50  # 每秒允许的平均请求数
    burst: 100   # 最大突发请求数

然后将这个 Middleware 应用到你的 IngressRoute 中:

apiVersion: traefik.containo.us/v1alpha1
kind: IngressRoute
metadata:
  name: example
  namespace: default
spec:
  entryPoints:
    - web
  routes:
    - match: Host(`example.com`)
      kind: Rule
      middlewares:
        - name: rate-limit
      services:
        - name: example-service
          port: 80

配置读超时时间

  • EntryPoints 配置
entryPoints:
  web:
    address: ":80"
    transport:
      lifeCycle:
        requestAcceptGraceTimeout: 0s
        graceTimeOut: 10s
      respondingTimeouts:
        readTimeout: 5s # 设置从客户端读取请求头的超时时间,防止慢速发送请求头的攻击。
        writeTimeout: 5s # 设置向客户端写入响应的超时时间。
        idleTimeout: 180s # 空闲连接超时时间,防止攻击者占用空闲连接。
  websecure:
    address: ":443"
    transport:
      lifeCycle:
        requestAcceptGraceTimeout: 0s
        graceTimeOut: 10s
      respondingTimeouts:
        readTimeout: 5s # 设置从客户端读取请求头的超时时间,防止慢速发送请求头的攻击。
        writeTimeout: 5s # 设置向客户端写入响应的超时时间。
        idleTimeout: 180s # 空闲连接超时时间,防止攻击者占用空闲连接。
  • 也可以在命令行启动时添加参数
traefik \
  --entryPoints.web.address=":80" \
  --entryPoints.web.transport.respondingTimeouts.readTimeout="10s" \
  --entryPoints.web.transport.respondingTimeouts.writeTimeout="10s" \
  --entryPoints.web.transport.respondingTimeouts.idleTimeout="60s" \
  --entryPoints.websecure.address=":443" \
  --entryPoints.websecure.transport.respondingTimeouts.readTimeout="5s" \
  --entryPoints.websecure.transport.respondingTimeouts.writeTimeout="5s" \
  --entryPoints.websecure.transport.respondingTimeouts.idleTimeout="120s" \
  --entryPoints.websecure.transport.maxIdleConnsPerHost=100

设置 readTimeout 即可。

什么是慢速攻击

对任何一个开放了HTTP访问的服务器HTTP服务器,先建立了一个连接(三次握手),指定一个比较大的content-length,然后以非常低的速度发包,比如1-10s发一个字节,然后维持住这个连接不断开。如果客户端持续建立这样的连接,那么服务器上可用的连接将一点一点被占满,从而导致拒绝服务。对HTTP服务而言,会有几种基本攻击方式:

  • Slow header
  • Slow body
  • Slow read
    我们可以使用httpslowtest工具来测试程序是否存在此漏洞,这个工具目前提供了docker镜像:
docker run --rm shekyan/slowhttptest:latest -c 1000 -H -g -o my_header_stats -i 10 -r 200 -t GET -u <test_url> -p 3

工具的参数如下:

-g 在测试完成后,以时间戳为名生成一个CVS和HTML文件的统计数据
-H SlowLoris模式
-B Slow POST模式
-R Range Header模式
-X Slow Read模式
-c number of connections 测试时建立的连接数
-d HTTP proxy host:port 为所有连接指定代理
-e HTTP proxy host:port 为探测连接指定代理
-i seconds 在slowrois和Slow POST模式中,指定发送数据间的间隔。
-l seconds 测试维持时间 -n seconds 在Slow Read模式下,指定每次操作的时间间隔。
-o file name 使用-g参数时,可以使用此参数指定输出文件名
-p seconds 指定等待时间来确认DoS攻击已经成功
-r connections per second 每秒连接个数
-s bytes 声明Content-Length header的值
-t HTTP verb 在请求时使用什么操作,默认GET
-u URL 指定目标url
-v level 日志等级(详细度)
-w bytes slow read模式中指定tcp窗口范围下限
-x bytes 在slowloris and Slow POST tests模式中,指定发送的最大数据长度
-y bytes slow read模式中指定tcp窗口范围上限
-z bytes 在每次的read()中,从buffer中读取数据量

下载安装包

# https://download.docker.com/linux/static/stable/x86_64/
wget https://download.docker.com/linux/static/stable/x86_64/docker-24.0.6.tgz

安装

# 解压
tar -zxvf docker-24.0.6.tgz
# 将解压之后的docker文件移到 /usr/bin目录下
sudo cp docker/* /usr/bin/
# 将docker注册成系统服务
vim /etc/systemd/system/docker.service
# 给文件增加可执行权限
chmod +x /etc/systemd/system/docker.service
systemctl daemon-reload
# 设置开机自启动
systemctl enable docker.service
systemctl start docker
  • docker.service
[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
After=network-online.target firewalld.service
Wants=network-online.target

[Service]
Type=notify
ExecStart=/usr/bin/dockerd
ExecReload=/bin/kill -s HUP $MAINPID
LimitNOFILE=infinity
LimitNPROC=infinity
TimeoutStartSec=0
Delegate=yes
KillMode=process
Restart=on-failure
StartLimitBurst=3
StartLimitInterval=60s

[Install]
WantedBy=multi-user.target

配置docker

  • /etc/docker/daemon.json
{
"data-root":"/data/docker",
"log-opts": {
    "max-size": "50m",
    "max-file":"1"
  }
}

本地安装

对于CentOS上的安装软件,可以去一个强大的网站:https://centos.pkgs.org 搜索到想要安装的 .rpm

yum localinstall xxxx.rpm

epel源

yum install epel-release
yum clean all
yum makecache
yum update

服务端

在配置文件加入3行参数:

script-security 3   #允许使用自定义脚本
auth-user-pass-verify /etc/openvpn/check.sh via-env
username-as-common-name #用户密码登陆方式验证
  • check.sh
#!/bin/bash

# 从环境变量中获取用户名和密码
username="$username"
password="$password"

# 验证用户名和密码
if [[ "$username" == "valid_user" && "$password" == "valid_pass" ]]; then
    exit 0  # 验证成功
else
    exit 1  # 验证失败
fi

修改配置后重启生效.

客户端

在末尾添加参数

auth-user-pass

process-exporter

process-export主要用来做进程监控,比如某个服务的进程数、消耗了多少CPU、内存等资源。

启动

# 在当前目录下创建filename.yml,例如采集mysql的内存
process_names:
  - name: "{{.Matches}}"
    cmdline:
    - 'mysqld'
# 本文采用docker启动
docker run -d --name process-exporter -p 9256:9256 --privileged -v /proc:/host/proc -v `pwd`:/config ncabatoff/process-exporter --procfs /host/proc -config.path /config/filename.yml