下载最新的otel-windows-amd64.exe,改名
otel.exe
放到$GOPATH/bin
目录下$GOPATH/bin
需要加入到系统环境变量。参考demo 使用
otel
工具编译出可执行文件.
OTEL_EXPORTER_OTLP_ENDPOINT="http://172.16.20.91:12394" GOOS=linux GOARCH=amd64 otel go build
下载最新的otel-windows-amd64.exe,改名otel.exe
放到$GOPATH/bin
目录下
$GOPATH/bin
需要加入到系统环境变量。
参考demo 使用otel
工具编译出可执行文件.
OTEL_EXPORTER_OTLP_ENDPOINT="http://172.16.20.91:12394" GOOS=linux GOARCH=amd64 otel go build
下载一个opentelemetry-javaagent.jar
挂载到容器目录下,如/root/trace
容器启动时添加环境变量
JAVA_TOOL_OPTIONS
: -javaagent:/root/trace/opentelemetry-javaagent.jar
OTEL_EXPORTER_JAEGER_ENDPOINT
: http://opentelemetry-collector.loki:14250
OTEL_SERVICE_NAME
: 自定义服务名
OTEL_TRACES_EXPORTER
: jaeger
OTEL_METRICS_EXPORTER
: none
如果是离线安装的docker,可以自己准备一份containerd.service用于管理containerd启停。
# 生成或检查默认配置文件
containerd config default > /etc/containerd/config.toml
# 创建服务文件
sudo vim /etc/systemd/system/containerd.service
[Unit]
Description=containerd container runtime
Documentation=https://containerd.io
After=network.target local-fs.target
[Service]
ExecStartPre=-/sbin/modprobe overlay
ExecStart=/usr/bin/containerd
Type=notify
Delegate=yes
KillMode=process
Restart=always
RestartSec=5
# Having non-zero Limit*s causes performance problems due to accounting overhead
# in the kernel. We recommend using cgroups to do container-local accounting.
LimitNPROC=infinity
LimitCORE=infinity
LimitNOFILE=1048576
# Comment TasksMax if your systemd version does not supports it.
# Only systemd 226 and above support this version.
TasksMax=infinity
OOMScoreAdjust=-999
[Install]
WantedBy=multi-user.target
# 重新加载 Systemd 配置
sudo systemctl daemon-reload
# 启动 containerd
sudo systemctl start containerd
# 设置为开机自启动:
sudo systemctl enable containerd
containerd自带的ctl命令与docker命令不一样,使用不习惯的用户可以考虑安装nerdctl
。这个工具命令风格和docker一致。
# 下载最新版本
wget https://github.com/containerd/nerdctl/releases/download/v2.0.1/nerdctl-2.0.1-linux-amd64.tar.gz
# 安装
sudo tar -C /usr/local/bin -xzf nerdctl-2.0.1-linux-amd64.tar.gz
# 测试
nerdctl version
下载页下载最新版本
wget https://github.com/containernetworking/plugins/releases/download/v1.6.1/cni-plugins-linux-amd64-v1.6.1.tgz
# 解压到 /opt/cni/bin 目录
sudo mkdir -p /opt/cni/bin
sudo tar -xzf cni-plugins-linux-amd64-v1.6.1.tgz -C /opt/cni/bin
# 验证插件是否安装成功
ls /opt/cni/bin
检查containerd配置,确保CNI配置正确
[plugins."io.containerd.grpc.v1.cri".cni]
bin_dir = "/opt/cni/bin"
conf_dir = "/etc/cni/net.d"
然后重启sudo systemctl restart containerd
.
使用nerdctl network create bridge
创建一个新的默认 bridge 网络.
# 检查网络是否创建成功
nerdctl network ls
k8s集群中有一台机器重启了,重启后在这台节点ping其他机器的pod ip
都不通。
抓ping的包可以看到只有request
的,正常情况是有reply
的。
tcpdump -i flannel.1 icmp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on flannel.1, link-type EN10MB (Ethernet), capture size 262144 bytes
22:28:45.852513 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 48, length 64
22:28:46.872698 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 49, length 64
22:28:47.896618 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 12, seq 50, length 64
22:28:49.851093 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 13, seq 1, length 64
22:28:50.872665 IP 10.233.65.0 > 10.233.64.0: ICMP echo request, id 13, seq 2, length 64
NC命令测试,问题节点启动UDP监听
# 启动udp监听
nc -u -l -p 12345
# 抓包
tcpdump -i flannel.1 port 12345
正常节点发送udp报文
echo "test"| nc -u 10.233.64.0 12345
此时后台抓包可以看到有报文过来,但是nc控制台无任何显示。
网上搜很多是云平台安全组策略问题,这可能是一种情况,但是我这里安全组策略都是开通的。
学习下Flannel网络模式之VXLAN
文中提到每个节点都会保存Routing Table
、ARP Table
和FDB Table
,然后我在所有节点上都查询了这些表,
# 查询route
route -n
# 查询ARP
ip neigh | grep flannel
# 查询 FDB
bridge fdb show | grep flannel.1
发现别的节点 ARP 表和 FDB 表保存的重启节点的 Flannel.1
网卡的 MAC
地址不对。更新MAC地址:
# 删除FDB命令:bridge fdb del <MAC地址> dev <接口> dst <目标IP>
bridge fdb del 46:83:71:f7:d7:69 dev flannel.1 dst 10.201.112.29
# 新增:bridge fdb add <MAC地址> dev <接口> dst <目标IP>
bridge fdb add 46:83:71:f7:d7:69 dev flannel.1 dst 10.201.112.29
# 删除ARP
ip neigh del 10.233.64.0 dev flannel.1
# 新增
ip neigh add 10.233.64.0 lladdr f2:b5:5e:29:23:55 dev flannel.1 nud permanent
# 注意:删除ARP后可能会自动添加一个,导致新增失败,RTNETLINK answers: File exists,可以将删除和新增放同一个命令执行。
ip neigh del 10.233.64.0 dev flannel.1 && ip neigh add 10.233.64.0 lladdr 0a:9c:93:d8:1c:bd dev flannel.1 nud permanent
然后测试ping别的机器POD IP,问题解决。
apiVersion: traefik.containo.us/v1alpha1
kind: Middleware
metadata:
name: rate-limit
spec:
rateLimit:
average: 50 # 每秒允许的平均请求数
burst: 100 # 最大突发请求数
然后将这个 Middleware
应用到你的 IngressRoute
中:
apiVersion: traefik.containo.us/v1alpha1
kind: IngressRoute
metadata:
name: example
namespace: default
spec:
entryPoints:
- web
routes:
- match: Host(`example.com`)
kind: Rule
middlewares:
- name: rate-limit
services:
- name: example-service
port: 80
EntryPoints
配置entryPoints:
web:
address: ":80"
transport:
lifeCycle:
requestAcceptGraceTimeout: 0s
graceTimeOut: 10s
respondingTimeouts:
readTimeout: 5s # 设置从客户端读取请求头的超时时间,防止慢速发送请求头的攻击。
writeTimeout: 5s # 设置向客户端写入响应的超时时间。
idleTimeout: 180s # 空闲连接超时时间,防止攻击者占用空闲连接。
websecure:
address: ":443"
transport:
lifeCycle:
requestAcceptGraceTimeout: 0s
graceTimeOut: 10s
respondingTimeouts:
readTimeout: 5s # 设置从客户端读取请求头的超时时间,防止慢速发送请求头的攻击。
writeTimeout: 5s # 设置向客户端写入响应的超时时间。
idleTimeout: 180s # 空闲连接超时时间,防止攻击者占用空闲连接。
traefik \
--entryPoints.web.address=":80" \
--entryPoints.web.transport.respondingTimeouts.readTimeout="10s" \
--entryPoints.web.transport.respondingTimeouts.writeTimeout="10s" \
--entryPoints.web.transport.respondingTimeouts.idleTimeout="60s" \
--entryPoints.websecure.address=":443" \
--entryPoints.websecure.transport.respondingTimeouts.readTimeout="5s" \
--entryPoints.websecure.transport.respondingTimeouts.writeTimeout="5s" \
--entryPoints.websecure.transport.respondingTimeouts.idleTimeout="120s" \
--entryPoints.websecure.transport.maxIdleConnsPerHost=100
设置
readTimeout
即可。
对任何一个开放了HTTP访问的服务器HTTP服务器,先建立了一个连接(三次握手),指定一个比较大的content-length,然后以非常低的速度发包,比如1-10s发一个字节,然后维持住这个连接不断开。如果客户端持续建立这样的连接,那么服务器上可用的连接将一点一点被占满,从而导致拒绝服务。对HTTP服务而言,会有几种基本攻击方式:
docker run --rm shekyan/slowhttptest:latest -c 1000 -H -g -o my_header_stats -i 10 -r 200 -t GET -u <test_url> -p 3
工具的参数如下:
-g 在测试完成后,以时间戳为名生成一个CVS和HTML文件的统计数据
-H SlowLoris模式
-B Slow POST模式
-R Range Header模式
-X Slow Read模式
-c number of connections 测试时建立的连接数
-d HTTP proxy host:port 为所有连接指定代理
-e HTTP proxy host:port 为探测连接指定代理
-i seconds 在slowrois和Slow POST模式中,指定发送数据间的间隔。
-l seconds 测试维持时间 -n seconds 在Slow Read模式下,指定每次操作的时间间隔。
-o file name 使用-g参数时,可以使用此参数指定输出文件名
-p seconds 指定等待时间来确认DoS攻击已经成功
-r connections per second 每秒连接个数
-s bytes 声明Content-Length header的值
-t HTTP verb 在请求时使用什么操作,默认GET
-u URL 指定目标url
-v level 日志等级(详细度)
-w bytes slow read模式中指定tcp窗口范围下限
-x bytes 在slowloris and Slow POST tests模式中,指定发送的最大数据长度
-y bytes slow read模式中指定tcp窗口范围上限
-z bytes 在每次的read()中,从buffer中读取数据量
# https://download.docker.com/linux/static/stable/x86_64/
wget https://download.docker.com/linux/static/stable/x86_64/docker-24.0.6.tgz
# 解压
tar -zxvf docker-24.0.6.tgz
# 将解压之后的docker文件移到 /usr/bin目录下
sudo cp docker/* /usr/bin/
# 将docker注册成系统服务
vim /etc/systemd/system/docker.service
# 给文件增加可执行权限
chmod +x /etc/systemd/system/docker.service
systemctl daemon-reload
# 设置开机自启动
systemctl enable docker.service
systemctl start docker
docker.service
[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
After=network-online.target firewalld.service
Wants=network-online.target
[Service]
Type=notify
ExecStart=/usr/bin/dockerd
ExecReload=/bin/kill -s HUP $MAINPID
LimitNOFILE=infinity
LimitNPROC=infinity
TimeoutStartSec=0
Delegate=yes
KillMode=process
Restart=on-failure
StartLimitBurst=3
StartLimitInterval=60s
[Install]
WantedBy=multi-user.target
/etc/docker/daemon.json
{
"data-root":"/data/docker",
"log-opts": {
"max-size": "50m",
"max-file":"1"
}
}