Kubernetes容器服务运维实战经验分享：从部署到优化的全流程指南涵盖集群搭建应用发布服务发现负载均衡自动扩缩容等核心运维技能

引言

Kubernetes（简称K8s）作为容器编排的事实标准，已经成为了现代云原生应用部署和管理的核心平台。它提供了自动化部署、扩展和管理容器化应用程序的能力，极大地简化了运维工作。然而，Kubernetes的复杂性也给运维人员带来了不小的挑战。本文将分享从Kubernetes集群搭建到应用优化的全流程实战经验，涵盖集群搭建、应用发布、服务发现、负载均衡、自动扩缩容等核心运维技能，帮助读者掌握Kubernetes容器服务的运维要点。

Kubernetes集群搭建

环境准备

在开始搭建Kubernetes集群之前，我们需要准备合适的环境。以下是基于Ubuntu系统的环境准备步骤：

# 更新系统包 sudo apt update && sudo apt upgrade -y # 安装Docker sudo apt install -y docker.io sudo systemctl enable docker sudo systemctl start docker # 配置Docker驱动 sudo mkdir -p /etc/docker cat <<EOF | sudo tee /etc/docker/daemon.json { "exec-opts": ["native.cgroupdriver=systemd"], "log-driver": "json-file", "log-opts": { "max-size": "100m" }, "storage-driver": "overlay2" } EOF sudo systemctl restart docker # 禁用swap sudo swapoff -a sudo sed -i '/ swap / s/^(.*)$/#1/g' /etc/fstab # 安装kubeadm, kubelet和kubectl sudo apt install -y apt-transport-https ca-certificates curl curl -s https://packages.cloud.google.com/apt/doc/apt-key.gpg | sudo apt-key add - echo "deb https://apt.kubernetes.io/ kubernetes-xenial main" | sudo tee /etc/apt/sources.list.d/kubernetes.list sudo apt update sudo apt install -y kubelet kubeadm kubectl sudo apt-mark hold kubelet kubeadm kubectl # 配置内核参数 cat <<EOF | sudo tee /etc/sysctl.d/k8s.conf net.bridge.bridge-nf-call-ip6tables = 1 net.bridge.bridge-nf-call-iptables = 1 net.ipv4.ip_forward = 1 EOF sudo sysctl --system

使用kubeadm部署集群

使用kubeadm部署Kubernetes集群是最简单的方式之一。以下是部署主节点和工作节点的步骤：

主节点部署：

# 初始化主节点 sudo kubeadm init --pod-network-cidr=10.244.0.0/16 # 配置kubectl mkdir -p $HOME/.kube sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config sudo chown $(id -u):$(id -g) $HOME/.kube/config # 安装网络插件（这里使用Flannel） kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml # 允许主节点也运行Pod（可选，适用于单节点测试环境） kubectl taint nodes --all node-role.kubernetes.io/master-

工作节点加入：

# 在主节点上获取加入命令 kubeadm token create --print-join-command # 在工作节点上执行输出的加入命令 # 例如：sudo kubeadm join <master-ip>:<master-port> --token <token> --discovery-token-ca-cert-hash <hash>

验证集群状态

集群部署完成后，我们需要验证集群状态是否正常：

# 查看节点状态 kubectl get nodes # 查看系统组件状态 kubectl get pods -n kube-system # 查看集群信息 kubectl cluster-info

如果所有节点都处于Ready状态，并且系统组件正常运行，那么我们的Kubernetes集群就已经成功搭建了。

应用部署与管理

创建Deployment

Deployment是Kubernetes中最常用的资源对象之一，用于管理Pod和ReplicaSet，提供声明式的更新方式。以下是一个简单的Nginx应用部署示例：

apiVersion: apps/v1 kind: Deployment metadata: name: nginx-deployment labels: app: nginx spec: replicas: 3 selector: matchLabels: app: nginx template: metadata: labels: app: nginx spec: containers: - name: nginx image: nginx:1.21 ports: - containerPort: 80 resources: requests: memory: "64Mi" cpu: "250m" limits: memory: "128Mi" cpu: "500m"

使用以下命令部署应用：

kubectl apply -f nginx-deployment.yaml

使用ConfigMap和Secret管理配置

在实际应用中，我们通常需要管理配置信息和敏感数据。Kubernetes提供了ConfigMap和Secret来实现这一功能。

ConfigMap示例：

apiVersion: v1 kind: ConfigMap metadata: name: nginx-config data: default.conf: | server { listen 80; server_name localhost; location / { root /usr/share/nginx/html; index index.html index.htm; } error_page 500 502 503 504 /50x.html; location = /50x.html { root /usr/share/nginx/html; } }

Secret示例：

apiVersion: v1 kind: Secret metadata: name: mysql-secret type: Opaque data: # echo -n 'admin' | base64 username: YWRtaW4= # echo -n 'password' | base64 password: cGFzc3dvcmQ=

在Pod中使用ConfigMap和Secret：

apiVersion: v1 kind: Pod metadata: name: nginx-pod spec: containers: - name: nginx image: nginx:1.21 volumeMounts: - name: nginx-config-volume mountPath: /etc/nginx/conf.d/ env: - name: DB_USERNAME valueFrom: secretKeyRef: name: mysql-secret key: username - name: DB_PASSWORD valueFrom: secretKeyRef: name: mysql-secret key: password volumes: - name: nginx-config-volume configMap: name: nginx-config

使用PersistentVolume管理存储

对于需要持久化存储的应用，Kubernetes提供了PersistentVolume（PV）和PersistentVolumeClaim（PVC）机制。

PersistentVolume示例：

apiVersion: v1 kind: PersistentVolume metadata: name: nfs-pv spec: capacity: storage: 10Gi volumeMode: Filesystem accessModes: - ReadWriteMany persistentVolumeReclaimPolicy: Retain nfs: path: /data/nfs server: nfs-server.example.com

PersistentVolumeClaim示例：

apiVersion: v1 kind: PersistentVolumeClaim metadata: name: nfs-pvc spec: accessModes: - ReadWriteMany resources: requests: storage: 5Gi

在Pod中使用PVC：

apiVersion: v1 kind: Pod metadata: name: nfs-pod spec: containers: - name: nfs-container image: nginx:1.21 volumeMounts: - name: nfs-storage mountPath: /usr/share/nginx/html volumes: - name: nfs-storage persistentVolumeClaim: claimName: nfs-pvc

服务发现与负载均衡

Service资源的使用

Service是Kubernetes中用于实现服务发现和负载均衡的核心资源对象。以下是几种常见的Service类型：

ClusterIP（默认类型）：

apiVersion: v1 kind: Service metadata: name: nginx-service spec: selector: app: nginx ports: - protocol: TCP port: 80 targetPort: 80 type: ClusterIP

NodePort：

apiVersion: v1 kind: Service metadata: name: nginx-service spec: selector: app: nginx ports: - protocol: TCP port: 80 targetPort: 80 nodePort: 30080 type: NodePort

LoadBalancer：

apiVersion: v1 kind: Service metadata: name: nginx-service spec: selector: app: nginx ports: - protocol: TCP port: 80 targetPort: 80 type: LoadBalancer

Ingress控制器配置

Ingress是管理集群外部访问到集群内部服务的规则集合。以下是使用Nginx Ingress Controller的示例：

安装Nginx Ingress Controller：

kubectl apply -f https://raw.githubusercontent.com/kubernetes/ingress-nginx/controller-v1.1.1/deploy/static/provider/cloud/deploy.yaml

创建Ingress资源：

apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: nginx-ingress annotations: nginx.ingress.kubernetes.io/rewrite-target: / spec: rules: - host: example.com http: paths: - path: / pathType: Prefix backend: service: name: nginx-service port: number: 80

DNS和服务发现

Kubernetes内置了DNS服务，用于服务发现。在集群内部，可以通过服务名称直接访问其他服务：

# 在Pod中访问服务 curl http://nginx-service # 使用完全限定域名访问 curl http://nginx-service.default.svc.cluster.local

对于跨命名空间的服务访问，可以使用以下格式：

curl http://nginx-service.another-namespace.svc.cluster.local

自动扩缩容

HPA (Horizontal Pod Autoscaler)

Horizontal Pod Autoscaler（HPA）可以根据CPU使用率或其他自定义指标自动调整Deployment的副本数量。

创建HPA：

apiVersion: autoscaling/v2beta2 kind: HorizontalPodAutoscaler metadata: name: nginx-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: nginx-deployment minReplicas: 3 maxReplicas: 10 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 50 - type: Resource resource: name: memory target: type: Utilization averageUtilization: 70

或者使用命令行创建：

kubectl autoscale deployment nginx-deployment --cpu-percent=50 --min=3 --max=10

VPA (Vertical Pod Autoscaler)

Vertical Pod Autoscaler（VPA）可以自动调整Pod的资源请求和限制。首先需要安装VPA：

git clone https://github.com/kubernetes/autoscaler.git cd autoscaler/vertical-pod-autoscaler/ ./hack/vpa-up.sh

创建VPA：

apiVersion: autoscaling.k8s.io/v1 kind: VerticalPodAutoscaler metadata: name: nginx-vpa spec: targetRef: apiVersion: "apps/v1" kind: "Deployment" name: "nginx-deployment" updatePolicy: updateMode: "Auto" resourcePolicy: containerPolicies: - containerName: "nginx" minAllowed: cpu: "250m" memory: "100Mi" maxAllowed: cpu: "2000m" memory: "2048Mi"

Cluster Autoscaler

Cluster Autoscaler可以根据集群中资源的使用情况自动调整节点数量。安装Cluster Autoscaler的方法因云提供商而异，以下是在AWS上的安装示例：

# 下载Cluster Autoscaler清单文件 wget https://raw.githubusercontent.com/kubernetes/autoscaler/master/cluster-autoscaler/cloudprovider/aws/examples/cluster-autoscaler-autodiscover.yaml # 编辑配置文件，将<YOUR CLUSTER NAME>替换为你的集群名称 sed -i 's/<YOUR CLUSTER NAME>/my-cluster/g' cluster-autoscaler-autodiscover.yaml # 应用配置 kubectl apply -f cluster-autoscaler-autodiscover.yaml

监控与日志

使用Prometheus和Grafana监控

Prometheus是一个开源的监控和告警系统，特别适合于Kubernetes环境。Grafana则是一个可视化工具，可以与Prometheus集成。

安装Prometheus Operator：

kubectl create namespace monitoring helm repo add prometheus-community https://prometheus-community.github.io/helm-charts helm repo update helm install prometheus prometheus-community/kube-prometheus-stack -n monitoring

创建自定义监控规则：

apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: nginx-rules namespace: monitoring labels: app: prometheus-operator spec: groups: - name: nginx rules: - alert: NginxDown expr: up{job="nginx"} == 0 for: 5m labels: severity: critical annotations: summary: "Nginx实例不可用 (实例 {{ $labels.instance }})" description: "Nginx实例 {{ $labels.instance }} 已停机超过5分钟。"

配置Grafana仪表板：

可以通过Grafana UI导入预定义的仪表板，或者创建自定义仪表板。以下是一个简单的Grafana仪表板配置示例：

{ "dashboard": { "id": null, "title": "Nginx监控", "tags": ["nginx"], "timezone": "browser", "panels": [ { "id": 1, "title": "CPU使用率", "type": "graph", "targets": [ { "expr": "rate(container_cpu_usage_seconds_total{container="nginx"}[5m])", "legendFormat": "{{pod}}" } ], "yaxes": [ { "format": "short" } ] } ], "time": { "from": "now-1h", "to": "now" }, "refresh": "5m" } }

日志收集与分析

在Kubernetes环境中，可以使用EFK（Elasticsearch、Fluentd、Kibana）或PLG（Promtail、Loki、Grafana）等日志收集方案。

安装Loki和Promtail：

helm repo add grafana https://grafana.github.io/helm-charts helm repo update helm install loki grafana/loki-stack -n monitoring

配置日志收集规则：

apiVersion: v1 kind: ConfigMap metadata: name: promtail-config namespace: monitoring data: promtail.yaml: | client: url: http://loki:3100/loki/api/v1/push positions: filename: /tmp/positions.yaml scrape_configs: - job_name: kubernetes-pods kubernetes_sd_configs: - role: pod pipeline_stages: - docker: {} relabel_configs: - source_labels: - __meta_kubernetes_pod_label_name target_label: __service__ - source_labels: - __meta_kubernetes_pod_node_name target_label: __host__

故障排查与优化

常见问题及解决方案

Pod处于Pending状态：

可能原因：资源不足、节点不可用、镜像拉取失败等。

排查方法：

# 查看Pod详细信息 kubectl describe pod <pod-name> # 查看事件 kubectl get events --sort-by='.metadata.creationTimestamp'

解决方案：

# 检查节点资源 kubectl describe nodes # 检查镜像是否存在 kubectl describe pod <pod-name> | grep Image # 如果是资源不足问题，可以增加节点或调整资源请求

Pod处于CrashLoopBackOff状态：

可能原因：应用程序错误、配置问题、资源限制等。

排查方法：

# 查看Pod日志 kubectl logs <pod-name> kubectl logs <pod-name> --previous # 查看Pod详细信息 kubectl describe pod <pod-name>

解决方案：

# 检查应用程序日志，修复错误 # 调整资源限制 # 检查配置文件是否正确

服务无法访问：

可能原因：网络策略、服务配置错误、端点问题等。

排查方法：

# 检查服务配置 kubectl get svc <service-name> kubectl describe svc <service-name> # 检查端点 kubectl get endpoints <service-name> # 检查网络策略 kubectl get networkpolicy

解决方案：

# 确保选择器正确匹配Pod标签 # 检查目标端口是否正确 # 检查网络策略是否阻止了流量

性能优化策略

资源优化：

apiVersion: apps/v1 kind: Deployment metadata: name: optimized-nginx spec: template: spec: containers: - name: nginx image: nginx:1.21-alpine # 使用更小的镜像 resources: requests: memory: "32Mi" # 适当的资源请求 cpu: "100m" limits: memory: "64Mi" # 适当的资源限制 cpu: "200m" env: - name: GOMAXPROCS # 优化Go应用 valueFrom: resourceFieldRef: resource: limits.cpu divisor: 1 livenessProbe: # 健康检查 httpGet: path: / port: 80 initialDelaySeconds: 30 periodSeconds: 10 readinessProbe: httpGet: path: / port: 80 initialDelaySeconds: 5 periodSeconds: 5

网络优化：

apiVersion: v1 kind: Pod metadata: name: network-optimized-pod annotations: k8s.v1.cni.cncf.io/networks: macvlan-conf # 使用更高效的网络插件 spec: containers: - name: app image: myapp:latest resources: limits: kubernetes.io/egress-bandwidth: 10M # 限制带宽 kubernetes.io/ingress-bandwidth: 10M

存储优化：

apiVersion: v1 kind: PersistentVolumeClaim metadata: name: optimized-pvc spec: accessModes: - ReadWriteOnce storageClassName: fast-ssd # 使用更快的存储类 resources: requests: storage: 10Gi

最佳实践与安全考虑

安全配置

使用RBAC控制访问：

apiVersion: v1 kind: ServiceAccount metadata: name: nginx-sa --- apiVersion: rbac.authorization.k8s.io/v1 kind: Role metadata: name: nginx-role rules: - apiGroups: [""] resources: ["pods", "services"] verbs: ["get", "list", "watch"] --- apiVersion: rbac.authorization.k8s.io/v1 kind: RoleBinding metadata: name: nginx-rolebinding subjects: - kind: ServiceAccount name: nginx-sa roleRef: kind: Role name: nginx-role apiGroup: rbac.authorization.k8s.io

使用Pod安全策略：

apiVersion: policy/v1beta1 kind: PodSecurityPolicy metadata: name: restricted-psp spec: privileged: false allowPrivilegeEscalation: false requiredDropCapabilities: - ALL volumes: - 'configMap' - 'emptyDir' - 'projected' - 'secret' - 'downwardAPI' - 'persistentVolumeClaim' runAsUser: rule: 'MustRunAsNonRoot' seLinux: rule: 'RunAsAny' fsGroup: rule: 'RunAsAny'

使用网络策略：

apiVersion: networking.k8s.io/v1 kind: NetworkPolicy metadata: name: app-network-policy spec: podSelector: matchLabels: app: nginx policyTypes: - Ingress - Egress ingress: - from: - namespaceSelector: matchLabels: name: default - podSelector: matchLabels: app: frontend ports: - protocol: TCP port: 80 egress: - to: - namespaceSelector: matchLabels: name: default ports: - protocol: TCP port: 3306

资源管理最佳实践

使用资源配额：

apiVersion: v1 kind: ResourceQuota metadata: name: namespace-quota spec: hard: requests.cpu: "4" requests.memory: 8Gi limits.cpu: "8" limits.memory: 16Gi pods: "10" persistentvolumeclaims: "5"

使用LimitRange：

apiVersion: v1 kind: LimitRange metadata: name: default-limits spec: limits: - default: memory: 512Mi cpu: "1" defaultRequest: memory: 256Mi cpu: "0.5" type: Container

使用命名空间隔离环境：

# 创建开发环境命名空间 kubectl create namespace dev # 创建测试环境命名空间 kubectl create namespace test # 创建生产环境命名空间 kubectl create namespace prod # 为每个命名空间设置资源配额 kubectl apply -f dev-quota.yaml -n dev kubectl apply -f test-quota.yaml -n test kubectl apply -f prod-quota.yaml -n prod