CentOS Stream系统调试实用技巧全分享从基础排查到高级问题解决助你轻松应对各类系统故障

引言

CentOS Stream是Red Hat Enterprise Linux (RHEL)的上游开发版本，它提供了一个稳定的平台，让用户可以在RHEL正式发布之前体验和测试新功能。作为系统管理员或开发人员，掌握CentOS Stream的系统调试技巧对于维护系统稳定性和快速解决问题至关重要。

系统调试是识别、诊断和解决计算机系统问题的过程。在CentOS Stream环境中，有效的调试可以大大减少系统停机时间，提高工作效率。本文将全面介绍从基础排查到高级问题解决的调试技巧，帮助读者轻松应对各类系统故障。

基础排查技巧

系统日志分析

系统日志是排查问题的首要资源。CentOS Stream使用journalctl命令来管理系统日志，它是systemd日志系统的一部分。

# 查看所有系统日志 journalctl # 查看从当前启动的日志 journalctl -b # 查看特定服务的日志 journalctl -u nginx.service # 查看特定时间范围的日志 journalctl --since "2023-05-01" --until "2023-05-02" # 实时跟踪日志 journalctl -f # 查看内核消息 journalctl -k # 将日志导出到文件 journalctl > my_system_logs.txt

除了journalctl，传统的日志文件仍然存在于/var/log目录中：

# 查看系统消息日志 cat /var/log/messages # 查看安全日志 cat /var/log/secure # 查看cron任务日志 cat /var/log/cron # 查看引导日志 cat /var/log/dmesg

基本命令行工具使用

掌握基本的命令行工具是系统调试的基础：

# 查看系统信息 uname -a hostnamectl # 查看当前运行的进程 ps aux ps -ef top htop # 查看文件系统使用情况 df -h du -sh /path/to/directory # 查看内存使用情况 free -h cat /proc/meminfo # 查看CPU信息 lscpu cat /proc/cpuinfo # 查看网络连接 netstat -tuln ss -tuln ip addr show

系统资源监控

持续监控系统资源可以帮助及早发现潜在问题：

# 实时监控进程活动 top htop # 监控I/O统计 iostat -xz 2 # 监控内存使用情况 vmstat 2 # 监控网络统计 sar -n DEV 2 # 监控整体系统活动 sar 2

网络连接问题排查

网络问题是常见的系统故障之一，以下是一些排查网络问题的基本命令：

# 测试网络连通性 ping google.com ping 8.8.8.8 # 跟踪网络路径 traceroute google.com tracepath google.com # 查询DNS记录 nslookup google.com dig google.com # 检查端口是否开放 telnet example.com 80 nc -zv example.com 80 # 查看网络连接状态 netstat -an ss -an # 查看路由表 ip route show route -n # 查看ARP表 ip neigh show arp -n # 抓取网络包 tcpdump -i eth0 -c 10

中级调试方法

服务管理调试

CentOS Stream使用systemd作为系统和服务管理器。以下是一些调试服务的有用命令：

# 查看服务状态 systemctl status nginx.service # 启动、停止、重启服务 systemctl start nginx.service systemctl stop nginx.service systemctl restart nginx.service # 启用/禁用服务自启动 systemctl enable nginx.service systemctl disable nginx.service # 查看服务依赖关系 systemctl list-dependencies nginx.service # 查看服务日志 journalctl -u nginx.service # 检查服务配置文件是否有语法错误 nginx -t httpd -t # 重新加载服务配置 systemctl reload nginx.service # 重置失败状态 systemctl reset-failed nginx.service # 查看所有服务状态 systemctl list-units --type=service --state=failed

性能瓶颈分析

当系统性能下降时，找出瓶颈是关键：

# 查看CPU使用率高的进程 top -o %CPU ps aux --sort=-%CPU | head # 查看内存使用率高的进程 top -o %MEM ps aux --sort=-%MEM | head # 查看I/O使用率高的进程 iotop # 查看进程打开的文件 lsof -p PID lsof /path/to/file # 查看系统调用活动 strace -p PID # 查看进程的内存映射 cat /proc/PID/maps pmap -x PID # 查看磁盘I/O统计 iostat -dx 2 # 查看进程I/O统计 pidstat -d 2 # 查看网络连接统计 netstat -s ss -s # 查看进程上下文切换 pidstat -w 2

内核参数调优

调整内核参数可以优化系统性能：

# 查看当前内核参数 sysctl -a # 查看特定参数 sysctl net.ipv4.tcp_keepalive_time # 临时修改内核参数 sysctl -w net.ipv4.tcp_keepalive_time=60 # 永久修改内核参数（添加到配置文件） echo "net.ipv4.tcp_keepalive_time = 60" >> /etc/sysctl.conf sysctl -p # 查看内核限制 ulimit -a # 修改文件描述符限制 echo "* soft nofile 65536" >> /etc/security/limits.conf echo "* hard nofile 65536" >> /etc/security/limits.conf # 查看系统控制组配置 systemctl-cgtop cat /proc/cgroups # 查看内核模块 lsmod modinfo module_name # 加载/卸载内核模块 modprobe module_name rmmod module_name

文件系统问题排查

文件系统问题可能导致系统不稳定或数据丢失：

# 检查文件系统错误 fsck /dev/sda1 # 查看磁盘分区信息 fdisk -l lsblk parted -l # 查看文件系统使用情况 df -h du -sh /path/to/directory # 查找大文件 find / -type f -size +100M -exec ls -lh {} ; # 查找已删除但仍被占用的文件 lsof | grep deleted # 检查磁盘I/O性能 hdparm -Tt /dev/sda dd if=/dev/zero of=/tmp/test bs=1G count=1 oflag=direct # 查看文件系统挂载选项 mount cat /proc/mounts # 查看iNode使用情况 df -i # 查看文件系统类型 blkid /dev/sda1 file -s /dev/sda1 # 查看LVM信息 pvdisplay vgdisplay lvdisplay

高级问题解决

内核崩溃分析

当系统发生内核崩溃（Kernel Panic）时，分析崩溃转储可以帮助找出问题原因：

# 安装kexec-tools和crash工具 yum install kexec-tools crash dnf install kexec-tools crash # 配置kdump systemctl enable kdump.service systemctl start kdump.service # 验证kdump配置 cat /proc/cmdline | grep crashkernel cat /etc/kdump.conf # 手动触发系统崩溃（仅用于测试） echo c > /proc/sysrq-trigger # 分析崩溃转储 crash /usr/lib/debug/lib/modules/$(uname -r)/vmlinux /var/crash/127.0.0.1-<timestamp>/vmcore # 在crash工具中常用命令 crash> sys crash> bt crash> log crash> ps crash> files crash> net crash> kmem -i

系统调用跟踪

跟踪系统调用可以帮助理解程序行为和发现问题：

# 跟踪进程的系统调用 strace -p PID # 跟踪新进程的系统调用 strace -f -o strace.log ./myprogram # 统计系统调用 strace -c ./myprogram # 跟踪特定系统调用 strace -e open,read,write ./myprogram # 跟踪信号 strace -e signal=SIGSEGV ./myprogram # 显示时间戳 strace -t ./myprogram # 使用perf工具跟踪系统调用 perf trace ./myprogram # 跟踪内核函数 perf record -g ./myprogram perf report

内存泄漏检测

内存泄漏可能导致系统性能下降甚至崩溃：

# 查看系统内存使用情况 free -h cat /proc/meminfo # 查看进程内存使用情况 ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem top -o %MEM # 查看进程内存映射 cat /proc/PID/maps pmap -x PID # 使用valgrind检测内存泄漏 yum install valgrind dnf install valgrind valgrind --leak-check=full ./myprogram # 使用gdb分析进程内存 gdb -p PID (gdb) info proc mappings (gdb) dump memory memory.dump 0x400000 0x500000 # 使用slabtop查看内核内存使用 slabtop # 查看页面错误统计 ps -o minflt,majflt,cmd -p PID

复杂网络问题诊断

复杂的网络问题可能需要深入分析：

# 使用tcpdump抓包 tcpdump -i eth0 -w capture.pcap tcpdump -i eth0 -n 'tcp port 80' # 使用wireshark分析抓包文件 yum install wireshark dnf install wireshark wireshark capture.pcap # 使用netcat测试网络连接 nc -zv host port nc -l -p 1234 nc host 1234 # 使用nmap扫描网络 yum install nmap dnf install nmap nmap -sS -O target_ip nmap -sV target_ip # 使用mtr诊断网络路径 yum install mtr dnf install mtr mtr google.com # 使用iftop监控网络流量 yum install iftop dnf install iftop iftop -i eth0 # 使用nethogs监控进程网络使用 yum install nethogs dnf install nethogs nethogs eth0 # 使用ss查看套接字统计 ss -s ss -tuln ss -tp # 查看网络队列 tc qdisc show dev eth0 # 查看网络统计 cat /proc/net/dev netstat -s nstat -z

实用工具和脚本

必备调试工具介绍

以下是一些在CentOS Stream上非常有用的调试工具：

# 系统监控工具 yum install htop iotop iftop nethogs dnf install htop iotop iftop nethogs # 网络诊断工具 yum install tcpdump wireshark-cli nmap mtr netcat dnf install tcpdump wireshark-cli nmap mtr netcat # 性能分析工具 yum install perf sysstat valgrind dnf install perf sysstat valgrind # 文件系统工具 yum install lsof strace dnf install lsof strace # 内存分析工具 yum install smem dnf install smem # 系统调用跟踪 yum install strace ltrace dnf install strace ltrace # 内核调试工具 yum install crash kexec-tools dnf install crash kexec-tools

自定义脚本示例

以下是一些实用的自定义调试脚本：

系统信息收集脚本

#!/bin/bash # 文件名: sysinfo.sh # 用途: 收集系统基本信息用于调试 LOGFILE="sysinfo_$(date +%Y%m%d_%H%M%S).log" exec > $LOGFILE 2>&1 echo "===== 系统基本信息 =====" uname -a hostnamectl echo "" echo "===== CPU 信息 =====" lscpu echo "" echo "===== 内存信息 =====" free -h cat /proc/meminfo echo "" echo "===== 磁盘信息 =====" df -h lsblk echo "" echo "===== 网络信息 =====" ip addr show ip route show echo "" echo "===== 运行进程 =====" ps aux --sort=-%CPU | head -20 echo "" echo "===== 系统服务状态 =====" systemctl list-units --type=service --state=failed echo "" echo "===== 最近系统日志 =====" journalctl -n 50 --no-pager echo "" echo "===== 系统资源使用情况 =====" top -b -n 1 | head -20 echo "" echo "===== 网络连接统计 =====" ss -s echo "" echo "===== 系统启动时间 =====" systemd-analyze echo "" echo "===== 系统错误日志 =====" journalctl -p err -n 20 --no-pager echo "" echo "信息收集完成，结果保存在 $LOGFILE"

网络诊断脚本

#!/bin/bash # 文件名: netdiag.sh # 用途: 网络连接诊断 TARGET=${1:-google.com} LOGFILE="netdiag_$(date +%Y%m%d_%H%M%S).log" exec > $LOGFILE 2>&1 echo "===== 网络诊断开始，目标: $TARGET =====" date echo "" echo "===== 网络接口状态 =====" ip addr show echo "" echo "===== 路由表 =====" ip route show echo "" echo "===== DNS 解析测试 =====" nslookup $TARGET dig $TARGET echo "" echo "===== 连通性测试 =====" ping -c 4 $TARGET echo "" echo "===== 路径跟踪 =====" traceroute $TARGET echo "" echo "===== 端口扫描 =====" nmap -sT -p 80,443 $TARGET echo "" echo "===== 网络统计 =====" netstat -s echo "" echo "===== 网络连接状态 =====" ss -tuln echo "" echo "===== 网络流量监控 =====" iftop -t -s 5 -n echo "" echo "网络诊断完成，结果保存在 $LOGFILE"

性能监控脚本

#!/bin/bash # 文件名: perfmon.sh # 用途: 性能监控 INTERVAL=${1:-5} COUNT=${2:-10} LOGFILE="perfmon_$(date +%Y%m%d_%H%M%S).log" echo "===== 性能监控开始，间隔: ${INTERVAL}s，次数: ${COUNT} =====" date echo "" echo "===== CPU 使用率 =====" mpstat $INTERVAL $COUNT echo "" echo "===== 内存使用情况 =====" free -h vmstat $INTERVAL $COUNT echo "" echo "===== I/O 统计 =====" iostat -xz $INTERVAL $COUNT echo "" echo "===== 网络统计 =====" sar -n DEV $INTERVAL $COUNT echo "" echo "===== 进程活动 =====" pidstat -u -r -d -h $INTERVAL $COUNT echo "" echo "===== 系统负载 =====" uptime echo "" echo "性能监控完成，结果保存在 $LOGFILE"

最佳实践和预防措施

系统监控设置

建立有效的系统监控可以帮助及早发现问题：

# 安装监控工具 yum install nagios zabbix-agent prometheus-node-exporter dnf install nagios zabbix-agent prometheus-node-exporter # 配置sysstat收集系统性能数据 vi /etc/sysconfig/sysstat # 设置HISTORY=28 和 COMPRESS="bzip2" systemctl enable sysstat systemctl start sysstat # 配置日志轮转 vi /etc/logrotate.conf # 设置合理的保留周期和压缩选项 # 设置自定义监控脚本 cat > /usr/local/bin/custom_monitor.sh << 'EOF' #!/bin/bash # 自定义监控脚本示例 # 检查磁盘空间 DISK_USAGE=$(df / | awk 'NR==2 {print $5}' | sed 's/%//') if [ $DISK_USAGE -gt 90 ]; then echo "磁盘空间使用率超过90%: ${DISK_USAGE}%" # 可以添加发送邮件或通知的代码 fi # 检查系统负载 LOAD=$(uptime | awk -F'load average:' '{print $2}' | awk '{print $1}' | sed 's/,//') LOAD_NUM=$(echo $LOAD | awk '{print int($1)}') if [ $LOAD_NUM -gt $(nproc) ]; then echo "系统负载过高: $LOAD" # 可以添加发送邮件或通知的代码 fi # 检查内存使用 MEM_USAGE=$(free | awk 'NR==2{printf "%.2f", $3/$2*100}') MEM_USAGE_NUM=$(echo $MEM_USAGE | awk '{print int($1)}') if [ $MEM_USAGE_NUM -gt 90 ]; then echo "内存使用率超过90%: ${MEM_USAGE}%" # 可以添加发送邮件或通知的代码 fi EOF chmod +x /usr/local/bin/custom_monitor.sh # 添加到cron定时任务 echo "*/5 * * * * /usr/local/bin/custom_monitor.sh" | crontab -

日志管理策略

有效的日志管理可以帮助快速定位问题：

# 配置rsyslog集中日志管理 vi /etc/rsyslog.conf # 取消注释以下行以启用TCP日志接收 #$ModLoad imtcp #$InputTCPServerRun 514 # 配置日志转发到远程服务器 echo "*.* @@logserver.example.com:514" >> /etc/rsyslog.conf # 重启rsyslog服务 systemctl restart rsyslog # 配置journald持久化存储 mkdir -p /var/log/journal systemd-tmpfiles --create --prefix /var/log/journal # 调整journald配置 vi /etc/systemd/journald.conf # 修改以下参数 #SystemMaxUse=1G #SystemKeepFree=100M #SystemMaxFileSize=100M #MaxRetentionSec=1month # 重启journald服务 systemctl restart systemd-journald # 配置日志分析工具 yum install goaccess dnf install goaccess # 使用goaccess分析Apache/Nginx访问日志 goaccess access.log -c

定期维护任务

定期维护可以预防许多系统问题：

# 创建系统维护脚本 cat > /usr/local/bin/system_maintenance.sh << 'EOF' #!/bin/bash # 系统维护脚本 LOGFILE="/var/log/system_maintenance_$(date +%Y%m%d).log" exec > $LOGFILE 2>&1 echo "===== 系统维护开始 =====" date echo "" echo "===== 更新系统 =====" yum update -y dnf update -y echo "" echo "===== 清理旧软件包 =====" yum autoremove -y dnf autoremove -y echo "" echo "===== 清理日志文件 =====" find /var/log -type f -name "*.gz" -delete find /var/log -type f -name "*.old" -delete journalctl --vacuum-time=30d echo "" echo "===== 检查文件系统 =====" fsck -t ext4 /dev/sda1 echo "" echo "===== 检查磁盘健康状态 =====" smartctl -a /dev/sda echo "" echo "===== 检查系统完整性 =====" rpm -Va echo "" echo "===== 重启必要服务 =====" systemctl restart nginx systemctl restart httpd systemctl restart php-fpm echo "" echo "===== 系统维护完成 =====" date EOF chmod +x /usr/local/bin/system_maintenance.sh # 添加到cron定时任务（每月执行一次） echo "0 0 1 * * /usr/local/bin/system_maintenance.sh" | crontab -