线上问题排查方法

本贴最后更新于 2991 天前,其中的信息可能已经东海扬尘
###1. top命令详解
输入top命令之后,会打印出如下信息
```
top - 11:50:26 up 167 days, 19:07,  2 users,  load average: 0.00, 0.01, 0.05
Tasks: 100 total,   2 running,  98 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.0 us,  0.3 sy,  0.0 ni, 99.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:   1016656 total,   930924 used,    85732 free,    12816 buffers
KiB Swap:        0 total,        0 used,        0 free.    50268 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND                                                                                                                    
   25 root      20   0       0      0      0 R  0.3  0.0  31:48.91 rcuos/0                                                                                                                    
14326 root      20   0  141092  33868   2336 S  0.3  3.3  78:35.81 AliHids                                                                                                                    
    1 root      20   0   49668   3108   1592 S  0.0  0.3   0:54.62 systemd                                                                                                                    
    2 root      20   0       0      0      0 S  0.0  0.0   0:00.05 kthreadd                                                                                                                   
    3 root      20   0       0      0      0 S  0.0  0.0   0:23.01 ksoftirqd/0                                                                                                                
    5 root       0 -20       0      0      0 S  0.0  0.0   0:00.00 kworker/0:0H                                                                                                               
    7 root      rt   0       0      0      0 S  0.0  0.0   0:00.00 migration/0                                                                                                                
    8 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcu_bh                                                                                                                     
    9 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/0                                                                                                                    
   10 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/1                                                                                                                    
   11 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/2                                                                                                                    
   12 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/3                                                                                                                    
   13 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/4                                                                                                                    
   14 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/5                                                                                                                    
   15 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/6                                                                                                                    
   16 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/7                                                                                                                    
   17 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/8                                                                                                                    
   18 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/9                                                                                                                    
   19 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/10                                                                                                                   
   20 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/11                                                                                                                   
   21 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/12                                                                                                                   
   22 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/13                                                                                                                   
   23 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/14                                                                                                                   
   24 root      20   0       0      0      0 S  0.0  0.0  16:00.34 rcu_sched                                                                                                                  
   26 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuos/1                                                                                                                    
   27 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuos/2   
```
那我们一个个来说明这些信息到底是什么。
**第一行,任务队列信息,具体参数如下:**
`11:53:36`: 当前系统时间
`up 167 days`: 系统已经运行多长时间
`users `: 当前有几个用户登录
`load average` : load average后面的三个数分别是1分钟、5分钟、15分钟的负载情况。load average数据是每隔5秒钟检查一次活跃的进程数,然后按特定算法计算出的数值。如果这个数除以逻辑CPU的数量,结果高于5的时候就表明系统在超负荷运转了。

**第二行,Tasks — 任务(进程),具体信息说明如下:**
系统现在共有100个进程,其中处于运行中的有2个,98个在休眠(sleep),stoped状态的有0个,zombie状态(僵尸)的有0个。

**第三行,cpu状态信息,具体属性说明如下:**
`5.9%us` — 用户空间占用CPU的百分比。
`3.4% sy` — 内核空间占用CPU的百分比。
`0.0% ni` — 改变过优先级的进程占用CPU的百分比
`90.4% id` — 空闲CPU百分比
`0.0% wa` — IO等待占用CPU的百分比
`0.0% hi` — 硬中断(Hardware IRQ)占用CPU的百分比
`0.2% si` — 软中断(Software Interrupts)占用CPU的百分比

**第四行,内存状态,具体信息如下:**
`32949016k total` — 物理内存总量(32GB)
`14411180k used` — 使用中的内存总量(14GB)
`18537836k free` — 空闲内存总量(18GB)
`169884k buffers` — 缓存的内存量 (169M)

**第五行,swap交换分区信息,具体信息说明如下:**
`32764556k total` — 交换区总量(32GB)
`0k used` — 使用的交换区总量(0K)
`32764556k free` — 空闲交换区总量(32GB)
`3612636k cached` — 缓冲的交换区总量(3.6GB)


**第六行,空行。**
**第七行以下:各进程(任务)的状态监控,项目列信息说明如下:**
`PID` — 进程id
`USER` — 进程所有者
`PR` — 进程优先级
`NI` — nice值。负值表示高优先级,正值表示低优先级
`VIRT` — 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
`RES` — 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
`SHR` — 共享内存大小,单位kb
`S` — 进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
`%CPU` — 上次更新到现在的CPU时间占用百分比
`%MEM` — 进程使用的物理内存百分比
`TIME+` — 进程使用的CPU时间总计,单位1/100秒
`COMMAND` — 进程名称(命令名/命令行)


###2. 线上问题排查
1. 首先使用TOP命令查看每个进程的情况.top命令前面已经讲的很清晰了.
2. 再使用Top的交互命令数字1查看每个CPU的性能数据。
3. 使用Top的交互命令H查看每个线程的性能信息。

在这里可能会出现三种情况:
>* 第一种情况,某个线程一直CPU利用率100%,则说明是这个线程有可能有死循环,那么请记住这个PID。
>* 第二种情况,某个线程一直在TOP十的位置,这说明这个线程可能有性能问题。
>* 第三种情况,CPU利用率TOP几的线程在不停变化,说明并不是由某一个线程导致CPU偏高。

如果是第一种情况,也有可能是GC造成,我们可以用jstat命令看下GC情况,看看是不是因为持久代或年老代满了,产生Full GC,导致CPU利用率持续飙高,命令如下。
`sudo /opt/java/bin/jstat -gcutil 31177 1000 5`,会打印出这些信息:
`S0 S1 E O P YGC YGCT FGC FGCT GCT`

我们还可以把线程Dump下来,看看究竟是哪个线程,执行什么代码造成的CPU利用率高。执行以下命令,把线程dump到文件dump17里。
`sudo -u admin /opt/java/bin/jstack  31177 > /home/innohub.dump/dump17`

dump出来内容的类似下面这段:
```
"http-0.0.0.0-7001-97" daemon prio=10 tid=0x000000004f6a8000 nid=0x555e in Object.wait() [0x0000000052423000]
   java.lang.Thread.State: WAITING (on object monitor)
        at java.lang.Object.wait(Native Method)
```
dump出来的线程ID(nid)是十六进制的,而我们用TOP命令看到的线程ID是10进制的,所以我们要printf命令转换一下进制。然后用16进制的ID去dump里找到对应的线程。
```
printf "%x\n" 31558
 输出:7b46
```

还可以用的命令有:
jps : `java process status`,虚拟机进程状态
jstat : `java statistics monitoring tool`,收集虚拟机运行时数据
jmap : `memery map for java`,内存转储快照(headdump文件)
jhat : `JVM heap Dump browser`,分析headdump文件
jstack : `stack trace for java`,虚拟机的线程快照

参考链接:
http://ifeve.com/find-bug-online/
http://www.cnblogs.com/peida/archive/2012/12/24/2831353.html

  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    148 引用 • 257 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • relyn

    不明觉厉……

guobing
会当凌绝顶,一览众山小 北京

推荐标签 标签

  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 153 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 585 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    209 引用 • 2031 回帖
  • V2Ray
    1 引用 • 15 回帖
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 18 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 30 关注
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    264 引用 • 665 回帖
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 52 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 10 关注
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    107 引用 • 295 回帖 • 2 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 482 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    132 引用 • 188 回帖
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 186 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 816 回帖
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    565 引用 • 3532 回帖
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 2 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    179 引用 • 407 回帖 • 489 关注
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖 • 4 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    20 引用 • 7 回帖 • 2 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    142 引用 • 442 回帖
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 65 回帖 • 453 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    176 引用 • 995 回帖 • 1 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    497 引用 • 1387 回帖 • 294 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 2 关注