线上问题排查方法

本贴最后更新于 2792 天前,其中的信息可能已经东海扬尘
###1. top命令详解
输入top命令之后,会打印出如下信息
```
top - 11:50:26 up 167 days, 19:07,  2 users,  load average: 0.00, 0.01, 0.05
Tasks: 100 total,   2 running,  98 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.0 us,  0.3 sy,  0.0 ni, 99.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:   1016656 total,   930924 used,    85732 free,    12816 buffers
KiB Swap:        0 total,        0 used,        0 free.    50268 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND                                                                                                                    
   25 root      20   0       0      0      0 R  0.3  0.0  31:48.91 rcuos/0                                                                                                                    
14326 root      20   0  141092  33868   2336 S  0.3  3.3  78:35.81 AliHids                                                                                                                    
    1 root      20   0   49668   3108   1592 S  0.0  0.3   0:54.62 systemd                                                                                                                    
    2 root      20   0       0      0      0 S  0.0  0.0   0:00.05 kthreadd                                                                                                                   
    3 root      20   0       0      0      0 S  0.0  0.0   0:23.01 ksoftirqd/0                                                                                                                
    5 root       0 -20       0      0      0 S  0.0  0.0   0:00.00 kworker/0:0H                                                                                                               
    7 root      rt   0       0      0      0 S  0.0  0.0   0:00.00 migration/0                                                                                                                
    8 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcu_bh                                                                                                                     
    9 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/0                                                                                                                    
   10 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/1                                                                                                                    
   11 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/2                                                                                                                    
   12 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/3                                                                                                                    
   13 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/4                                                                                                                    
   14 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/5                                                                                                                    
   15 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/6                                                                                                                    
   16 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/7                                                                                                                    
   17 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/8                                                                                                                    
   18 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/9                                                                                                                    
   19 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/10                                                                                                                   
   20 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/11                                                                                                                   
   21 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/12                                                                                                                   
   22 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/13                                                                                                                   
   23 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuob/14                                                                                                                   
   24 root      20   0       0      0      0 S  0.0  0.0  16:00.34 rcu_sched                                                                                                                  
   26 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuos/1                                                                                                                    
   27 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcuos/2   
```
那我们一个个来说明这些信息到底是什么。
**第一行,任务队列信息,具体参数如下:**
`11:53:36`: 当前系统时间
`up 167 days`: 系统已经运行多长时间
`users `: 当前有几个用户登录
`load average` : load average后面的三个数分别是1分钟、5分钟、15分钟的负载情况。load average数据是每隔5秒钟检查一次活跃的进程数,然后按特定算法计算出的数值。如果这个数除以逻辑CPU的数量,结果高于5的时候就表明系统在超负荷运转了。

**第二行,Tasks — 任务(进程),具体信息说明如下:**
系统现在共有100个进程,其中处于运行中的有2个,98个在休眠(sleep),stoped状态的有0个,zombie状态(僵尸)的有0个。

**第三行,cpu状态信息,具体属性说明如下:**
`5.9%us` — 用户空间占用CPU的百分比。
`3.4% sy` — 内核空间占用CPU的百分比。
`0.0% ni` — 改变过优先级的进程占用CPU的百分比
`90.4% id` — 空闲CPU百分比
`0.0% wa` — IO等待占用CPU的百分比
`0.0% hi` — 硬中断(Hardware IRQ)占用CPU的百分比
`0.2% si` — 软中断(Software Interrupts)占用CPU的百分比

**第四行,内存状态,具体信息如下:**
`32949016k total` — 物理内存总量(32GB)
`14411180k used` — 使用中的内存总量(14GB)
`18537836k free` — 空闲内存总量(18GB)
`169884k buffers` — 缓存的内存量 (169M)

**第五行,swap交换分区信息,具体信息说明如下:**
`32764556k total` — 交换区总量(32GB)
`0k used` — 使用的交换区总量(0K)
`32764556k free` — 空闲交换区总量(32GB)
`3612636k cached` — 缓冲的交换区总量(3.6GB)


**第六行,空行。**
**第七行以下:各进程(任务)的状态监控,项目列信息说明如下:**
`PID` — 进程id
`USER` — 进程所有者
`PR` — 进程优先级
`NI` — nice值。负值表示高优先级,正值表示低优先级
`VIRT` — 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
`RES` — 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
`SHR` — 共享内存大小,单位kb
`S` — 进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
`%CPU` — 上次更新到现在的CPU时间占用百分比
`%MEM` — 进程使用的物理内存百分比
`TIME+` — 进程使用的CPU时间总计,单位1/100秒
`COMMAND` — 进程名称(命令名/命令行)


###2. 线上问题排查
1. 首先使用TOP命令查看每个进程的情况.top命令前面已经讲的很清晰了.
2. 再使用Top的交互命令数字1查看每个CPU的性能数据。
3. 使用Top的交互命令H查看每个线程的性能信息。

在这里可能会出现三种情况:
>* 第一种情况,某个线程一直CPU利用率100%,则说明是这个线程有可能有死循环,那么请记住这个PID。
>* 第二种情况,某个线程一直在TOP十的位置,这说明这个线程可能有性能问题。
>* 第三种情况,CPU利用率TOP几的线程在不停变化,说明并不是由某一个线程导致CPU偏高。

如果是第一种情况,也有可能是GC造成,我们可以用jstat命令看下GC情况,看看是不是因为持久代或年老代满了,产生Full GC,导致CPU利用率持续飙高,命令如下。
`sudo /opt/java/bin/jstat -gcutil 31177 1000 5`,会打印出这些信息:
`S0 S1 E O P YGC YGCT FGC FGCT GCT`

我们还可以把线程Dump下来,看看究竟是哪个线程,执行什么代码造成的CPU利用率高。执行以下命令,把线程dump到文件dump17里。
`sudo -u admin /opt/java/bin/jstack  31177 > /home/innohub.dump/dump17`

dump出来内容的类似下面这段:
```
"http-0.0.0.0-7001-97" daemon prio=10 tid=0x000000004f6a8000 nid=0x555e in Object.wait() [0x0000000052423000]
   java.lang.Thread.State: WAITING (on object monitor)
        at java.lang.Object.wait(Native Method)
```
dump出来的线程ID(nid)是十六进制的,而我们用TOP命令看到的线程ID是10进制的,所以我们要printf命令转换一下进制。然后用16进制的ID去dump里找到对应的线程。
```
printf "%x\n" 31558
 输出:7b46
```

还可以用的命令有:
jps : `java process status`,虚拟机进程状态
jstat : `java statistics monitoring tool`,收集虚拟机运行时数据
jmap : `memery map for java`,内存转储快照(headdump文件)
jhat : `JVM heap Dump browser`,分析headdump文件
jstack : `stack trace for java`,虚拟机的线程快照

参考链接:
http://ifeve.com/find-bug-online/
http://www.cnblogs.com/peida/archive/2012/12/24/2831353.html

  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    148 引用 • 257 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • relyn

    不明觉厉……

guobing
会当凌绝顶,一览众山小 北京

推荐标签 标签

  • 反馈

    Communication channel for makers and users.

    123 引用 • 906 回帖 • 191 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    53 引用 • 85 回帖
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    15 引用 • 7 回帖 • 8 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 298 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    138 引用 • 268 回帖 • 201 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    25 引用 • 215 回帖 • 163 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 603 关注
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 9 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3167 引用 • 8207 回帖 • 1 关注
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 27 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    21 引用 • 22 回帖
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    35 引用 • 35 回帖
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    172 引用 • 990 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    103 引用 • 294 回帖 • 3 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 684 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 547 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    535 引用 • 672 回帖 • 2 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 7 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    22 引用 • 31 回帖 • 4 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 21 关注
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖 • 1 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    284 引用 • 247 回帖 • 182 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 53 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖