接口间断性 504 分析 (一)

本贴最后更新于 2299 天前,其中的信息可能已经水流花落

刚进新公司就遇到一个很棘手的问题:线上一个接口每天 0.5% 左右的概率会出现 504,出现的时机也是随机的,每天大概有一到两个时间点会触发,非常诡异。

API 请求路径如下图所示,haproxy 做为网关,后端接两个 server,client 通过 haproxy 来访问 server 端的服务:
imagepng

首先开始去查 haproxy 的日志,如下图所示,注意到第 1 行中的 504,以及前面的 12000ms,说明 server 端返回超时了,haproxy 超时时间为 2 分钟:
imagepng

再看 server 端的日志,没有发现 504 对应的请求,最长的响应时间也不超过 15 秒,为什么 haproxy 会超时 120 秒呢?再去查 haproxy 的日志发现存在 504 的接口不止一个。
imagepng

于是怀疑是不是 haproxy 主动断掉,再仔细检查日志,发现存在 sH 的标识,以下是对应的解释:

sH #服务器可以返回其响应头之前的“超时服务器”冲突。 #这是最常见的异常,表示太长的事务,可能是由服务器或数据库饱和引起的。 #立即的解决方法是增加“超时服务器”设置,但请务必记住,用户体验将遭受这些长时间的响应。 #唯一的长期解决方案是修复应用程序。 #参考:https://blog.csdn.net/chengfei112233/article/details/78983041

这就否定了 haproxy 本身的问题,haproxy 确实是等了 120 秒,server 没有响应。

那是不是 server 端出现了什么问题,导致不能返回给 haproxy 正确的响应呢?server 的应用日志里没有现象,接下来就可以充分怀疑 tcp 本身的机制导致的响应丢弃,网上搜索了下,发现这个参数 tcp_tw_recycle 与 tcp_timestamps 这两个参数同时开启时,在 NAT 环境会出现连接失败的情况。
(60 秒内,连接两个相同的请求(四元组一致:源 IP/端口 + 目标 IP/端口),后一个时间戳的请求,会被忽略。缓存每个连接最新的时间戳,后续请求中如果时间戳小于缓存的时间戳,即视为无效,相应的数据包会被丢弃。)

那我们是不是也是这样的原因呢?查了下参数确实都配置了,并且也 netstat 存在 reject 的日志,确实跟这个问题很像。与领导沟通了下,觉得这个问题最好还是抓包确认下,不能盲目参照别人经验。于是接下来开始了抓包之旅。
imagepng

抓包下来,分析却发现 TCP 连接是没问题的,TCP 包序列并没有发现参数导致的大量异常序列(TCP Retransmission),但是应用就是没有返回,真的是非常诡异。
imagepng

再去分析应用截取日志,通过 IP 与端口对应到请求:
imagepng

从上面两张图可以清楚的看到:haproxy 断开连接后,应用才收到请求,非常诡异。

从以上对网络层面的分析,能推断出 centos 在 TCP 握手后,没有将后续的请求推送到应用。但是接下来怎么排查,真的是一点思路都没有。但是问题仍然存在,分析不能停止,于是向运维申请了一些服务器监控的权限,试图从 zabbix 上再找到些蛛丝马迹。结果仍然没有收获。

这时候怀疑是不是服务器性能比较差,压力抗不住,因为只有其中一台配置比较差的 504 的情况很多,而且每天可能就一到两个时间点会爆发。于是将 haproxy 的负载又做了调整,调整成了 8:2,将 504 的那台服务器的比例调整低了。

观察了一周时间,并没有发现 504 有任何明显的降低,这充分说明并非负载导致的 504。而且发现一个现象,当问题出现后,明显发现 linux 的剩余内存少了非常多,只有大概几十 M。

初步怀疑存在内存泄露,但是 JVM 并没有错误迹象,并且检查 gc 日志都是正常的,非常奇怪。最终,向运维申请加了一台服务器,三台服务器的比例调整成 6:2:2,观察了一周,发现 504 仍然存在,但是只会出现在那台一直报 504 的机器上。再观察一段时间,会把 504 多的那台设备下掉。

下面是三台机器的内存情况:

imagepng
imagepng
imagepng

明显发现最上面一台可用内存很少,504 到此为止算是解决了。

总结一下,针对间断性 504 的异常问题,分别从网络、日志、监控、参数、命令等多个途径寻找异常点,来确定问题产生原因。最终结论是系统剩余内存太小,导致网络请求一直停留在系统层面,没有到达应用,超过了 haproxy 的超时限制。

其实还是走了一些弯路的,一开始就怀疑过内存,但是这个结论难以令人信服,所以先排除应用本身的问题后,才推动资源去通过替换服务器的方式解决该问题。

2018-12-25 续:
真的解决了么?其实并没有,真正的原因在下一篇总结。

  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3455 回帖 • 158 关注
  • HAProxy
    5 引用 • 9 回帖
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 38 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    210 引用 • 2040 回帖
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    16 引用 • 236 回帖 • 257 关注
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 277 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖 • 8 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 92 关注
  • 印象笔记
    3 引用 • 16 回帖 • 1 关注
  • Outlook
    1 引用 • 5 回帖 • 1 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖 • 3 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 505 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 175 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    188 引用 • 1057 回帖 • 1 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 3 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    89 引用 • 150 回帖
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 57 关注
  • OpenCV
    15 引用 • 36 回帖 • 7 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    170 引用 • 1529 回帖
  • sts
    2 引用 • 2 回帖 • 229 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    412 引用 • 3588 回帖 • 1 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    29 引用 • 230 回帖 • 128 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    12 引用 • 54 回帖 • 177 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    78 引用 • 396 回帖
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    227 引用 • 476 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    35 引用 • 468 回帖 • 764 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 2 关注