接口间断性 504 分析 (一)

本贴最后更新于 2242 天前,其中的信息可能已经水流花落

刚进新公司就遇到一个很棘手的问题:线上一个接口每天 0.5% 左右的概率会出现 504,出现的时机也是随机的,每天大概有一到两个时间点会触发,非常诡异。

API 请求路径如下图所示,haproxy 做为网关,后端接两个 server,client 通过 haproxy 来访问 server 端的服务:
imagepng

首先开始去查 haproxy 的日志,如下图所示,注意到第 1 行中的 504,以及前面的 12000ms,说明 server 端返回超时了,haproxy 超时时间为 2 分钟:
imagepng

再看 server 端的日志,没有发现 504 对应的请求,最长的响应时间也不超过 15 秒,为什么 haproxy 会超时 120 秒呢?再去查 haproxy 的日志发现存在 504 的接口不止一个。
imagepng

于是怀疑是不是 haproxy 主动断掉,再仔细检查日志,发现存在 sH 的标识,以下是对应的解释:

sH #服务器可以返回其响应头之前的“超时服务器”冲突。 #这是最常见的异常,表示太长的事务,可能是由服务器或数据库饱和引起的。 #立即的解决方法是增加“超时服务器”设置,但请务必记住,用户体验将遭受这些长时间的响应。 #唯一的长期解决方案是修复应用程序。 #参考:https://blog.csdn.net/chengfei112233/article/details/78983041

这就否定了 haproxy 本身的问题,haproxy 确实是等了 120 秒,server 没有响应。

那是不是 server 端出现了什么问题,导致不能返回给 haproxy 正确的响应呢?server 的应用日志里没有现象,接下来就可以充分怀疑 tcp 本身的机制导致的响应丢弃,网上搜索了下,发现这个参数 tcp_tw_recycle 与 tcp_timestamps 这两个参数同时开启时,在 NAT 环境会出现连接失败的情况。
(60 秒内,连接两个相同的请求(四元组一致:源 IP/端口 + 目标 IP/端口),后一个时间戳的请求,会被忽略。缓存每个连接最新的时间戳,后续请求中如果时间戳小于缓存的时间戳,即视为无效,相应的数据包会被丢弃。)

那我们是不是也是这样的原因呢?查了下参数确实都配置了,并且也 netstat 存在 reject 的日志,确实跟这个问题很像。与领导沟通了下,觉得这个问题最好还是抓包确认下,不能盲目参照别人经验。于是接下来开始了抓包之旅。
imagepng

抓包下来,分析却发现 TCP 连接是没问题的,TCP 包序列并没有发现参数导致的大量异常序列(TCP Retransmission),但是应用就是没有返回,真的是非常诡异。
imagepng

再去分析应用截取日志,通过 IP 与端口对应到请求:
imagepng

从上面两张图可以清楚的看到:haproxy 断开连接后,应用才收到请求,非常诡异。

从以上对网络层面的分析,能推断出 centos 在 TCP 握手后,没有将后续的请求推送到应用。但是接下来怎么排查,真的是一点思路都没有。但是问题仍然存在,分析不能停止,于是向运维申请了一些服务器监控的权限,试图从 zabbix 上再找到些蛛丝马迹。结果仍然没有收获。

这时候怀疑是不是服务器性能比较差,压力抗不住,因为只有其中一台配置比较差的 504 的情况很多,而且每天可能就一到两个时间点会爆发。于是将 haproxy 的负载又做了调整,调整成了 8:2,将 504 的那台服务器的比例调整低了。

观察了一周时间,并没有发现 504 有任何明显的降低,这充分说明并非负载导致的 504。而且发现一个现象,当问题出现后,明显发现 linux 的剩余内存少了非常多,只有大概几十 M。

初步怀疑存在内存泄露,但是 JVM 并没有错误迹象,并且检查 gc 日志都是正常的,非常奇怪。最终,向运维申请加了一台服务器,三台服务器的比例调整成 6:2:2,观察了一周,发现 504 仍然存在,但是只会出现在那台一直报 504 的机器上。再观察一段时间,会把 504 多的那台设备下掉。

下面是三台机器的内存情况:

imagepng
imagepng
imagepng

明显发现最上面一台可用内存很少,504 到此为止算是解决了。

总结一下,针对间断性 504 的异常问题,分别从网络、日志、监控、参数、命令等多个途径寻找异常点,来确定问题产生原因。最终结论是系统剩余内存太小,导致网络请求一直停留在系统层面,没有到达应用,超过了 haproxy 的超时限制。

其实还是走了一些弯路的,一开始就怀疑过内存,但是这个结论难以令人信服,所以先排除应用本身的问题后,才推动资源去通过替换服务器的方式解决该问题。

2018-12-25 续:
真的解决了么?其实并没有,真正的原因在下一篇总结。

  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3455 回帖 • 167 关注
  • HAProxy
    5 引用 • 9 回帖
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 31 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 5 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    6 引用 • 26 回帖 • 548 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 2 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    28 引用 • 226 回帖 • 137 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 415 关注
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    7 引用 • 69 回帖 • 3 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 817 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖 • 2 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 678 关注
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    267 引用 • 666 回帖 • 1 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 7 关注
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    76 引用 • 258 回帖 • 635 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 115 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    31 引用 • 96 回帖 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 649 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    425 引用 • 1250 回帖 • 598 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • Visio
    1 引用 • 2 回帖 • 1 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 490 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 589 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 2 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 660 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 524 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    692 引用 • 535 回帖
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    78 引用 • 430 回帖