美团酒店Node全栈开发实践

本贴最后更新于 3002 天前,其中的信息可能已经水流花落

作者简介

郭凯,美团点评酒店前端技术专家、高级技术经理,于 2014 年 7 入职美团,目前在美团酒店负责酒店前端团队,除了业务外,会涉及到技术选型、基础架构以及团队建设和管理,译作有《编写可维护的 JavaScript》、《第三方 JavaScript 编程》,对 Node.js 和移动端有浓厚的兴趣。

本文通过分享美团酒店前端在应用Node进行全栈开发的过程中一些心得,重点介绍了我美团酒店事业部的前后端分离架构,线上内存泄露问题的排查,和所使用的Node服务监控平台PM2.5。

前后端分离的背景

“前后端分离”显然已不是什么新鲜的话题,Zakas在2013年10月份就曾发表过一篇博客《Node.js and the new web front-end》讨论Node背景下新时代的前端。毫无疑问,Node的出现给JavaScript语言带来了新的生机,也使得前端开发者有了更多的可能性。

前后端分离表面上看似乎是一场“圈地运动”,但实质上前后端分离是为了解决以往开发模式的一些诟病和痛点,同时也是迎合大的行业趋势的明智之举。我所在的美团酒店事业部去年7月份成立,新的业务、新的开发团队,这一切使得我们的前后端分离推进的很彻底。截至目前,前端承载的所有业务和线上服务都是基于Node,生产环境已经有近60台服务器。如此带来的全新前后端协作方式能够让专业的人做专业的事,无论前端后端都能较之前更专注在自己擅长的方面。

开发模式、技术栈

图片描述

传统的开发模式只需要专注在多终端的呈现上(浏览器、WebView)。而现在,浏览器只是前端的其中一环,延伸出来的还有Node端的架构、服务的运维能力等。上图是我们目前的服务架构:Nginx位于Node服务之前,用做负载均衡、服务调度、Gzip压缩等。之后便是Node服务,我们通过PM2.5进行Node服务的Cluster部署和负载均衡(充分利用多核优势),同时作为轻量的中间层,负责路由、Controllers、Views、以及视图的渲染,数据的获取通过RESTful的API接口使用JSON格式交互。而后端则只需要负责业务逻辑、数据存储、Models,并为前端提供JSON数据即可。

这样改变之后,Node端可以进行首屏渲染等页面加载方面的优化,页面渲染出来之后后续的交互、渲染都交由浏览器端的JavaScript代码来完成,Node端的模板和浏览器端的模板大部分情况下都是相同的,所以我们需要考虑模板重用的问题。我们用Juicer替换了Express框架默认的模板引擎,Juicer是一个高效、轻量的前端 (JavaScript) 模板引擎,效率和易用是它追求的目标。除此之外,它还可以运行在 Node.js 环境中。通过Juicer,可以解决Node端和浏览器端的模板、Helper复用问题。而且基于前后端分离的工程架构下,前端的代码仓库和后端隔离,前端独立负责前端静态资源文件、模板文件、Controller的维护和发布。

按照这样重新定义前后端分工之后,前端可以做的事情较以往更多了,比如微信SDK的接入,因为微信JS SDK的使用需要在服务端进行签名,所以现在我们不需要后端介入,前端完全可以独立完成微信SDK的接入。此外像我们内部和商家端SSO登录逻辑的接入都完全由前端独立完成。

技术选型的思考

对于前端的技术选型,我们始终保持理性、拥抱的态度。我们不会为了盲目求新而引入新的技术,技术选型是针对我们目前大团队的场景,为了解决以往协作过程中发现的一些痛点和不足。比如引入Node是为了改进前后端的工作流和效率,提升前后端的开发体验。再比如目前我们项目中采用的Angular、React也是针对特定的业务场景,为了提升开发效率、增强代码的可维护性。在我们的业务应用中,面向商家、后台的一些增删改查系统,Angular能够显著的提升开发效率,而React我们目前只是在面向用户的PC端项目中在做一些尝试和实践。

带来的挑战

这样的分工和架构模式在给前端带来更多可能性、更多便利的同时,也带来了不小的挑战,相比传统的前端角色而言,我们需要更多的关注线上服务的状态,进程内存占用、CPU占用的详细状况,以及线上异常的监控等。在我们拥抱Node的同时,对前端的能力要求是更上一阶的。一段看起来正常的JS代码,在浏览器端和在Node端两种不同的运行环境下,就可能会暴露出一些以往关注不到的问题,比如内存泄露:一个闭包或者一个用于缓存数据的对象,跟浏览器不同,Node对内存泄露十分敏感,因为线上应用有成千上万甚至百万计的流量,所以哪怕是一个字节的内存泄露也会造成内存堆积,从而导致垃圾回收过程耗时增加,应用响应缓慢,知道进程内存溢出,应用重启或崩溃。

内存泄露问题的定位

以下是我们在生产环境遭遇的一个案例:最近发现线上服务的内存占用在服务重启后会呈线性的增长,进程启动18小时后,内存就已经占用接近1.6G左右,之后不久便会超过V8的内存限制导致服务重启。从图中可以看出,在修复之前内存使用情况一直在随时间进行周期性的波动,波动的原因就是线上Node进程不断的重启导致的。

图片描述

众所周知,在V8的垃圾回收机制下,一般的代码很少出现内存泄露的情况,但是一旦出现内存泄露往往较难排查。但造成内存泄露的本质原因只有一个,就是应当回收的对象没有正常被回收,变成了老生代中的常驻对象。好在借助一些常见的排查工具可以帮助我们定位内存泄露的具体原因:

  • v8-profiler
  • node-heapdump
  • node-mtrace
  • dtrace
  • node-memwatch

这里我们使用node-heapdump来在模拟访问的条件下生成堆内存的snapshot,并通过Chrome的开发者调试工具对生成的snapshot文件进行分析。通过对比服务刚启动时以及使用AB模拟并发访问一段时间后的heapdump信息可以比较容易的定位到内存泄露的问题点:是因为Juicer默认开启了cache,会默认对编译后的模板进行缓存,因此随着访问的增长和并发请求,cache对象会持续增长且不被回收,于是关闭cache并重新部署上线后线上恢复正常。

由于在浏览器的场景中运行时间短,且运行在用户的机器上,即便内存使用过多或者内存泄露,也只会影响到用户的终端。而且运行时间短,随着进程的退出,内存也会随之释放,几乎没有太多内存管理的必要。但在Node端同样的代码就可能会暴露出问题。

线上服务的运维和监控

前后端分离除了意味着代码仓库的分离、开发协作的分离之外,还涉及到线上服务的独立发布和单独部署。与之俱来的当然是前端如何更好地对线上服务进行更细粒度的运维和监控,我们的SA会更多的关注线上服务的整体指标和可用性,而前端更希望能够细粒度的了解线上Node的进程状态以及异常情况。

PM2是一款优秀且开源的Node进程管理工具。我们在PM2的基础上做了一些改造,同时在云端部署了数据收集、数据实时获取的服务,从而形成了我们目前已经应用到线上的Node部署监控平台PM2.5,它可以将线上Node服务进程级别的细粒度信息聚合在云端进行处理和可视化展现,PM2.5能够监控Node Server和进程的各项指标状态,且可以配置报警并在各终端(Web、iPhone、Apple Watch)展示。

图片描述

PM2.5的服务架构

简单介绍下PM2.5的服务架构:生产环境的Node服务通过PM2.5 CLI进行部署,PM2.5 CLI会持续不断的将Node进程的各项数据上报到PM2.5的云端。云端收到上报的数据后会对原始数据进行处理并存储至MongoDB。而Web端和iOS应用都会通过WebSocket服务从服务端获得实时的数据流,然后通过前端进行可视化的信息展示。

PM2.5的内部实现

当Node进程通过PM2.5启动时,PM2.5 CLI会同云端服务进行握手,握手成功后才会源源不断的进行数据的上报。上报时首先会将数据进行AES256加密,然后使用TCP通信将数据上报到服务器,这里用到了开源的Axon,云端服务器收到数据后会将数据入库存储到MongoDB中,同时会进行监控报警的扫描,如果当前数据符合用户订阅的监控报警条件,则会通过云端的Push服务向iOS客户端推送报警信息。云端同时运行WebSocket服务,为多个终端(Web平台、iOS应用)提供实时数据的推送。

图片描述

其它监控设施的接入

为了确保线上服务的可靠、稳定,我们还接入了其它一些监控设施和日志平台,便于对线上的错误和访问日志进行追踪、分析和定位处理。

Zabbix

Zabbix是一种分布式系统监控以及网络监控功能的企业级开源中间件,主要是被运维使用。Zabbix主要用于对服务进行心跳检测、监控服务的各项指标,当某些指标异常或超过设定的阈值时进行短信、大象、邮件的报警。

Sentry

Sentry是一个错误日志收集处理服务器,可以将程序错误的详细情况集中捕获。而且提供各种常见语言的SDK供业务接入。但Sentry在服务器端会有采样,一般不能替代实时错误日志报警的监控。

日志监控平台

日志监控平台是美团内部的一个日志收集系统,目前美团统一使用Flume收集日志,Flume具有接收Scribe格式日志的能力,而日志监控平台也是以Scribe格式日志来收集。日志在整个收集流程中以两种形式存在,分别是原始日志和解析后的日志。目前我们使用日志监控平台主要用于将访问日志的格式化数据上报,之后就可以通过Hive/Presto对访问数据进行查询了。

性能监控平台

性能监控平台为美团各平台和产品线提供简单易用的、端到端的性能数据服务。同时也提供了各种常见语言的SDK供业务接入。主要用于分析Node端的接口响应,以及浏览器端的页面载入性能。

小结

以上是美团酒店前端在应用Node进行全栈开发的过程中摸索前行的一些心得,也是引子,主要介绍了我们酒店事业部的前后端分离架构,线上内存泄露问题的排查,和所使用的Node服务监控平台PM2.5,目前PM2.5的完整实现也已经开源(代码托管于Github),欢迎大家参与共建。

  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    138 引用 • 268 回帖 • 129 关注
  • 日志
    44 引用 • 105 回帖
  • 监控
    26 引用 • 33 回帖 • 1 关注
  • 美团
    8 引用 • 65 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖 • 8 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    189 引用 • 1056 回帖
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    69 引用 • 190 回帖 • 475 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    16 引用 • 53 回帖 • 131 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖 • 2 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    180 引用 • 400 回帖 • 1 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 20 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖 • 1 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1427 引用 • 10046 回帖 • 472 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    186 引用 • 471 回帖 • 3 关注
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    62 引用 • 289 回帖
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 442 关注
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖 • 2 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    284 引用 • 248 回帖 • 124 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 23 关注
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 348 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 529 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 51 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 40 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 613 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    544 引用 • 3531 回帖
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 702 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    70 引用 • 533 回帖 • 735 关注
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    7 引用 • 26 回帖
  • 安全

    安全永远都不是一个小问题。

    191 引用 • 813 回帖 • 1 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 20 关注