阿里工程部署规范

本贴最后更新于 1951 天前,其中的信息可能已经时过境迁

服务器规约

  • 【推荐】调小 TCP 协议的 time_wait 等待时间.

说明: 基于 TCP 的 HTTP 协议由服务端关闭 TCP 连接,在连接以四次握手结束后,该连接仍会进入 time_wait 状态等待一段时间后才真正关闭.在高并发访问情形下,会因处于等待关闭的连接数太多而无法建立新的连接,为了缓解或根治这一问题需要在 HTTP 服务器上调小此等待值.调小此等待值对于优化 HTTP 服务器的请求处理能力和降低服务器负载效果明显.在 Linux 服务器上请通过变更/etc/sysctl.conf 文件去修改该缺省值.

  • 【推荐】调大服务器所支持的最大文件句柄数(File Descriptor,简写为 fd).

说明: 主流操作系统的设计是将 TCP/UDP 连接采用与文件一样的方式去管理,即一个连接对应于一个 fd.集团使用主流的 Linux 服务器默认所支持最大 fd 数量为 1024,当并发连接数很大时很容易因为 fd 不足而出现"open too many files"错误,导致新的连接无法建立. 建议将 Linux 服务器所支持的最大句柄数调高数倍(与服务器的内存数量相关).

  • 【推荐】给 JVM 设置-XX:+HeapDumpOnOutOfMemoryError 参数,让 JVM 碰到 OOM 场景时输出 dump 信息

说明: OOM 的发生是有概率的,甚至有规律地相隔数月才出现一例,出现时的现场信息对查错非常有价值.

  • 【参考】服务器内部重定向必须使用 forward;外部重定向地址必须使用 URL Broker 生成,否则因线上采用 HTTPS 协议而导致浏览器提示"不安全".此外,还会带来 URL 维护不一致的问题.*

中间件规约

  • 【强制】tair 使用注意双集群和单集群的差异,不要对双集群进行 put 值的覆盖,必须先 invalid,再进行 put 操作;如果删除值,也必须进行 invalid 操作.
  • 【强制】任何操作,都是先保存数据库成功后,再进行缓存的新增、更新、清除操作.
  • 【强制】新应用直接使用 webx3,不再使用 citrus-webx-compatible Webx 兼容包.
    com.alibaba.citrus.private citrus-webx-compatible
  • 【强制】注意 TDDL3.x 版本可能出现的断网后数据库连接异常的问题.TDDL3.x,断网前后 DB 连接池里的连接不会重新建立,若在断网期间或断网后在某个 DB 连接上执行的前两次 DB 操作为事务操作,则该数据库连接无法再恢复正常,反之可以恢复正常,详细参考:深入分析 TDDL3 断网后无法恢复问题.
  • 【推荐】webx 配置中的.do 写法表示异步接口,不需要标新立异写出: .ajax / .asyn / .x
  • 【推荐】HSF 配置方式集中,涉及 HSF 相关的配置推荐放置到同一个配置文件中,这样方便后续的维护.

正例: 服务客户端可以放置到一个配置文件中,比如:hsf-consumer.xml,对于提供方,可以放到 hsf-provider.xml 中.

  • 【推荐】客户端统一设置接口中所有方法的超时时间(单位 ms),超时设置优先级由高到低是:

  • 客户端 MethodSpecial;

  • 客户端接口级别;

  • 服务端 MethodSpecial;

  • 服务端接口级别.

说明: methodSpecials 为可选配置,含义为为方法单独配置超时(单位 ms),这样接口中的方法可以采用不同的超时时间,该配置优先级较高,配置如下:

name="methodSpecials"> class="com.taobao.hsf.model.metadata.MethodSpecial"> name="methodName" value="sum" /> name="clientTimeout" value="2000" />

  • 【推荐】调用远程操作必须有超时设置.HSF 默认自动超时是 3 秒,类似于 Httpclient 的超时设置需要自己明确去设置 Timeout.

反例: 根据经验表明,无次数的故障都是因为没有设置超时.

  • 【推荐】避免在 HSF 的 callback 线程池中执行过于耗时的操作,否则会对内存等系统资源产生压力.或者在 callback 中实现中做阻塞操作,比如调用 HSF 服务等.

说明: HSF 客户端远程调用时,可以使用 callback 调用来减少对调用线程的阻塞.客户端发起调用后,线程直接返回,远端响应写回后通过 callback 线程池完成业务处理,

  • 【推荐】对于序列化方式的选择,推荐默认 hessian2 即可,但 HSF 支持多种序列化方式,使用时注意兼容性.

序列化配置方式:

class="com.taobao.hsf.app.spring.util.HSFSpringProviderBean" init-method="init"> name="serializeType" value="hessian"/>

  • 【推荐】了解每个服务大致的平均耗时,可以通过独立线程池配置,将较慢的服务与主线程池隔离开,不致于各服务线程同归于尽.

说明: HSF 服务端在框架的线程池中运行,该线程池默认会处理所有提供的服务接口请求,因此如果有接口的处理时间较慢,将会使 HSF 线程池消耗殆尽,使得其他接口的请求不能够被处理.

class="com.taobao.hsf.app.spring.util.HSFSpringProviderBean" init-method="init"> name="corePoolSize" value="10"/> name="maxPoolSize" value="60"/>

  • 【推荐】使用 HSF 提供的优雅上下线来避免流量过早的进入,以及分层发布来做到有策略的服务发布.

说明: HSF 服务端在发布时,地址会推送到配置中心 ConfigServer 做服务注册,客户端就会开始调用服务端.当应用刚启动的时候,Java 没有完全编译为本地码,所以性能较低,因此会造成应用启动初期负载较高的情况,在客户端看来应用提供的服务就会出现超时或者服务线程池满的问题.建议升级至 JDK8,在 JDK8 下将会默认开启分层编译,减少 Java 编译线程对资源的占用.详细内容可以参考:优雅上下线分层发布.

  • 【推荐】Diamond 配置集(configset)和标识(dataId) 的长度都不要超过 256 个字符,特别要注意在代码运行中拼装的字符串长度限制.只允许英文字符和 4 种特殊字符("."、":"、"-"、"_").

正例: (dataId 的命名可以类似于)com.taobao.diamond.switch 或 diamond:switch.

二方库规约

  • 【强制】定义 GAV 遵从以下规则:

  • GroupID 格式:com.{公司/BU }.业务线.[子业务线],最多 4 级.

说明: {公司/BU} 例如:alibaba/taobao/tmall/aliexpress 等 BU 一级;子业务线可选.

正例: com.taobao.tddl com.alibaba.sourcing.multilang

  • ArtifactID 格式:产品线名-模块名.语义不重复不遗漏,尽量先到集团仓库中心去查证一下.

正例: tc-client / uic-api / tair-tool

  • Version:详细规定参考下方.

  • 【强制】二方库版本号命名方式:主版本号.次版本号.修订号

  • 主版本号:当做了不兼容的 API 修改,或者增加了能改变产品方向的新功能.

  • 次版本号:当做了向下兼容的功能性新增(新增类、接口等).

  • 修订号:修复 bug,没有修改方法签名的功能加强,保持 API 兼容性.

反例: 仓库内某二方库版本号从 1.0.0.0 开始,一直默默"升级"成 1.0.0.64,完全失去版本的语义信息.

说明: 集团任何中间件、中台业务、二方包都必须遵守此版本约定.

  • 【强制】二方库定制包的命名方式,在上一条规定的版本号之后加"-英文说明[序号]",英文说明可以是部门简称、业务名称,序号直接紧跟在英文说明之后,表示此定制包的顺序号.

说明: TDDL 给 SCM 定制的版本号:1.0.0-SCM1.注:请尽可能在应用端来解决类冲突和加载问题,避免随意发布此类定制包.

  • 【强制】线上应用尽量不要依赖 SNAPSHOT 版本(安全包除外);正式发布的类库必须使用 RELEASE 版本号升级 +1 的方式,且版本号不允许覆盖升级,必须去中央仓库进行查证.

说明: 不依赖 SNAPSHOT 版本是保证应用发布的幂等性.另外,也可以加快编译时的打包构建.

  • 【强制】二方库的新增或升级,尽量保持除功能点之外的其它 jar 包仲裁结果不变.如果有改变,必须明确评估和验证,可使用 jar 包二进制兼容性检查工具:二方库检查工具指南

说明: 建议进行 dependency:resolve 前后信息比对,如果仲裁结果完全不一致,那么通过 dependency:tree 命令,找出差异点,进行排除 jar 包;仲裁详细规则参考:细说 maven 依赖仲裁原则

反例: 2014 年,因二方库升级导致的 P2 以上故障数在统计榜上排名第一,大家需要高度重视.

  • 【强制】二方库里可以定义枚举类型,参数可以使用枚举类型,但是接口返回值不允许使用枚举类型.

说明: 由于升级原因,导致双方的枚举类不尽相同,在接口解析,类序列化时出现异常.

  • 【强制】依赖于一个二方库群时,必须定义一个统一版本变量,避免版本号不一致.

说明: 依赖 springframework-core,-context,-beans,它们都是同一个版本,可以定义一个变量来保存版本:${spring.version},定义依赖的时候,引用该版本.

  • 【强制】禁止在子项目的 pom 依赖中出现相同的 GroupId,相同的 ArtifactId,但是不同的 Version.

说明: 在本地调试时会使用各子项目指定的版本号,但是合并成一个 war,只能有一个版本号出现在最后的 lib 目录中.曾经出现过线下调试是正确的,发布到线上出故障的先例.

  • 【推荐】工具类二方库已经提供的,尽量不要在本应用中编程实现.

  • json 操作: fastjson

  • md5 操作:commons-codec

  • 工具集合:Guava 包

  • 数组操作:ArrayUtils(org.apache.commons.lang3.ArrayUtils)

  • 集合操作:CollectionUtils(org.apache.commons.collections4.CollectionUtils)

  • 除上面以外还有 NumberUtils、DateFormatUtils、DateUtils 等优先使用 org.apache.commons.lang3 这个包下的,不要使用 org.apache.commons.lang 包下面的.原因是 commons.lang 这个包是从 JDK1.2 开始支持的所以很多 1.5/1.6 的特性是不支持的,例如:泛型.

  • 【推荐】所有 pom 文件中的依赖声明放在语句块中,所有版本仲裁放在语句块中.

说明: 里只是声明依赖,并不实现引入,因此子项目需要显式的声明依赖,version 和 scope 都读取自父 pom.而所有声明在主 pom 的里的依赖都会自动引入,并默认被所有的子项目继承.参考:多模块项目 POM 编写最佳实践

  • 【推荐】二方库尽量不要有配置项,最低限度不要再增加配置项.详细原因参考:二方库禁放配置项

  • 【参考】为避免应用二方库的依赖冲突问题,二方库发布者应当遵循以下原则:

  • 精简可控原则.移除一切不必要的 API 和依赖,只包含 Service API、必要的领域模型对象、Utils 类、常量、枚举等.如果依赖其它二方库,尽量是 provided 引入,让二方库使用者去依赖具体版本号;尽量没有 autoconf 配置项,避免应用配置项爆炸;无 log 具体实现,只依赖日志框架.

  • 稳定可追溯原则.每个版本的变化应该被记录,二方库由谁维护,源码在哪里,都需要能方便查到.除非用户主动升级版本,否则公共二方库的行为不应该发生变化.

说明: 集团的二方库几乎都是航母级依赖,从底层 netty,到 spring/ibatis/apache,以及集团中间件,都是默认 scope(默认是 complile,直接打包给使用者),给二方库使用者造成依赖冲突困扰、以及系统不稳定性,呼吁各二方库发布方认真遵守这两个原则.

应用分层

  • 【推荐】应用分层是集团各 BU 差异化极大的一个点,参考业界与各 BU 实际情况,推荐如下分层结构,图中默认上层依赖于下层,箭头关系表示可直接依赖,如:OpenApi 层可以依赖于 Web 层,也可以直接依赖于 Service 层,依此类推:
    Zjpeg

  • OpenApi 层:可直接封装 Service 接口暴露成 HSF 接口,或者通过 Web 封装成 http 接口.

  • 显示层:模板渲染层.当前主要是 velocity 渲染,JS 渲染,JSP 渲染等.

  • Web 层:主要是对访问控制进行转发,各类基本参数校验,或者不复用的业务简单处理等.

  • Service 层:相对具体的业务逻辑服务层.

  • Manager 层:通用业务处理层,它有如下特征:

  • 对第三方平台封装的层,预处理返回结果及转化异常信息;

  • 对 Service 层通用能力的下沉,如缓存方案、中间件通用处理;

  • 与 DAO 层交互,对 DAO 的业务通用能力的封装.

  • DAO 层:数据访问层,与底层 Mysql、Oracle、Hbase、OB 进行数据交互.

  • 第三方平台:包括其它部门 HSF 开放接口,基础平台,其它公司的 HTTP 接口.

  • 【参考】(分层异常处理规约)在 DAO 层,产生的异常类型有很多,无法用细粒度异常进行 catch,使用 catch(Exception e)方式,并 throw new DaoException(e),不需要打印日志,因为日志在 Manager/Service 层一定需要捕获并打到日志文件中去,如果同台服务器再打日志,浪费性能和存储.

在 Service 层往上抛的同时就必须使用日志,因为是 RPC 调用,可能本地出错,未必能正常反馈到业务端.这里就必须尽可能带上参数信息,相当于保护案发现场,并打印异常堆栈.

如果 Manager 层与 Service 同机部署,日志方式与 DAO 层处理一致,如果是单独部署,则采用与 Service 一致的处理方式.

Web 层绝不应该继续往上抛异常,因为已经处于顶层,无继续处理异常的方式,如果意识到这个异常将导致页面无法正常渲染,那么就应该直接跳转到友好错误页面,尽量加上友好的错误提示信息.

openApi 层要将异常处理成错误码和错误信息方式返回.

  • 【参考】分层领域模型规约:

  • DO(Data Object):与数据库表结构一一对应,通过 DAO 层向上传输数据源对象.

  • DTO(Data Transfer Object):数据传输对象,Service 和 Manager 向外传输的对象.

  • BO(Business Object):业务对象.可以由 Service 层输出的封装业务逻辑的对象.

  • QUERY:数据查询对象,各层接收上层的查询请求.注:超过 2 个参数的查询封装,禁止使用 Map 类来传输.

  • VO(View Object):显示层对象,通常是 Web 向模板渲染引擎层传输的对象.

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3168 引用 • 8207 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...