分布式事务:不过是在一致性、吞吐量和复杂度之间,做一个选择

本贴最后更新于 2808 天前,其中的信息可能已经时移世异

这是一个开撕的话题,我经历过太多的关于分布式事务的需求:“有没有简单的方案,像使用数据库事务那样,解决分布式数据一致性的问题”。特别是微服务架构流行的今天,一次交易需要跨越多个“服务”、多个数据库来实现,传统的技术手段,已经无法应对和满足微服务情况下这些复杂的场景了。针对微服务下的交易业务如何保障数据一致性,本文尽量做到理论结合实践,将我们在实际产品中用到的分布式事务实现机制,和大家扒一扒,希望能帮到各位。

谈到分布式事务,必须先把 CAP 拿出来说说事……,当然还有 BASE……

从架构的角度来看,业务拆分(数据分区)、数据一致性、性能(可用性)永远是个平衡的艺术:

在微服务架构下,为了获得更高的性能与灵活性,将业务应用拆分为多个,交易跨多个微服务编排,数据一致性的问题产生;

为了解决数据一致性问题,需要采用不同的事务机制来保障,这又会产生性能(可用性)问题;

在计算机世界里,为了解决一件事情,另外的问题就会接踵而至,从另一个层面印证了 IT 架构永远是一种平衡的艺术。

“BASE”其核心思想是根据业务特点,采用适当的方式来使系统达到最终一致性(Eventual consistency);在互联网领域,通常需要牺牲强一致性来换取系统的高可用性,只需要保证数据的“最终一致”,只是这个最终时间需要在用户可以接受的范围内;但在金融相关的交易领域,仍然需要采用强一致性的方式来保障交易的准确性与可靠性。

接下来为大家介绍业界常见的事务处理模式,包括两阶段提交、三阶段提交、Sagas 长事务、补偿模式、可靠事件模式(本地事件表、外部事件表)、可靠事件模式(非事务消息、事务消息)、TCC 等。不同的事务模型支持不同的数据一致性。如果读者对这几种分布式事务比较熟悉,可以直接参考下图并结合自身业务需求选择合适的事务模型。

两阶段提交、三阶段提交

这种分布式事务解决方案目前在各种技术平台上已经比较成熟:JavaEE 架构下面的 JTA 事务(各应用服务器均提供了实现,Tomcat 除外)。

但目前两阶段提交、三阶段提交存在如下的局限性,并不适合在微服务架构体系下使用:

所有的操作必须是事务性资源(比如数据库、消息队列、EJB 组件等),存在使用局限性(微服务架构下多数使用 HTTP 协议),比较适合传统的单体应用;

由于是强一致性,资源需要在事务内部等待,性能影响较大,吞吐率不高,不适合高并发与高性能的业务场景;

Sagas 长事务

在 Sagas 事务模型中,一个长事务是由一个预先定义好执行顺序的子事务集合和他们对应的补偿子事务集合组成的。典型的一个完整的交易由 T1、T2、……、Tn 等多个业务活动组成,每个业务活动可以是本地操作、或者是远程操作,所有的业务活动在 Sagas 事务下要么全部成功,要么全部回滚,不存在中间状态。

Sagas 事务模型的实现机制:

每个业务活动都是一个原子操作;

每个业务活动均提供正反操作;

任何一个业务活动发生错误,按照执行的反顺序,实时执行反操作,进行事务回滚;

回滚失败情况下,需要记录待冲正事务日志,通过重试策略进行重试;

冲正重试依然失败的场景,提供定时冲正服务器,对回滚失败的业务进行定时冲正;

定时冲正依然失败的业务,等待人工干预;

Sagas 长事务模型支持对数据一致性要求比较高的场景比较适用,由于采用了补偿的机制,每个原子操作都是先执行任务,避免了长时间的资源锁定,能做到实时释放资源,性能相对有保障。

Sagas 长事务方式如果由业务去实现,复杂度与难度并存。在我们实际使用过程中,开发了一套支持 Sagas 事务模型的框架来支撑业务快速交付。

开发人员:业务只需要进行交易编排,每个原子操作提供正反交易;

配置人员:可以针对异常类型设定事务回滚策略(哪些异常纳入事务管理、哪些异常不纳入事务管理);每个原子操作的流水是否持久化(为了不同性能可以支持缓存、DB、以及扩展其它持久化方式);以及冲正选项配置(重试次数、超时时间、是否实时冲正、定时冲正等);

Sagas 事务框架:提供事务保障机制,负责原子操作的流水落地,原子操作的执行顺序,提供实时冲正、定时冲正、事务拦截器等基础能力;

**Sagas 框架的核心是 IBusinessActivity、IAtomicAction。**IBusinessActivity 完成原子活动的 enlist()、delist()、prepare()、commit()、rollback()等操作;IAtomicAction 主要完成对状态上下文、正反操作执行。

限于文章篇幅,本文不对具体实现做详述;后面找时间可以详细介绍基于 Sagas 长事务模型具体的实现框架。Sagas 长事务需要交易提供反操作,支持事务的强一致性,由于没有在整个事务周期内锁定资源,对性能影响较小,适合对数据要求比较高的场景中使用。

补偿模式

Sagas 长事务模型本质上是补偿机制的复杂实现,如果实际业务场景上不需要复杂的 Sagas 事务框架支撑,可以在业务中实现简单的补偿模式。补偿过程往往也同样需要实现最终一致性,需要保证取消服务至少被调用一次和取消服务必须实现幂等性。补偿模式可以参见同事田向阳的技术文章《微服务架构下数据一致性保证(三)》http://dwz.cn/3TVJaB

补偿机制不推荐在复杂场景(需要多个交易的编排)下使用,优点是非常容易提供回滚,而且依赖的服务也非常少,与 Sagas 长事务比较来看,使用起来更简便;缺点是会造成代码量庞大,耦合性高,对应无法提供反操作的交易不适合。

可靠事件模式(本地事件表、外地事件表)

可靠事件模式属于事件驱动架构,当某件重要事情发生时,例如更新一个业务实体,微服务会向消息代理发布一个事件。消息代理会向订阅事件的微服务推送事件,当订阅这些事件的微服务接收此事件时,就可以完成自己的业务,也可能会引发更多的事件发布。

可靠事件模式在于保证可靠事件投递和避免重复消费,靠事件投递定义为:

每个服务原子性的业务操作和发布事件;

消息代理确保事件传递至少一次;避免重复消费要求服务实现幂等性。

基于事件模式,需要重点考虑的是事件的可靠到达,在我们产品实际支持过程中,通常有本地事件表、外部事件表两种模式:

1. 本地事件表方法将事件和业务数据保存在同一个数据库中,使用一个额外的“事件恢复”服务来恢复事件,由本地事务保证更新业务和发布事件的原子性。考虑到事件恢复可能会有一定的延时,服务在完成本地事务后可立即向消息代理发布一个事件。

微服务在同一个本地事务中记录业务数据和事件;

微服务实时发布一个事件立即通知关联的业务服务,如果事件发布成功立即删除记录的事件;

事件恢复服务定时从事件表中恢复未发布成功的事件,重新发布,重新发布成功才删除记录的事件;

其中第 2 条的操作主要是为了增加发布事件的实时性,由第三条保证事件一定被发布。本地事件表方式业务系统和事件系统耦合比较紧密,额外的事件数据库操作也会给数据库带来额外的压力,可能成为瓶颈。

2. 外部事件表方法将事件持久化到外部的事件系统,事件系统需提供实时事件服务以接受微服务发布事件,同时事件系统还需要提供事件恢复服务来确认和恢复事件。

业务服务在事务提交前,通过实时事件服务向事件系统请求发送事件,事件系统只记录事件并不真正发送;

业务服务在提交后,通过实时事件服务向事件系统确认发送,事件得到确认后,事件系统才真正发布事件到消息代理;

业务服务在业务回滚时,通过实时事件向事件系统取消事件;

如果业务服务在发送确认或取消之前停止服务了怎么办呢?事件系统的事件恢复服务会定期找到未确认发送的事件向业务服务查询状态,根据业务服务返回的状态决定事件是要发布还是取消;

该方式将业务系统和事件系统独立解耦,都可以独立伸缩。但是这种方式需要一次额外的发送操作,并且需要发布者提供额外的查询接口。

基于可靠事件的事务保障模式可以有很多的变种实现,比如对消息可靠性不高的话,可以将本地表的方式换做缓存方式。为了提高消息投递的效率,可以将多次消息合并为投递模式。为了提供强一致性的事务保障,甚至可以将本地消息表持久化(保障发方法消息可靠落地)+ 远程消息表持久化(保障接收方消息可靠落地)结合的模式。

在我们的流程产品中针对业务和流程的分布式事务解决方案就采用了多次消息合并投递 + 本地缓存 + 远程消息表持久化的模式,接下来为大家介绍具体的使用方式。

使用场景

在实际业务项目中通常采用业务与流程分布式部署的模式,业务系统通过远程接口访问流程引擎,业务数据同流程数据存放到各自的数据库中。

在这种场景中,如果业务系统的流程操作和业务操作交叉在一起,当流程操作成功,而业务操作失败时,就会造成业务回滚,而流程在引擎端已经创建,导致业务系统和流程引擎状态不一致。

在业务应用中对一个事务中的流程操作采用本地缓存 + 批量投递 + 远程落地的模式(如果需要在客户端确保消息可靠性,可以将本地缓存换成本地表的方式);在流程引擎端在消息投递来之后,做了消息表落地的工作,保障可靠执行。在我们流程产品中流程引擎对外提供的客户端提供了统一的分布式事务 API,和使用传统本地事务一样进行操作,保证了透明性,简化开发人员的复杂度。分布式事务 API 支持两种协议模式:

HTTP + 二进制序列化的模式

WebService 模式

后续我们会增加 Restful 风格的接口。

可靠事件模式在互联网公司中有着较大规模的应用,该方式适合的业务场景非常广泛,而且能够做到数据的最终一致性,缺点是该模式实现难度较大,依赖数据库实现可靠性,在高并发场景下可能存在性能瓶颈,需要在公司层面搭建一套标准的可靠事件框架来支撑。

可靠事件模式(非事务消息、事务消息)

可靠事件模式的事件通知可以采用消息的模式来实现,其实现原理和本地事件表、外部事件表一致,本文就不在详述。目前常用的消息框架 ActiveMQ、RabbitMQ、Kafka、RocketMQ 可以用来作为消息投递的渠道。注意:Kafka 通常不适合,因为 Kafka 的设计存在丢消息的场景。

目前市面上支持事务的消息产品比较少,RocketMQ 虽然实现了可靠的事务模式,但并没有开源出来、没有开源出来、没有开源出来,顺便说一下国内的开源有太多需要改进的空间(关键点不开源,开源后没有持续的投入)。

TCC 模式

一个完整的 TCC 业务由一个主业务服务和若干个从业务服务组成,主业务服务发起并完成整个业务活动,TCC 模式要求从服务提供三个接口:Try、Confirm、Cancel。

Try:完成所有业务检查

预留必须业务资源

Confirm:真正执行业务

不作任何业务检查;只使用 Try 阶段预留的业务资源;Confirm 操作满足幂等性;

Cancel:

释放 Try 阶段预留的业务资源;Cancel 操作满足幂等性;

整个 TCC 业务分成两个阶段完成:

第一阶段:主业务服务分别调用所有从业务的 try 操作,并在活动管理器中登记所有从业务服务。当所有从业务服务的 try 操作都调用成功或者某个从业务服务的 try 操作失败,进入第二阶段。

第二阶段:活动管理器根据第一阶段的执行结果来执行 confirm 或 cancel 操作。如果第一阶段所有 try 操作都成功,则活动管理器调用所有从业务活动的 confirm 操作。否则调用所有从业务服务的 cancel 操作。

TCC 模式的详细描述可以参见同事田向阳的技术文章《微服务架构下数据一致性保证(三)》http://dwz.cn/3TVJaB。

需要注意的是第二阶段 confirm 或 cancel 操作本身也是满足最终一致性的过程,在调用 confirm 或 cancel 的时候也可能因为某种原因(比如网络)导致调用失败,所以需要活动管理支持重试的能力,同时这也就要求 confirm 和 cancel 操作具有幂等性。

总结

六种分布式事务的实现模式从数据一致性、事务级别、吞吐量、实现的复杂度各有优劣,下图为大家提供选择依据。

站在架构设计的角度,针对数据一致性需要把业务因素考虑进来,这有利于团队在技术上作出更合理的选择。根据具体业务场景,评估出业务对事务的优先级,更有利于作出架构上的取舍。我们经常接触的证券、金融、支付等行业,对数据一致性要求极高,需要严格的实时保证要求;但对于基于社交类的应用场景,可以采用局部实时一致,最终全局一致的能力。因此大家在实践过程中,一定要把技术与业务结合,选择适合自身业务的技术方案。

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • V2Ray
    1 引用 • 15 回帖 • 2 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    9 引用 • 32 回帖 • 146 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 135 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    138 引用 • 268 回帖 • 130 关注
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 383 回帖
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    54 引用 • 85 回帖
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    76 引用 • 429 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    130 引用 • 793 回帖
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 194 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    311 引用 • 546 回帖 • 1 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 7 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖
  • 安全

    安全永远都不是一个小问题。

    191 引用 • 813 回帖 • 1 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    70 引用 • 533 回帖 • 735 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 616 关注
  • Facebook

    Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流,分享无限上传的图片,发布链接和视频,更可以增进对朋友的了解。

    4 引用 • 15 回帖 • 458 关注
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    148 引用 • 257 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    14 引用 • 7 回帖 • 5 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 609 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    88 引用 • 1234 回帖 • 442 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 613 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 648 关注