跨库跨表的分页查询实现

本贴最后更新于 2770 天前,其中的信息可能已经事过境迁

对于数据库分库分表之后,涉及到查询时就会存在一些问题,比如如何分页,如何排序,如何处理函数平均值等等,特别是对于分页功能,需要在应用中将数据合并后进行排序,在显示,还需要考虑应用中翻页的页码与实际库中查询时页码的关系,同时还需要考虑某个库数据查询完毕后,其他库中如何增加每次查询页码的问题,否则查询后的总页数不能满足应用中的页数。

当前GAP平台正在进行组织权限系统的服务化,存在一个统一集中式管理的远端组织权限服务系统,同时也存在一个具体业务系统的本地组织权限,那么当用户登陆到本地业务系统后,在进行系统用户管理时,希望看到的是能登陆到本地系统所有的用户信息,此时看到的用户数据来自远端(公共管理的用户数据)和本地(业务系统特有的用户数据),如何实现分页?下面结合具体情况说明如何实现。

场景是2个数据库,要求排序,并且查询不是非常频繁,访问量也不会很大,没有用户会一直在那里进行翻页操作,同时对于一个企业来说,用户信息频繁变动也是不切实际的。

对于分页功能来说,分两种情况,一种要求排序,一种不要求排序。非排序分页,可以按照同等步长的方式在2个数据源上进行分页查询,也就是分页的每页记录数,平均来自这2个数据源,每次查询每页的记录数都平均来自这2个数据源,当某个数据源没有符合条件的数据记录时,就需要单独查询另外一个数据源,查询的记录数同时也就需要增加;而另外一种情况可以按照同等比例的分页方式,也就是某个数据源每次分页查询时查询的记录数占该数据源符合条件的所有记录的比例是一定的,因为每次分页查询查多少记录是根据2个数据源中所有符合条件的记录总数计算出来的,这样就保证了当分页查询结束后,2个数据源也就同时查询完毕。

那么非排序分页的弊端在那里,首先不能进行排序,这样数据出来比较乱,用户不会满意,其次对于同等比例或者同等步长这两种方式,需要考虑的因素比较多,如下:

  • 每次分页如何平均2个数据源上的查询记录数
  • 当每页记录数变化时怎么处理
  • 当某个数据源查询完毕,没有符合条件的记录时,如何对另一个数据源增加每次查询的记录数?增加后就会影响到计算起始记录数

所以我们决定选择排序分页方式。就是从2个数据源处将足够多的数据取回来,在应用中按照某个条件进行归并排序,然后进行分页显示,难点在于取多少才算是足够的数据?考虑一种比较极端的情况,就是满足当前页的排好序的记录都来自同一个数据源,那么就要求每次查询时,每个数据源的分页记录数至少是这个值。比如当前每页显示4条记录,那么查询第一页时,需要每个数据源至少查出排好序的记录数4条,也就是总共8条记录数,然后进行归并排序,再显示排好序的4条,另外4条记录将会被丢掉;当查询第二页时,是不是只要查询每个数据源中的第二页数据呢?其实不是这样的,因为虽然每个数据源中的分页数据是已经排好序的,但是你无法确定这2个数据源中第二页数据之间的排序情况,有可能其中一个数据源的第三页数据与另外一个数据源的第五页数据才是临近排序的,所以我们需要取回每个数据源的前两页数据,再进行归并排序,那么当用户直接翻到100页的时候,就需要把每个数据源的前100页所有数据都取出,然后进行排序,而且是每次分页查询都需要重新查询一次上次已经查出的数据。

对于这种方式,我们的改进措施是使用缓存,将每次查询出的记录都保存在缓存中,当然是已经排好序的。当用户第一次翻页时,查询第一页数据,实际是从2个数据源处总共查出4(这个偏移量是可以配置的)页大小的数据(每个数据源2页大小数据),同时应用中排好序后进行缓存,这样这四页数据全部从缓存中加载,速度很快;当翻到第五页的时候,再做一次查询(前四页数据不再重复查询),按照偏移量大小,将取回来的数据与原来前四页数据进行重新排好序,然后再次放入缓存中,这样前8页数据都是从缓存中获取,而且是排好序的。

极端情况是,用户一下子直接查询了第100页的数据,那么按照偏移量设置,每个数据源是查询了200页的数据,总共是400页数据被一下子查询出来,然后进行排序放入缓存,对于这种情况,我们做了预防措施,如果跨度过大,比如这里的100页翻页情况,我们直接不予进行查询。

通过结合缓存,保证了排序分页的实现,同时对每次查询条件不同,缓存的内容不同,所以系统对于相同查询条件的查询结果都做了缓存,速度提升明显。并且当用户数据有更新时,并没有及时更新缓存,我们提供了一个刷新按钮,强制清除缓存,重新查询,因为缓存数据配置的是永不过期策略。

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • crick77

    缓存会造成数据不一致的问题。
    分页不允许用户查询到 100 页之后??

推荐标签 标签

  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    393 引用 • 3380 回帖 • 1 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    123 引用 • 168 回帖
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    198 引用 • 120 回帖
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 22 关注
  • 电影

    这是一个不能说的秘密。

    120 引用 • 597 回帖
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 590 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 7 关注
  • 博客

    记录并分享人生的经历。

    270 引用 • 2386 回帖
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    185 引用 • 318 回帖 • 352 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    19 引用 • 31 回帖
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 380 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    45 引用 • 113 回帖 • 321 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    491 引用 • 1383 回帖 • 370 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 2 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    84 引用 • 139 回帖
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 18 关注
  • Sillot

    Sillot (汐洛)孵化自思源笔记,致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点
    Github 地址:https://github.com/Hi-Windom/Sillot

    12 引用 • 26 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 36 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 101 关注
  • 导航

    各种网址链接、内容导航。

    37 引用 • 168 回帖
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 444 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 674 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 106 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 6 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 47 关注