跨库跨表的分页查询实现

本贴最后更新于 2866 天前,其中的信息可能已经事过境迁

对于数据库分库分表之后,涉及到查询时就会存在一些问题,比如如何分页,如何排序,如何处理函数平均值等等,特别是对于分页功能,需要在应用中将数据合并后进行排序,在显示,还需要考虑应用中翻页的页码与实际库中查询时页码的关系,同时还需要考虑某个库数据查询完毕后,其他库中如何增加每次查询页码的问题,否则查询后的总页数不能满足应用中的页数。

当前GAP平台正在进行组织权限系统的服务化,存在一个统一集中式管理的远端组织权限服务系统,同时也存在一个具体业务系统的本地组织权限,那么当用户登陆到本地业务系统后,在进行系统用户管理时,希望看到的是能登陆到本地系统所有的用户信息,此时看到的用户数据来自远端(公共管理的用户数据)和本地(业务系统特有的用户数据),如何实现分页?下面结合具体情况说明如何实现。

场景是2个数据库,要求排序,并且查询不是非常频繁,访问量也不会很大,没有用户会一直在那里进行翻页操作,同时对于一个企业来说,用户信息频繁变动也是不切实际的。

对于分页功能来说,分两种情况,一种要求排序,一种不要求排序。非排序分页,可以按照同等步长的方式在2个数据源上进行分页查询,也就是分页的每页记录数,平均来自这2个数据源,每次查询每页的记录数都平均来自这2个数据源,当某个数据源没有符合条件的数据记录时,就需要单独查询另外一个数据源,查询的记录数同时也就需要增加;而另外一种情况可以按照同等比例的分页方式,也就是某个数据源每次分页查询时查询的记录数占该数据源符合条件的所有记录的比例是一定的,因为每次分页查询查多少记录是根据2个数据源中所有符合条件的记录总数计算出来的,这样就保证了当分页查询结束后,2个数据源也就同时查询完毕。

那么非排序分页的弊端在那里,首先不能进行排序,这样数据出来比较乱,用户不会满意,其次对于同等比例或者同等步长这两种方式,需要考虑的因素比较多,如下:

  • 每次分页如何平均2个数据源上的查询记录数
  • 当每页记录数变化时怎么处理
  • 当某个数据源查询完毕,没有符合条件的记录时,如何对另一个数据源增加每次查询的记录数?增加后就会影响到计算起始记录数

所以我们决定选择排序分页方式。就是从2个数据源处将足够多的数据取回来,在应用中按照某个条件进行归并排序,然后进行分页显示,难点在于取多少才算是足够的数据?考虑一种比较极端的情况,就是满足当前页的排好序的记录都来自同一个数据源,那么就要求每次查询时,每个数据源的分页记录数至少是这个值。比如当前每页显示4条记录,那么查询第一页时,需要每个数据源至少查出排好序的记录数4条,也就是总共8条记录数,然后进行归并排序,再显示排好序的4条,另外4条记录将会被丢掉;当查询第二页时,是不是只要查询每个数据源中的第二页数据呢?其实不是这样的,因为虽然每个数据源中的分页数据是已经排好序的,但是你无法确定这2个数据源中第二页数据之间的排序情况,有可能其中一个数据源的第三页数据与另外一个数据源的第五页数据才是临近排序的,所以我们需要取回每个数据源的前两页数据,再进行归并排序,那么当用户直接翻到100页的时候,就需要把每个数据源的前100页所有数据都取出,然后进行排序,而且是每次分页查询都需要重新查询一次上次已经查出的数据。

对于这种方式,我们的改进措施是使用缓存,将每次查询出的记录都保存在缓存中,当然是已经排好序的。当用户第一次翻页时,查询第一页数据,实际是从2个数据源处总共查出4(这个偏移量是可以配置的)页大小的数据(每个数据源2页大小数据),同时应用中排好序后进行缓存,这样这四页数据全部从缓存中加载,速度很快;当翻到第五页的时候,再做一次查询(前四页数据不再重复查询),按照偏移量大小,将取回来的数据与原来前四页数据进行重新排好序,然后再次放入缓存中,这样前8页数据都是从缓存中获取,而且是排好序的。

极端情况是,用户一下子直接查询了第100页的数据,那么按照偏移量设置,每个数据源是查询了200页的数据,总共是400页数据被一下子查询出来,然后进行排序放入缓存,对于这种情况,我们做了预防措施,如果跨度过大,比如这里的100页翻页情况,我们直接不予进行查询。

通过结合缓存,保证了排序分页的实现,同时对每次查询条件不同,缓存的内容不同,所以系统对于相同查询条件的查询结果都做了缓存,速度提升明显。并且当用户数据有更新时,并没有及时更新缓存,我们提供了一个刷新按钮,强制清除缓存,重新查询,因为缓存数据配置的是永不过期策略。

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • crick77

    缓存会造成数据不一致的问题。
    分页不允许用户查询到 100 页之后??

推荐标签 标签

  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 233 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 732 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    324 引用 • 1395 回帖 • 4 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 708 关注
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    86 引用 • 896 回帖 • 1 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    106 引用 • 152 回帖
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 618 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 15 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 632 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 405 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    171 引用 • 813 回帖 • 1 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 524 关注
  • Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的操作系统上。容器完全使用沙箱机制,几乎没有性能开销,可以很容易地在机器和数据中心中运行。

    484 引用 • 906 回帖 • 1 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    51 引用 • 226 回帖
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 605 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    23 引用 • 31 回帖 • 8 关注
  • 996
    13 引用 • 200 回帖 • 2 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    541 引用 • 3529 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 60 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    164 引用 • 594 回帖 • 2 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1083 引用 • 3461 回帖 • 262 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    16 引用 • 7 回帖
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    83 引用 • 165 回帖 • 11 关注
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 191 关注