多系统,异构数据,大数据量同步的问题

本贴最后更新于 2367 天前,其中的信息可能已经天翻地覆

最近在做个项目,功能主要是数据同步。
客户有多个系统(OA,AD 域服务器···),各个系统间没有直接连通,这些系统都要用到 HR 系统的员工相关数据(员工信息变更都是在 HR 系统进行),现在要把 HR 系统相关数据同步到其他的系统。不要求实时,但是要求支持增量同步和全量同步,数据量比较多。

请问黑客有没相关方案或者资料可推荐?

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3187 引用 • 8213 回帖
  • 异构系统
    1 引用 • 8 回帖
  • 数据同步
    1 引用 • 8 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • shuiniu

    datax 之前看了下,没有 ad 同步,而且不是 java web 的形式,没有采用。另外,我们的源数据在客户那里,我们的程序权限有限。

  • 其他回帖
  • xjtushilei 2 3 赞同

    全量

    全量数据的话用阿里的 datax,官网 https://github.com/alibaba/DataX,应该没有任何问题

    增量

    这个比较复杂了,要看具体任务具体设计了。不知道符合以下哪种情况。

    1. 如果有公网 ip 的话可以试试阿里的 dts,不过大概率数据库不会有公网权限的
      imagepng
    2. 如果有增量的 id,时间戳之类的,自己写脚本去实现增量读取就好。判断源 db 和目标 db 的 id 大小,速度和同步时间都可以自己控制,不影响原来系统业务性能。还能体现出自己的 kpi
    3. 如果有源 DB 的权限
    4. 基于 binlog,用类似 flume 或 Logstash 之类的去监测 binlog,然后增量的 binlog 刷到目标 db,目标 db 有压力的话中间搞个 kafka 之类的消息队列来缓冲一下,再用 flume 接上你的目标 db
    5. 基于触发器,设置 insert,update,delete 的触发器,执行脚本。脚本刷到 kafka 之类的队列里,然后 kafka 再到目标 db(可以再用 flume 来完成这个任务,省去自己写程序)
    6. 还有一个比较万能的软件,在用 datax 之前了解过,但是没用过,希望对你有用。kettle 据说有很多种方式来满足需求。
    1 回复
  • shuiniu 1 赞同

    @linker @xjtushilei ,昨天问的问题今天整理了两个方案出来,正在实现中(java web),欢迎讨论:

    场景

    这里对场景进行简化:

    1. 现在有张表:A 和 B,A B 表通过 id 字段关联(A 表掌握在客户手里,不能随便变更结构和数据)
    2. 俩表异构,需要自己根据业务做好字段的对应
    3. 这两张表可能不在同一个数据库
    4. 用户只对 A 进行人为操作,其中 增删改 操作的结果需要同步到 B 表
    5. 不要求实时,要求准确可靠,增量更新,并且数据量大

    分析

    增量更新必须要有相应的字段支持,否则除了行间内容的全量对比(成本高效率低),别无他法。

    增量同步的两个先决条件:

    1. A 表需要一个记录内容的 最后修改时间 的字段,假设该字段名是 modifyTime
    2. B 表需要一个记录内容的 最后同步时间 的字段,假设该字段名是 syncTime

    一些方案

    方案一

    查询出 B 表的最小 syncTime(minSync) ,分页查出 A 表 modifyTime>=minSync (上次同步完之后进行了修改) 的记录进行同步或者插入,直到所有的 modifyTime<minSync 。

    方案二

    分页从 A 表取出 id 和 modifyTime,在 B 系统中做关联对比,syncTime<=modifyTime 的记录需要更新,B 表中没有的记录则执行插入。

    注意:考虑到不同机器的时间有一些误差,需要做一些处理,避免都写出在临界值的记录没有得到更新,比如:modifyTime>=minSync-N (N 是机器间时间差和其他的时间开销产生的误差)

    以上两种方案的优缺点,暂时没有总结整理。

  • kafka 了解一下

  • 查看全部回帖

推荐标签 标签

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    149 引用 • 257 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 1 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    286 引用 • 729 回帖
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3187 引用 • 8213 回帖
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 672 关注
  • 博客

    记录并分享人生的经历。

    273 引用 • 2388 回帖
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    6 引用 • 63 回帖 • 1 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 1 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖 • 1 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 354 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 304 关注
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 614 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3453 回帖 • 203 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    543 引用 • 672 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 72 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    407 引用 • 1246 回帖 • 582 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖