记录:一次数据迁移

本贴最后更新于 2009 天前,其中的信息可能已经斗转星移

迁移前的情况

  • 数据量:80万+

  • 数据表字段数量:48个字段

  • 数据库:阿里云RDS数据库

  • 迁移环境:本地计算机

  • 情况说明:公司业务中有一个API导入导出的功能,也就是数据要从上游导进来和导出给下游,但是由于种种原因,当前项目数据库中很多字段都是用字符串来存储,在对接了一段时间后,出现问题,上游导进来的数据字符串多种多样,不规范字符随处可见,甚至还有乱码;鉴于这种情况,公司决定对数据库做规范,全部用数字代码替换字符串,但同时不能影响线上版本的使用;数据迁移就是这个需求中的其中一环。

数据迁移

迁移思路

从开始设计到实际迁移经历了3个版本优化,下面会一个一个的说明

  1. Version1.0

    从数据库取出数据,对数据做处理,然后存储到新表中;

    问题:转化速度很慢,当时做了一个实验,估算完成时间大概需要15天左右,原因就是各流程的效率是不一样的,这个时间太长显然行不通

    这个阶段的代码很初级,就不附了(ps:我不会告诉你是因为我懒)

  2. Version1.1

    从上面的测试中发现两个问题:

     处理的速度慢于写,写远远慢于读,处理与写的效率大概是1:5的比例(按完成时间计算出的);
     整体的效率很低,读写一次算作一个流程的话,每个流程要连接数据库两次;并且读完一条数据后就猫在一边等着了,处理和写操作都完成才读下一条,处理和写又是耗时最长的操作;
    

    这个过程做个比喻就像是一条月饼流水生产线,A准备原料,B做月饼,C包装,现在的情况是A准备一份的量,就在等着BC,B做完了,就等着C,C做好之后A才准备下一份,此时BC又在等着A,这个速度可想而知。

    所以这个版本尝试把流程分离,A 读出全部数据,B 处理数据的同时,C 负责不断的写,这样做需要一个盘子(中间件),B 处理好数据之后放到盘子里,C 不停从盘子里拿;(当然三个流程可以各自独立,但读耗费的时间对整体时间的影响我个人觉得稍微优化下可以接受,所以只把 BC 流程分离)

    那么问题就来了:这个盘子应该用什么来做?

    这个盘子应该是双向的,一端进,一端出,并且进出的时候不能出异常,也就是线程安全!想想应该是队列,而且是线程安全的队列,即:ConcurrentLinkedQueue(需要注意的是使用这个队列,非空判断的时候一定要避免用 size,原因嘛请百度)

    到这里,应该基本的结构就出来了:

    两个线程,一个负责处理数据,处理之后把数据放进队列,另一个线程负责写,从队列中拿数据写到新表里去;注意写操作的时候不光要对队列做非空判断,还要判断处理线程是否在进行(也就是队列中还会不会有新数据进来)

    照例,不附代码!

  3. Version2.0

    按照版本 1.1 来做还是满足不了需求,时间确实减少了很多,但还是很长,那接下来该怎么优化?

    想想实际生活,这种情况明显就是人手不足了,人手不足能怎么办?当然是招人了!所以程序的思路也是这样,既然BC两个人已经不够用了,那每个岗位就再招他个七八个人,总该够了吧!

    多线程操作,这个时候代码的结构开始有所体现了,所以果断 OOP,new 两个岗位类,一个负责处理数据,一个负责写数据;这两个类我的命名是“MigrateProcessor”(处理类)和“MigrateWriter”(写入类)

public class MigrateWriter {

    /**
     * 实例化对象
     * @param queue
     */
    public  void  getInstance(ConcurrentLinkedQueue queue,String threadName,MigrateManage migrateService,PageData c){
        this.init(queue,threadName,migrateService,c);
        this.destroy();
    }

    /**
     * 初始化
     */
    private void init(ConcurrentLinkedQueue queue,String threadName,MigrateManage migrateService,PageData c){
        boolean flag = true;
        while(flag){
            if(queue.isEmpty()){
                if(Integer.parseInt(c.get("c").toString())>0){
                    continue;
                }
            }
            try{
                PageData ml = (PageData)queue.poll();
                this.execute(ml,threadName,migrateService);
            }catch (Exception e){
                e.printStackTrace();
                System.out.println(threadName+"---插入数据库失败");
                continue;
            }
            if(queue.isEmpty() && (Integer.parseInt(c.get("c").toString())<=0) ){
                flag = false;
            }
        }

    }

    /**
     * 执行操作
     */
    private void execute(PageData ml,String threadName,MigrateManage migrateService) throws Exception {
        if(null!=ml){
            long begin = System.currentTimeMillis();

            //更新到数据库
            migrateService.updateLoanCopy(ml);

            long end = System.currentTimeMillis();
            System.out.println(threadName+"---插入数据成功---id:"+ml.get("id").toString()+"---需要"+(end-begin)+"ms");
        }
    }

    /**
     * 销毁
     */
    public void destroy(){
        System.out.println(Thread.currentThread().getName()+"结束!");
        while (!Thread.currentThread().isInterrupted()) {
            Thread.currentThread().interrupt();
        }
    }

}
public class MigrateProcessor {

    /**
     * 实例化对象
     * @param queue
     */
    public void getInstance(ConcurrentLinkedQueue queue, List<PageData> migrateLoanCityInfo, String threadName, MigrateManage migrateService,PageData c) {
        this.init(queue, migrateLoanCityInfo, threadName, migrateService,c);
        int cou = Integer.parseInt(c.get("c").toString());
        c.put("c",cou--);
        this.destroy();
    }

    /**
     * 初始化
     */
    private void init(ConcurrentLinkedQueue queue, List<PageData> migrateLoanCityInfo, String threadName, MigrateManage migrateService,PageData c) {
        for (PageData ml : migrateLoanCityInfo) {
            long begin = System.currentTimeMillis();
            try {
                this.execute(queue, ml, threadName, migrateService);
            } catch (ArithmeticException s) {
                continue;
            } catch (Exception e) {
                e.printStackTrace();
                System.out.println(threadName + "处理数据发生错误:" + ml.get("id").toString());
                continue;
            }
            queue.offer(ml);
            long end = System.currentTimeMillis();
            System.out.println(threadName + "处理一条数据需要" + (end - begin) + "ms");
        }

    }

    /**
     * 执行操作(这里只转化了一个字段,做个演示用,源数据很杂,需要多次转化,这里业务逻辑可以忽略掉,只要知道这里是用来处理各个字段的就行)
     */
    private void execute(ConcurrentLinkedQueue queue, PageData ml, String threadName, MigrateManage migrateService) throws Exception {
        if ((!NumberUtils.isNumber(ml.getString("loan_oldcity"))) && null != ml.get("loan_oldcity") && (!"".equals(ml.get("loan_oldcity")))) {
            ml.put("city_name", ml.getString("loan_oldcity"));
            PageData codeInfo = migrateService.getCityCodeByCityName(ml);
            if (null != codeInfo && !"".equals(codeInfo)) {
                ml.put("loan_oldcity", codeInfo.getString("city_code"));
            } else {
                PageData cityTranscate = migrateService.getCityTranscate(ml);       //转换城市
                if (null != cityTranscate && !"".equals(cityTranscate)) {
                    //再次查询是否有code值
                    ml.put("city_name", cityTranscate.get("unified_location").toString());
                    codeInfo = migrateService.getCityCodeByCityName(ml);
                    if (null != codeInfo && !"".equals(codeInfo)) {
                        ml.put("loan_oldcity", codeInfo.getString("city_code"));
                    } else {
                        System.out.println(ml.get("id").toString() + "---loan_oldcity转化后查找不到---" + ml.getString("loan_oldcity"));
                    }
                } else {
                    System.out.println(ml.get("id").toString() + "---loan_oldcity无法转化---" + ml.getString("loan_oldcity"));
                }
            }
        } else if (NumberUtils.isNumber(ml.getString("loan_oldcity"))) {
            throw new ArithmeticException();
        }
    }

    /**
     * 销毁
     */
    private void destroy() {
        System.out.println(Thread.currentThread().getName()+"结束!");
        while (!Thread.currentThread().isInterrupted()) {
            Thread.currentThread().interrupt();
        }
    }

}

主流程(看个人的电脑配置,10 个线程我的电脑已到极限的极限):

对读操作做些优化,限制单次查询数量,耗时大约50s(为什么要限制,你也可以试试一次读出来,可能会有惊喜)
处理数据,5个线程对我来说足够,处理的同时放入队列
插入数据,4个线程
        List<PageData> migrateLoanCityInfo = migrateService.getMigrateLoanCityInfo(pd);
        System.out.println("总数据量:"+migrateLoanCityInfo.size());

        int size = 5;
        PageData c = new PageData();
        c.put("c",size);


        List<List<PageData>> listArr=new ArrayList<List<PageData>>();
        int remaider=migrateLoanCityInfo.size()%size;  //(先计算出余数)
        int number=migrateLoanCityInfo.size()/size;  //然后是商
        int offset=0;//偏移量
        for(int i=0;i<size;i++){
            List<PageData> value=null;
            if(remaider>0){
                value=migrateLoanCityInfo.subList(i*number+offset, (i+1)*number+offset+1);
                remaider--;
                offset++;
            }else{
                value=migrateLoanCityInfo.subList(i*number+offset, (i+1)*number+offset);
            }
            listArr.add(value);
        }

        ConcurrentLinkedQueue queue = new ConcurrentLinkedQueue();      //用来存储数据的队列

        //processor处理字段,并存入ConcurrentLinkedQueue中
        Thread mp_1 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(0),"mp_1",migrateService,c);
            }
        });
        Thread mp_2 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(1),"mp_2",migrateService,c);
            }
        });
        Thread mp_3 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(2),"mp_3",migrateService,c);
            }
        });
        Thread mp_4 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(3),"mp_4",migrateService,c);
            }
        });
        Thread mp_5 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateProcessor mp = new MigrateProcessor();
                mp.getInstance(queue,listArr.get(4),"mp_5",migrateService,c);
            }
        });

        mp_1.start();
        mp_2.start();
        mp_3.start();
        mp_4.start();
        mp_5.start();

        Thread mv_t1 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateWriter mw = new MigrateWriter();
                mw.getInstance(queue,"mv_t1",migrateService,c);
            }
        });
        Thread mv_t2 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateWriter mw = new MigrateWriter();
                mw.getInstance(queue,"mv_t2",migrateService,c);
            }
        });
        Thread mv_t3 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateWriter mw = new MigrateWriter();
                mw.getInstance(queue,"mv_t3",migrateService,c);
            }
        });
        Thread mv_t4 = new Thread(new Runnable() {
            @Override
            public void run() {
                MigrateWriter mw = new MigrateWriter();
                mw.getInstance(queue,"mv_t4",migrateService,c);
            }
        });

        mv_t1.start();
        mv_t2.start();
        mv_t3.start();
        mv_t4.start();

这样做迁移处理完所有数据需要 4-5 个小时左右,当前的耗时可以在我项目进度之内,所以接下来就没有再另外做优化,那另外还有其他的优化方式吗?答案是肯定有的!

最后说明两点:

代码中还有很多生硬的部分,比如线程间的通信协调,如果有大牛看到了,希望指点指点~
这些代码只是演示说明用,并不是全部,直接用会出bug的哦
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1083 引用 • 3461 回帖 • 286 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3168 引用 • 8207 回帖
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    675 引用 • 535 回帖
  • 线程
    120 引用 • 111 回帖 • 3 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 996
    13 引用 • 200 回帖
  • 自由行
    2 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    45 引用 • 113 回帖 • 312 关注
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    75 引用 • 258 回帖 • 626 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    76 引用 • 37 回帖
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 9 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 27 关注
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    15 引用 • 136 回帖 • 6 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 3 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 511 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    129 引用 • 793 回帖 • 1 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 545 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1083 引用 • 3461 回帖 • 286 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    123 引用 • 168 回帖
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    10 引用 • 54 回帖 • 126 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 54 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 238 关注
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    60 引用 • 287 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 92 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 1 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖
  • abitmean

    有点意思就行了

    24 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 345 关注
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    21 引用 • 37 回帖 • 512 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 295 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 40 关注