MongoDB4.0 搭建分布式集群 - 笔记

本贴最后更新于 2148 天前,其中的信息可能已经沧海桑田

搭建之前先了解一下 MongoDB 分片群集主要有如下三个组件:

Shard:分片服务器,用于存储实际的数据块,实际生产环境中一个 shard server 角色可以由几台服务器组成一个 Peplica Set 承担,防止主机单点故障。
Config Server:配置服务器,存储了整个分片群集的配置信息,其中包括 chunk 信息。
Routers:前端路由,客户端由此接入,且让整个群集看上去像单一数据库,前端应用可以透明使用。

系统环境

Centos7.5、MongoDB4.0.2、关闭防火墙。

IP 路由服务端口 配置服务端口 分片 1 端口 分片 2 端口 分片 3 端口
10.211.55.3 27018 27018 27001 27002 27003
10.211.55.4 27018 27018 27001 27002 27003
10.211.55.5 27018 27018 27001 27002 27003

imagepng

三台机器的配置服务(27018)形成复制集,分片 1、2、3 也在各机器都部署一个实例,它们之间形成复制集,客户端直接连接 3 个路由服务与之交互,配置服务和分片服务对客户端是透明的。

服务器的安装及配置(3 台服务器执行相同操作)

1、下载解压 MongoDB

到 MongoDB 官网下载:https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.2.tgz

解压到/home/mongodb,设置环境变量:

export PATH=$PATH:/home/mongodb/bin
保存后执行:

srouce /etc/profile
2、创建路由、配置、分片等的相关目录与文件

启动配置文件存放的文件夹:mkdir -p /home/mongodb/conf
配置服务数据存放目录:mkdir -p /home/mongodb/data/config
分片 1 服务数据存放目录:mkdir -p /home/mongodb/data/shard1
分片 2 服务数据存放目录:mkdir -p /home/mongodb/data/shard2
分片 3 服务数据存放目录:mkdir -p /home/mongodb/data/shard3
配置服务日志存放文件:mkdir -p /home/mongodb/log/config.log
路由服务日志存放文件:mkdir -p /home/mongodb/log/mongos.log
分片 1 服务日志存放文件:mkdir -p /home/mongodb/log/shard1.log
分片 2 服务日志存放文件:mkdir -p /home/mongodb/log/shard2.log
分片 3 服务日志存放文件:mkdir -p /home/mongodb/log/shard3.log

配置服务器部署(3 台服务器执行相同操作)

1、在/home/mongodb/conf 目录创建 config.conf:

dbpath=/home/mongodb/data/config
logpath=/home/mongodb/log/config.log
port=27018
logappend=true
fork=true
maxConns=5000

#复制集名称
replSet=configs

#置参数为 true
configsvr=true

#允许任意机器连接
bind_ip=0.0.0.0
2、配置复制集

分别启动三台服务器的配置服务:

mongod -f /home/mongodb/conf/config.conf
连接 mongo,只需在任意一台机器执行即可:

mongo --host 10.211.55.3 --port 27018
切换数据库:

use admin
初始化复制集:

rs.initiate({_id:"configs",members:[{_id:0,host:"10.211.55.3:27018"},{_id:1,host:"10.211.55.4:27018"}, {_id:2,host:"10.211.55.5:27018"}]})
其中_id:"configs"的 configs 是上面 config.conf 配置文件里的复制集名称,把三台服务器的配置服务组成复制集。

查看状态:

rs.status()
等几十秒左右,执行上面的命令查看状态,三台机器的配置服务就已形成复制集,其中 1 台为 PRIMARY,其他 2 台为 SECONDARY。

分片服务部署(3 台服务器执行相同操作)

1、在/home/mongodb/conf 目录创建 shard1.conf、shard2.conf、shard3.conf,内容如下:

dbpath=/home/mongodb/data/shard1 #其他 2 个分片对应修改为 shard2、shard3 文件夹
logpath=/home/mongodb/log/shard1.log #其他 2 个分片对应修改为 shard2.log、shard3.log
port=27001 #其他 2 个分片对应修改为 27002、27003
logappend=true
fork=true
maxConns=5000
storageEngine=mmapv1
shardsvr=true
replSet=shard1 #其他 2 个分片对应修改为 shard2、shard3
bind_ip=0.0.0.0
端口分别是 27001、27002、27003,分别对应 shard1.conf、shard2.conf、shard3.conf。

还有数据存放目录、日志文件这几个地方都需要对应修改。

在 3 台机器的相同端口形成一个分片的复制集,由于 3 台机器都需要这 3 个文件,所以根据这 9 个配置文件分别启动分片服务:

mongod -f /home/mongodb/conf/shard{1/2/3}.conf
2、将分片配置为复制集

连接 mongo,只需在任意一台机器执行即可:

mongo --host 10.211.55.3 --port 27001 //这里以 shard1 为例,其他两个分片则再需对应连接到 27002、27003 的端口进行操作即可
切换数据库:

use admin
初始化复制集:

rs.initiate({_id:"shard1",members:[{_id:0,host:"10.211.55.3:27001"},{_id:1,host:"10.211.55.4:27001"},{_id:2,host:"10.211.55.5:27001"}]})
以上是基于分片 1 来操作,同理,其他 2 个分片也要连到各自的端口来执行一遍上述的操作,让 3 个分片各自形成 1 主 2 从的复制集,注意端口及仲裁节点的问题即可,操作完成后 3 个分片都启动完成,并完成复制集模式。

路由服务部署(3 台服务器执行相同操作)

1、在/home/mongodb/conf 目录创建 mongos.conf,内容如下:

logpath=/home/mongodb/log/mongos.log
logappend = true
port = 27017
fork = true
configdb = configs/10.211.55.3:27018,10.211.55.4:27018,10.211.55.5:27018
maxConns=20000
bind_ip=0.0.0.0

2、启动 mongos

分别在三台服务器启动:

mongos -f /home/mongodb/conf/mongos.conf

3、启动分片功能

连接 mongo:

mongo --host 10.211.55.3 --port 27017
切换数据库:

use admin
添加分片,只需在一台机器执行即可:

sh.addShard("shard1/10.211.55.3:27001,10.211.55.4:27001,10.211.55.5:27001")
sh.addShard("shard2/10.211.55.3:27002,10.211.55.4:27002,10.211.55.5:27002")
sh.addShard("shard3/10.211.55.3:27003,10.211.55.4:27003,10.211.55.5:27003")
查看集群状态:

sh.status()

4、实现分片功能

设置分片 chunk 大小

use config
db.setting.save({"_id":"chunksize","value":1}) # 设置块大小为 1M 是方便实验,不然需要插入海量数据

5、模拟写入数据

use calon
for(i=1;i<=50000;i++){db.user.insert({"id":i,"name":"jack"+i})} #模拟往 calon 数据库的 user 表写入 5 万数据

7、启用数据库分片

sh.enableSharding("calon")

8、创建索引,对表进行分片

db.user.createIndex({"id":1}) # 以"id"作为索引
sh.shardCollection(calon.user",{"id":1}) # 根据"id"对 user 表进行分片
sh.status() # 查看分片情况

到此,MongoDB 分布式集群就搭建完毕。






扫一扫有惊喜: [![imagepng](http://itechor.top/solo/upload/bb791a58c3a84193b7f643b6849482c5_image.png) ](http://ym0214.com)
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 1 关注
  • 集群
    29 引用 • 65 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 65 回帖 • 439 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 1 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 1 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    75 引用 • 1737 回帖 • 3 关注
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    149 引用 • 257 回帖
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    12 引用 • 54 回帖 • 164 关注
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    6 引用 • 38 回帖
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    568 引用 • 3532 回帖 • 1 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖 • 2 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖 • 2 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 431 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 1 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖 • 1 关注
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 1 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22378 引用 • 89573 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 597 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 304 关注
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 210 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    179 引用 • 407 回帖 • 488 关注
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 530 关注
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 673 关注