HBase 基础概念描述

本贴最后更新于 1698 天前,其中的信息可能已经时异事殊

1.HBase概述 

    属于nosql型数据库,不仅仅是数据库,not only sql

    常用的nosql数据库分类:1)文档数据库mogondb,2)键值对数据库,redis、memcache,3)hbase分布式数据库

2.数据库的主要的种类

    1)MySQL,属于oracle公司,3306,中小型企业居多,有社区版(免费)

    2)oracle,属于甲骨文公司,1521,商业版(收费),建表之前,建一个空间namespace

    3) sql server,1433

3.hbase与oracle有相似,它们没有数据库的概念(database),在hbase中也有namespace的概念

4、早期的数据都是存储在关系型数据库中,数据量,潜在有价值的数据,每天的数据量达到TB级别,比如MySQL,存储超过一定界限(比如:三千万条),导致查询速率下降

5、哪些公司的数据量较大?

    1)互联网公司-》爬虫-》数据量大-》存储-》筛选

    2)金融行业-》客户行为分析(习惯)-》争抢客户

    3)政府机构,买车、上牌-》后台登记身份证信息-》个人信息后台存储

6、hbase的特点之一:

    1)列式存储(同时存储上百万的列)

    2)存储量大(亿级别)

    3)查询依旧维持在秒级

    4)hbase的底层存储依赖于HDFS

    5)分布式数据库,架构:主从架构,主节点:master,从节点:regionserver

    6)高可用性

7.在hbase中所有的表都依赖于一个namespace下

    1)行键:rowkey(相当于是主键的概念),唯一标识一行

    2)列簇(列族):column family,每一个列簇中才包含了字段

    3)多版本:version,它能够存储多个值,(int值),存几个历史的版本(副本)

    4)在hbase中所有的列都必须属于某一个列簇中,除了rowkey之外

    5)在关系型数据库中,字段为空的就是null,但是在hbase中就不会有这一列,不会分配任何的空间

    6)列簇在hbase中必须要有的,建表的时候至少要有一个列簇(可以不给字段,但必须要给列簇)

  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    83 引用 • 112 回帖
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 7 关注

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...