HBase & Hive

本贴最后更新于 2244 天前,其中的信息可能已经斗转星移

1. Hive 中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive 本身不存储数据,它完全依赖 HDFS 和 MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的 SQL 查询功能,并将 SQL 语句最终转换为 MapReduce 任务进行运行。 而 HBase 表是物理表,适合存放非结构化的数据。
2. Hive 是基于 MapReduce 来处理数据,而 MapReduce 处理数据是基于行的模式;HBase 处理数据是基于列的而不是基于行的模式,适合海量数据的随机访问。
3. HBase 的表是疏松的存储的,因此用户可以给行定义各种不同的列;而 Hive 表是稠密型,即定义多少列,每一行有存储固定列数的数据。
4. Hive 使用 Hadoop 来分析处理数据,而 Hadoop 系统是批处理系统,因此不能保证处理的低迟延问题;而 HBase 是近实时系统,支持实时查询。
5. Hive 不提供 row-level 的更新,它适用于大量 append-only 数据集(如日志)的批任务处理。而基于 HBase 的查询,支持和 row-level 的更新。
6. Hive 提供完整的 SQL 实现,通常被用来做一些基于历史数据的挖掘、分析。而 HBase 不适用与有 join,多级索引,表关系复杂的应用场景。

先放结论:Hbase 和 Hive 在大数据架构中处在不同位置,Hbase 主要解决实时数据查询问题,Hive 主要解决数据处理和计算问题,一般是配合使用。
一、区别:

  1. Hbase: Hadoop database 的简称,也就是基于 Hadoop 数据库,是一种 NoSQL 数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。
  2. Hive:Hive 是 Hadoop 数据仓库,严格来说,不是数据库,主要是让开发人员能够通过 SQL 来计算和处理 HDFS 上的结构化数据,适用于离线的批量数据计算。
  • 通过元数据来描述 Hdfs 上的结构化文本数据,通俗点来说,就是定义一张表来描述 HDFS 上的结构化文本,包括各列数据名称,数据类型是什么等,方便我们处理数据,当前很多 SQL ON Hadoop 的计算引擎均用的是 hive 的元数据,如 Spark SQL、Impala 等;
  • 基于第一点,通过 SQL 来处理和计算 HDFS 的数据,Hive 会将 SQL 翻译为 Mapreduce 来处理数据;

二、关系
在大数据架构中,Hive 和 HBase 是协作关系,数据流一般如下图:

  1. 通过 ETL 工具将数据源抽取到 HDFS 存储;
  2. 通过 Hive 清洗、处理和计算原始数据;
  3. HIve 清洗处理后的结果,如果是面向海量数据随机查询场景的可存入 Hbase
  4. 数据应用从 HBase 查询数据;

uploading...

是的,根据 google 论文来的,类似的系统还有 Cassandra。Google 当年设计 bigtable 的原因在于公司内部各业务线需求差异太大,无论从查询性能还是存储 schema 等,导致没有办法搞一个大招解决所有部门的需求。后来还是很吊的 Jeffrey 一票人设计出来的 bigtable。早期 google 的 web 页面就存在 bigtable 里。HBase 根据论文,社区的一帮人搞出来的。现在主要的 contributor 应该是 Cloudera 和 Hortonworks 的人。HBase 本质上是一个 database,可以认为它是一个很大的 hashmap。你可以看到 HBase 很多核心的机制在于它的 compaction 和 split,以及 WAL,ragion 管理等。而它可以秒级返回,得益其 hash 的设计、bloom filter、memory cache 等,但这绝对不是它设计的初衷,只能说是一个考虑点或者优化。另外,本质上讲,把 Hive 和 HBase 放到一起对比是毫无理由的,这两个系统根本就是完全不同的东西,设计目的、架构、生态中的位置都是完全不同的。希望这个回答令你满意。:)

非常感谢详细的回复。我是这么理解的,hbase 的目标是解决海量数据的随机查询,key-value、compaction、split、wal、region、memory cache 等是围绕这个目标而采用的技术手段。另外,hive 和 hbase 是完全不同的东西我是认同的,在文中也由相关的表述。谢谢,一起讨论!

其实真正为解决 adhoc 查询的系统是你提到的 impala(虽然它现在半死不死)。database 的核心是存储,访问只是附属品。Anyway,你怎么认为这个系统,你开心就好,我有时候会比较钻牛角尖,勿怪。

没事,探讨而已,不同思想碰撞一下。impala 适合 olap 多维分析的 adhoc 场景,但高并发能力不行,hbase 适合单表的清单数据高并发基于某个 key 的查询,当然现在 kylin 的 OLAP 分析底层也是基于 hbase 来做。

  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖

相关帖子

回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • V2Ray
    1 引用 • 15 回帖
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 1 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 346 关注
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    261 引用 • 662 回帖 • 2 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 25 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    164 引用 • 406 回帖 • 523 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 249 关注
  • CodeMirror
    1 引用 • 2 回帖 • 108 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 9 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    15 引用 • 7 回帖
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 443 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 66 关注
  • 反馈

    Communication channel for makers and users.

    123 引用 • 906 回帖 • 177 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1738 回帖 • 2 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    57 引用 • 22 回帖
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 518 关注
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 591 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    491 引用 • 1383 回帖 • 370 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    129 引用 • 791 回帖 • 1 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 47 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 22 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    45 引用 • 113 回帖 • 321 关注
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    96 引用 • 330 回帖
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    21 引用 • 22 回帖 • 1 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 339 关注