HBase & Hive

本贴最后更新于 2636 天前,其中的信息可能已经斗转星移

1. Hive 中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive 本身不存储数据,它完全依赖 HDFS 和 MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的 SQL 查询功能,并将 SQL 语句最终转换为 MapReduce 任务进行运行。 而 HBase 表是物理表,适合存放非结构化的数据。
2. Hive 是基于 MapReduce 来处理数据,而 MapReduce 处理数据是基于行的模式;HBase 处理数据是基于列的而不是基于行的模式,适合海量数据的随机访问。
3. HBase 的表是疏松的存储的,因此用户可以给行定义各种不同的列;而 Hive 表是稠密型,即定义多少列,每一行有存储固定列数的数据。
4. Hive 使用 Hadoop 来分析处理数据,而 Hadoop 系统是批处理系统,因此不能保证处理的低迟延问题;而 HBase 是近实时系统,支持实时查询。
5. Hive 不提供 row-level 的更新,它适用于大量 append-only 数据集(如日志)的批任务处理。而基于 HBase 的查询,支持和 row-level 的更新。
6. Hive 提供完整的 SQL 实现,通常被用来做一些基于历史数据的挖掘、分析。而 HBase 不适用与有 join,多级索引,表关系复杂的应用场景。

先放结论:Hbase 和 Hive 在大数据架构中处在不同位置,Hbase 主要解决实时数据查询问题,Hive 主要解决数据处理和计算问题,一般是配合使用。
一、区别:

  1. Hbase: Hadoop database 的简称,也就是基于 Hadoop 数据库,是一种 NoSQL 数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。
  2. Hive:Hive 是 Hadoop 数据仓库,严格来说,不是数据库,主要是让开发人员能够通过 SQL 来计算和处理 HDFS 上的结构化数据,适用于离线的批量数据计算。
  • 通过元数据来描述 Hdfs 上的结构化文本数据,通俗点来说,就是定义一张表来描述 HDFS 上的结构化文本,包括各列数据名称,数据类型是什么等,方便我们处理数据,当前很多 SQL ON Hadoop 的计算引擎均用的是 hive 的元数据,如 Spark SQL、Impala 等;
  • 基于第一点,通过 SQL 来处理和计算 HDFS 的数据,Hive 会将 SQL 翻译为 Mapreduce 来处理数据;

二、关系
在大数据架构中,Hive 和 HBase 是协作关系,数据流一般如下图:

  1. 通过 ETL 工具将数据源抽取到 HDFS 存储;
  2. 通过 Hive 清洗、处理和计算原始数据;
  3. HIve 清洗处理后的结果,如果是面向海量数据随机查询场景的可存入 Hbase
  4. 数据应用从 HBase 查询数据;

uploading...

是的,根据 google 论文来的,类似的系统还有 Cassandra。Google 当年设计 bigtable 的原因在于公司内部各业务线需求差异太大,无论从查询性能还是存储 schema 等,导致没有办法搞一个大招解决所有部门的需求。后来还是很吊的 Jeffrey 一票人设计出来的 bigtable。早期 google 的 web 页面就存在 bigtable 里。HBase 根据论文,社区的一帮人搞出来的。现在主要的 contributor 应该是 Cloudera 和 Hortonworks 的人。HBase 本质上是一个 database,可以认为它是一个很大的 hashmap。你可以看到 HBase 很多核心的机制在于它的 compaction 和 split,以及 WAL,ragion 管理等。而它可以秒级返回,得益其 hash 的设计、bloom filter、memory cache 等,但这绝对不是它设计的初衷,只能说是一个考虑点或者优化。另外,本质上讲,把 Hive 和 HBase 放到一起对比是毫无理由的,这两个系统根本就是完全不同的东西,设计目的、架构、生态中的位置都是完全不同的。希望这个回答令你满意。:)

非常感谢详细的回复。我是这么理解的,hbase 的目标是解决海量数据的随机查询,key-value、compaction、split、wal、region、memory cache 等是围绕这个目标而采用的技术手段。另外,hive 和 hbase 是完全不同的东西我是认同的,在文中也由相关的表述。谢谢,一起讨论!

其实真正为解决 adhoc 查询的系统是你提到的 impala(虽然它现在半死不死)。database 的核心是存储,访问只是附属品。Anyway,你怎么认为这个系统,你开心就好,我有时候会比较钻牛角尖,勿怪。

没事,探讨而已,不同思想碰撞一下。impala 适合 olap 多维分析的 adhoc 场景,但高并发能力不行,hbase 适合单表的清单数据高并发基于某个 key 的查询,当然现在 kylin 的 OLAP 分析底层也是基于 hbase 来做。

  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖 • 2 关注

相关帖子

回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    7 引用 • 27 回帖
  • 996
    13 引用 • 200 回帖 • 2 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    42 引用 • 130 回帖 • 247 关注
  • 反馈

    Communication channel for makers and users.

    126 引用 • 930 回帖 • 272 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 678 关注
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 288 关注
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖
  • 叶归
    5 引用 • 16 回帖 • 10 关注
  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖 • 2 关注
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 1 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    84 引用 • 324 回帖 • 1 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 1 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 2 关注
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    151 引用 • 257 回帖 • 1 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    948 引用 • 1460 回帖 • 1 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 505 关注
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    289 引用 • 4492 回帖 • 655 关注
  • Word
    13 引用 • 40 回帖
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 6 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    173 引用 • 518 回帖
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    211 引用 • 358 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    35 引用 • 468 回帖 • 760 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    20 引用 • 7 回帖 • 4 关注