hive metastore 元数据字段信息

本贴最后更新于 2063 天前,其中的信息可能已经天翻地覆
  1. DBS -- 存储 Hive 中所有数据库的基本信息

    元数据表字段 说明 示例数据
    DB_ID 数据库 ID 2
    DESC 数据库描述 测试库
    DB_LOCATION_URI 数据库 HDFS 路径
    NAME 数据库名 1234
    OWNER_NAME 数据库所有者用户名 1234
    OWNER_TYPE 所有者角色 USER
  2. DATABASE_PARAMS  --该表存储数据库的相关参数,在 CREATE DATABASE 时候用

    元数据表字段 说明 示例数据
    DB_ID 数据库 ID 2
    PARAM_KEY 参数名 createdby
    PARAM_VALUE 参数值 1234
  3. TBLS --该表中存储 Hive 表、视图、索引表的基本信息。

    元数据表字段 说明 示例数据
    TBL_ID 表 ID 1
    CREATE_TIME 创建时间 1436317071
    DB_ID 数据库 ID 2,对应 DBS 中的 DB_ID
    LAST_ACCESS_TIME 上次访问时间 1436317071
    OWNER 所有者 2222
    RETENTION 保留字段 0
    SD_ID 序列化配置信息 86,对应 SDS 表中的 SD_ID
    TBL_NAME 表名 1234
    TBL_TYPE 表类型 MANAGED_TABLE、EXTERNAL_TABLE、INDEX_TABLE、VIRTUAL_VIEW
    VIEW_EXPANDED_TEXT 视图的详细 HQL 语句 select 111.pt, 222.pcid from test.tab1
    VIEW_ORIGINAL_TEXT 视图的原始 HQL 语句 select * from ta b
  4. TABLE_PARAMS --该表存储表/视图的属性信息

    元数据表字段 说明 示例数据
    TBL_ID 表 ID 1
    PARAM_KEY 属性名 totalSize、numRows、EXTERNAL
    PARAM_VALUE 属性值 970107336、21231028、TRUE
  5. SDS --该表保存文件存储的基本信息,如 INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等

    元数据表字段 说明 示例数据
    SD_ID 存储信息 ID 1
    CD_ID 字段信息 ID 21,对应 CDS 表
    INPUT_FORMAT 文件输入格式 org.apache.hadoop.mapred.TextInputFormat
    IS_COMPRESSED 是否压缩 0
    IS_STOREDASSUBDIRECTORIES 是否以子目录存储 0
    LOCATION HDFS 路径
    NUM_BUCKETS 分桶数量 5
    OUTPUT_FORMAT 文件输出格式 org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
    SERDE_ID 序列化类 ID 3,对应 SERDES 表
  6. SD_PARAMS --该表存储 Hive 存储的属性信息,在创建表时候使用

    元数据表字段 说明 示例数据
    SD_ID 存储配置 ID 1
    PARAM_KEY 存储属性名
    PARAM_VALUE 存储属性值
  7. SERDES --该表存储序列化使用的类信息

    元数据表字段 说明 示例数据
    SERDE_ID 序列化类配置 ID 1
    NAME 序列化类别名
    SLIB 序列化类 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
  8. SERDE_PARAMS --该表存储序列化的一些属性、格式信息,比如:行、列分隔符

    元数据表字段 说明 示例数据
    SERDE_ID 序列化类配置 ID 1
    PARAM_KEY 属性名 field.delim
    PARAM_VALUE 属性值 ,
  9. COLUMNS_V2 --该表存储表对应的字段信息

    元数据表字段 说明 示例数据
    CD_ID 字段信息 ID 1
    COMMENT 字段注释
    COLUMN_NAME 字段名 pt
    TYPE_NAME 字段类型 string
    INTEGER_IDX 字段顺序 2
  10. PARTITIONS -- 该表存储表分区的基本信息

    元数据表字段 说明 示例数据
    PART_ID 分区 ID 1
    CREATE_TIME 分区创建时间
    LAST_ACCESS_TIME 最后一次访问时间
    PART_NAME 分区名 pt=2015-06-12
    SD_ID 分区存储 ID 21
    TBL_ID 表 ID 2
  11. PARTITION_KEYS --该表存储分区字段值

    元数据表字段 说明 示例数据
    TBL_ID 表 ID 2
    PKEY_COMMENT 分区字段说明
    PKEY_NAME 分区字段名 pt
    PKEY_TYPE 分区字段类型 string
    INTEGER_IDX 分区字段顺序 1
  12. PARTITION_PARAMS --该表存储分区的属性信息

    元数据表字段 说明 示例数据
    PART_ID 分区 ID 2
    PARAM_KEY 分区属性名 numFiles、numRows
    PARAM_VALUE 分区属性值 15、502195
  13. PARTITION_KEY_VALS --该表存储分区字段值

    元数据表字段 说明 示例数据
    PART_ID 分区 ID 2
    PART_KEY_VAL 分区字段值 2015-06-12
    INTEGER_IDX 分区字段值顺序 0
  • Hive
    22 引用 • 7 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    86 引用 • 165 回帖 • 1 关注
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 12 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3455 回帖 • 157 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 565 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 120 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    32 引用 • 99 回帖
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 614 关注
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 67 回帖 • 449 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    54 引用 • 44 回帖
  • AWS
    11 引用 • 28 回帖 • 5 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    693 引用 • 537 回帖
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    6 引用 • 26 回帖 • 541 关注
  • PWL

    组织简介

    用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖
    用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/

    用爱发电组织的核心驱动力:

    • 遵守开源守则,体现开源&贡献精神:以分享为目的,拒绝非法牟利。
    • 自我保护:使用适当的 License 保护自己的原创作品。
    • 尊重他人:不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露;以礼相待,尊重所有对社区做出贡献的开发者;通过他人的分享习得知识,要留下足迹,表示感谢。
    • 热爱编程、热爱学习:加入组织,热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友,也同样欢迎默默成就的朋友。
    • 倾听:正确并恳切对待、处理问题与建议,及时修复开源项目的 Bug ,及时与反馈者沟通。不抬杠、不无视、不辱骂。
    • 平视:不诋毁、轻视、嘲讽其他开发者,主动提出建议、施以帮助,以和谐为本。只要他人肯努力,你也可能会被昔日小看的人所超越,所以请保持谦虚。
    • 乐观且活跃:你的努力决定了你的高度。不要放弃,多年后回头俯瞰,才会发现自己已经成就往日所仰望的水平。积极地将项目开源,帮助他人学习、改进,自己也会获得相应的提升、成就与成就感。
    1 引用 • 487 回帖 • 4 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    7 引用 • 27 回帖
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    78 引用 • 396 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 45 关注
  • abitmean

    有点意思就行了

    34 关注
  • OpenCV
    15 引用 • 36 回帖 • 6 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖
  • 倾城之链
    23 引用 • 66 回帖 • 167 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖
  • Follow
    4 引用 • 12 回帖 • 10 关注
  • gRpc
    11 引用 • 9 回帖 • 93 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 233 回帖
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 344 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 141 关注