Hive 基础语句(建库,建表,导入数据)

本贴最后更新于 1705 天前,其中的信息可能已经沧海桑田

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/u012274449/article/details/88327067

可能会遇到权限不足的问题:

hadoop fs -chmod 777 /user

将一个文件加载到 HDFS

hadoop fs -mkdir /user/demo/states/

hadoop fs -put /tmp/states.txt /user/demo/states/

hadoop fs -ls /user/demo/states/

使用 hadoop fs 文件系统命令 将权限开启

最简单的建立数据库的方法:

CREATE DATABASE shopping;

它将在 hive.metastore.warehouse.dir 中定义的默认顶层目录下建立一个名为 shopping.db 的目录

完整语法如下:

CREATE(DATABASE|SCHEMA) [IF NOT EXISTS] database_name

[COMMENT database_comment]

[LOCATION hdfs_path]

[WITH DBPROPERTIES (PROPERTY_NAME = property_value,...)];

CREATE DATABASE if NOT EXISTS shopping

comment 'shores all shopping baseket data'

LOCATION '/user/hive/warehouse/SHOPPING.db'

WITH DBPROPERTIES('purpose'='testing');

修改数据库属性:

ALTER DATABASE shopping SET DBPROPERTIES('department'='SALES');

删除数据库:

DROP DATABASE shopping CASCADE; CASCADE 意味着级联删除,数据库和表一起删除.默认为 RESTRICT (限制)

创建一张表:

CREATE EXTERNAL TABLE shopping.customers(

fname STRING,

lname STRING,

address STRUCT<HOUSENO:STRING, STREET:STRING, CITY:STRING, ZIPCODE:INT,STATE:STRING,COUNTRY:STRING>,

active BOOLEAN,

created DATE)

COMMENT 'yizhangbiao';

CREATE EXTERNAL 表示创建一张 外部表; 删除外部表不会删除底层数据.

将一个文件加载到 HDFS

hadoop fs -mkdir /user/demo/states/

hadoop fs -put /tmp/states.txt /user/demo/states/

hadoop fs -ls /user/demo/states/

创建一个内部表访问 states 文件夹下的文件,也就是 states.txt,如果有多个文件,他会查出所有文件内容

CREATE TABLE states_internal (state string) LOCATION '/user/demo/states';

查看表定义:

DESCRIBE FORMATTED states_internal;

查询数据:

SELECT * FROM states_internal;

创建一个外部表:

CREATE EXTERNAL TABLE states_external (state string) LOCATION '/user/demo/states';

建立第二个外部表

CREATE EXTERNAL TABLE states_external2(state string) LOCATION '/user/demo/states';

删除外部表:

DRop TABLE states_external;

再次查询:

SELECT * FROM staties_external2;

说明删除外部表不影响底层数据.

删除内部表

DROP TABLE states_internal;

按照文档中所说,删除内部表会将底层数据也进行删除.

但是实际操作,数据也没有删除..这里存疑

创建不含标题的外部表:

CREATE EXTERNAL TABLE state3(state string) LOCATION '/user/demo/states' TBLPROPERTIES ("skip.header.line.count"="2");

生成已有表的 create table 命令:

show create table state3;

创建一个带分区列的表:

CREATE EXTERNAL TABLE transactions(

Transdate DATE,

transid INT,

custid INT,

fname STRING,

lname STRING,

item STRING,

qty INT,

price FLOAT

)

PARTITIONED BY(store STRING); //最后一句是分区列,这个列并不一定要在表结构中存在.

插入数据:

INSERT INTO transactions PARTITION(store="woshi") values("01/25/2016",101,"A109","1111","SMITH","SHOES",1,11);

查询日期

SELECT * FROM transactions WHERE transdate BETWEEN '2018-11-03'and '2019-12-12'

使用字符串日期 如'2019-01-01'作为分区,是高效的,并且适用于很多匹配符:

如 in like between

分桶:

分桶会按照指定列,均衡的分为多少桶,不会产生新的目录及列.

桶编号最好为质数

需要链接的表,桶数必须相同,或者一个桶数为另一个桶数的因子

CREATE EXTERNAL TABLE customers (store string) CLUSTERED BY (store) INTO 3 BUCKETS LOCATION '/user/demo/states';

.

创建临时表:

CREATE TEMPORARY TABLE states(state STRING);

改变表名:

Alter table states RENAME TO states_old;

alter table 命令只会修改表结构,但是不会修改表数据.

将表转换为 ORC 文件:

CREATE TABLE states_orc STORED as ORC TBLPROPERTIES ("ORC.COMPRESS"="SNAPPY") as

SELECT * from state3;

合并表的文件:

ALTER TABLE state CONCATENATE;

添加分区:

外部表

ALTER TABLE ids ADD PARTITION (datestam='2019-03-03') LOCATION '/user/demo/ids/2019-03-03';

内部表:

MSCK REPAIR TABLE ids_internal;

  • Hive
    22 引用 • 7 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
sq8852161
前端后端数据库,什么都要做的JAVA码农。( Ĭ ^ Ĭ )

推荐标签 标签

  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 1 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    27 引用 • 66 回帖
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 317 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 421 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    21 引用 • 58 回帖
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖 • 2 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    77 引用 • 1741 回帖
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 398 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 19 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 563 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 401 关注
  • PWL

    组织简介

    用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖
    用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/

    用爱发电组织的核心驱动力:

    • 遵守开源守则,体现开源&贡献精神:以分享为目的,拒绝非法牟利。
    • 自我保护:使用适当的 License 保护自己的原创作品。
    • 尊重他人:不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露;以礼相待,尊重所有对社区做出贡献的开发者;通过他人的分享习得知识,要留下足迹,表示感谢。
    • 热爱编程、热爱学习:加入组织,热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友,也同样欢迎默默成就的朋友。
    • 倾听:正确并恳切对待、处理问题与建议,及时修复开源项目的 Bug ,及时与反馈者沟通。不抬杠、不无视、不辱骂。
    • 平视:不诋毁、轻视、嘲讽其他开发者,主动提出建议、施以帮助,以和谐为本。只要他人肯努力,你也可能会被昔日小看的人所超越,所以请保持谦虚。
    • 乐观且活跃:你的努力决定了你的高度。不要放弃,多年后回头俯瞰,才会发现自己已经成就往日所仰望的水平。积极地将项目开源,帮助他人学习、改进,自己也会获得相应的提升、成就与成就感。
    1 引用 • 487 回帖 • 6 关注
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 9 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 549 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1083 引用 • 3461 回帖 • 287 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    531 引用 • 3528 回帖
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 3 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 15 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    915 引用 • 931 回帖
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    69 引用 • 190 回帖 • 492 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    523 引用 • 4581 回帖 • 692 关注
  • 安全

    安全永远都不是一个小问题。

    189 引用 • 813 回帖 • 3 关注
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    5 引用 • 15 回帖 • 223 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    180 引用 • 447 回帖 • 1 关注