Hive 基础语句(建库,建表,导入数据)

本贴最后更新于 1905 天前,其中的信息可能已经沧海桑田

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/u012274449/article/details/88327067

可能会遇到权限不足的问题:

hadoop fs -chmod 777 /user

将一个文件加载到 HDFS

hadoop fs -mkdir /user/demo/states/

hadoop fs -put /tmp/states.txt /user/demo/states/

hadoop fs -ls /user/demo/states/

使用 hadoop fs 文件系统命令 将权限开启

最简单的建立数据库的方法:

CREATE DATABASE shopping;

它将在 hive.metastore.warehouse.dir 中定义的默认顶层目录下建立一个名为 shopping.db 的目录

完整语法如下:

CREATE(DATABASE|SCHEMA) [IF NOT EXISTS] database_name

[COMMENT database_comment]

[LOCATION hdfs_path]

[WITH DBPROPERTIES (PROPERTY_NAME = property_value,...)];

CREATE DATABASE if NOT EXISTS shopping

comment 'shores all shopping baseket data'

LOCATION '/user/hive/warehouse/SHOPPING.db'

WITH DBPROPERTIES('purpose'='testing');

修改数据库属性:

ALTER DATABASE shopping SET DBPROPERTIES('department'='SALES');

删除数据库:

DROP DATABASE shopping CASCADE; CASCADE 意味着级联删除,数据库和表一起删除.默认为 RESTRICT (限制)

创建一张表:

CREATE EXTERNAL TABLE shopping.customers(

fname STRING,

lname STRING,

address STRUCT<HOUSENO:STRING, STREET:STRING, CITY:STRING, ZIPCODE:INT,STATE:STRING,COUNTRY:STRING>,

active BOOLEAN,

created DATE)

COMMENT 'yizhangbiao';

CREATE EXTERNAL 表示创建一张 外部表; 删除外部表不会删除底层数据.

将一个文件加载到 HDFS

hadoop fs -mkdir /user/demo/states/

hadoop fs -put /tmp/states.txt /user/demo/states/

hadoop fs -ls /user/demo/states/

创建一个内部表访问 states 文件夹下的文件,也就是 states.txt,如果有多个文件,他会查出所有文件内容

CREATE TABLE states_internal (state string) LOCATION '/user/demo/states';

查看表定义:

DESCRIBE FORMATTED states_internal;

查询数据:

SELECT * FROM states_internal;

创建一个外部表:

CREATE EXTERNAL TABLE states_external (state string) LOCATION '/user/demo/states';

建立第二个外部表

CREATE EXTERNAL TABLE states_external2(state string) LOCATION '/user/demo/states';

删除外部表:

DRop TABLE states_external;

再次查询:

SELECT * FROM staties_external2;

说明删除外部表不影响底层数据.

删除内部表

DROP TABLE states_internal;

按照文档中所说,删除内部表会将底层数据也进行删除.

但是实际操作,数据也没有删除..这里存疑

创建不含标题的外部表:

CREATE EXTERNAL TABLE state3(state string) LOCATION '/user/demo/states' TBLPROPERTIES ("skip.header.line.count"="2");

生成已有表的 create table 命令:

show create table state3;

创建一个带分区列的表:

CREATE EXTERNAL TABLE transactions(

Transdate DATE,

transid INT,

custid INT,

fname STRING,

lname STRING,

item STRING,

qty INT,

price FLOAT

)

PARTITIONED BY(store STRING); //最后一句是分区列,这个列并不一定要在表结构中存在.

插入数据:

INSERT INTO transactions PARTITION(store="woshi") values("01/25/2016",101,"A109","1111","SMITH","SHOES",1,11);

查询日期

SELECT * FROM transactions WHERE transdate BETWEEN '2018-11-03'and '2019-12-12'

使用字符串日期 如'2019-01-01'作为分区,是高效的,并且适用于很多匹配符:

如 in like between

分桶:

分桶会按照指定列,均衡的分为多少桶,不会产生新的目录及列.

桶编号最好为质数

需要链接的表,桶数必须相同,或者一个桶数为另一个桶数的因子

CREATE EXTERNAL TABLE customers (store string) CLUSTERED BY (store) INTO 3 BUCKETS LOCATION '/user/demo/states';

.

创建临时表:

CREATE TEMPORARY TABLE states(state STRING);

改变表名:

Alter table states RENAME TO states_old;

alter table 命令只会修改表结构,但是不会修改表数据.

将表转换为 ORC 文件:

CREATE TABLE states_orc STORED as ORC TBLPROPERTIES ("ORC.COMPRESS"="SNAPPY") as

SELECT * from state3;

合并表的文件:

ALTER TABLE state CONCATENATE;

添加分区:

外部表

ALTER TABLE ids ADD PARTITION (datestam='2019-03-03') LOCATION '/user/demo/ids/2019-03-03';

内部表:

MSCK REPAIR TABLE ids_internal;

  • Hive
    22 引用 • 7 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
sq8852161
前端后端数据库,什么都要做的JAVA码农。( Ĭ ^ Ĭ )

推荐标签 标签

  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖 • 1 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 3 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 257 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖 • 1 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 383 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    406 引用 • 3571 回帖
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 45 关注
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 461 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    105 引用 • 127 回帖 • 394 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    5 引用 • 7 回帖
  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 533 关注
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 672 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    20 引用 • 23 回帖 • 723 关注
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 619 关注
  • 倾城之链
    23 引用 • 66 回帖 • 138 关注
  • abitmean

    有点意思就行了

    30 关注
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 65 回帖 • 453 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1433 引用 • 10052 回帖 • 484 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 482 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 353 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    55 引用 • 85 回帖
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 150 关注