【CDH6】Hue 的安装及使用

本贴最后更新于 1444 天前,其中的信息可能已经斗转星移

Hue 的安装

HUE 是一个开源的 Apache Hadoop UI 系统,早期由 Cloudera 开发,它是基于 Python Web 框架 Django 实现,后来贡献给开源社区。它包括 3 个部分 hue ui,hue server,hue db。通过使用 Hue 我们可以通过浏览器方式操纵 Hadoop 集群,查看修改 hdfs 的文件,管理 hive 的元数据,运行 Sqoop,编写 Oozie 工作流等大量工作。Hue 的安装可以依赖 hive 和 oozie,所以这里先安装了 Hive 和 oozie。

  1. 选择集群,添加服务:
    image20201218155913421.png

  2. 添加服务向导:
    选择“hue”服务,点击“继续”:
    image20201218160115136.png
    选择依赖,点击“继续”:
    image20201218160432737.png
    角色按照默认配置即可,点击“继续”,完成 hue 的安装
    image20201218160610471.png
    当点击“继续”后,需要给 hue 配置数据库,需要在 cm-s1 节点上连接 mysql,执行创建数据库及分配权限语句:

    [root@cm-s1 ~]# mysql -hcm-s1 -pAz123456_ -e "create database hue DEFAULT CHARACTER SET utf8;grant all on hue.* TO 'hue'@'%' IDENTIFIED BY 'Az123456_';flush privileges;"
    

    在弹出的页面中选择数据库,填写用户名及密码,点击“测试连接”,测试数据库连接成功后,点击“继续”:
    image20201218160957019.png
    等待服务向导完成,点击“继续” -> “完成”,完成 hue 安装
    image20201218161138627.png

Hue 的使用

以上将 hue 安装在 cm-s1 节点上,这里登陆 hue 时,地址为:http://cm-s1:8889,首次登陆 hue 需要登陆 hue 的账号密码,这里输入 user:myhue,password:myhue。最好这里使用 hdfs 用户。因为 hdfs 用户可以操作 hdfs 中的文件,如果使用其他用户只能在当前用户的目录下创建文件。

image20201218215243709.png

  1. hue 创建用户
    点击“管理用户”->“添加用户”可以创建用户,并且可以指定权限,是否在 HDFS 中创建主目录等。
    image20201219131700865.png
    image20201219131819888.png

  2. hue 操作 HDFS 文件
    可以创建新的文件,也可以修改,最好 HDFS 中大文件不要在 hue 中操作。hue 中的用户默认是进入当前用户的主目录进行操作。
    image20201219141624972.png
    image20201219143330314.png
    点击以上“文件”进入到 HDFS 文件系统,进行创建上传文件夹或者文件,还可以对文件进行编辑。
    image20201219145914777.png

  3. Hue 操作 hive 中的数据
    登录 hue 之后,点击“查询” -> “编辑器” -> “Hive”,编写 SQL 创建 Hive 表:
    image20201219144759105.png
    创建完成后,点击 hive 数据库刷新,可以看到刚才创建的 Hive 表,创建表完成之后,可以右键表找到“在浏览器中打开”,可以查询、导入、删除表等操作,导入数据时选择的数据可以是 HDFS 中也可以是本地中的文件数据:
    image20201219151004538.png
    点击“提交”将 HDFS 中文件数据导入到表中。点击“查询”查询表中的数据,如下:
    image20201219151314668.png
    在 Hive SQL 面板中还可以查询数据,在查询编辑器中执行查询 sql 语句:
    image20201219151742409.png
    执行 sql 语句之后,hql 转换成 MR 作业,可以点击“作业”查看任务:
    image20201219152515160.png

  4. Hue 添加 RDBMS 数据库
    hue 也支持 RDBMS 关系数据库的展示及操作。启动 Cloudera Manager 登录 Hue 之后,在配置中搜索“hue_safety_valve.ini”配置项,配置如下内容,保存更改:

    [librdbms]
    [[databases]]
    [[[mysql]]]
    nice_name="all mysql databases"
    engine=mysql
    host=cm-s1
    port=3306
    user=root
    password=Az123456_
    options={ "init_command":"SET NAMES 'utf8'"}
    
    [notebook]
    [[interpreters]]
    [[[hive]]]
    name=Hive
    [[[mysql]]]
    name=Mysql
    interface=rdbms
    [[[java]]]
    name=Java
    interface=oozie
    [[[spark2]]]
    name=Spark
    interface=oozie
    [[[shell]]]
    name=Shell
    interface=oozie
    [[[sqoop1]]]
    name=Sqoop1
    interface=oozie
    [[[distcp]]]
    name=Distcp
    interface=oozie
    

    image20201219153219089.png
    以上参数中,nice_name 指定在 hue 中显示的连接名称。name 指定连接的 mysql 数据库名称,不指定这个参数,将默认显示全部的数据库。engine 指定 mysql 数据库类型。host 指定数据库地址。port 指定数据库端口号。user 指定连接用户名。password 指定密码。options 中指定的“init_command”指定数据库编码为 utf8,防止有中文时乱码。
    此外,在配置“[notebook]”时,可以只需要配置 Hive 与 Mysql 即可。以上配置完成之后,重启 hue。重新进入 hue webui 中,点击“查询”->“编辑器”,可以看到“MySQL”标签,点击在主页右侧“SQL”中也会出现对应的 MySQL 中的数据库及表信息。
    image20201219153717122.png

  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • CDH
    7 引用 • 2 回帖
  • HUE
    1 引用 • 1 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
k8s
59774 号黑客成员, 2020-05-16 加入 天津

推荐标签 标签

  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    8 引用 • 30 回帖 • 408 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    53 引用 • 37 回帖
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 9 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 54 关注
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 217 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    20 引用 • 7 回帖 • 2 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 5 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 597 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 158 关注
  • 倾城之链
    23 引用 • 66 回帖 • 140 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    190 引用 • 1057 回帖 • 1 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 12 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    408 引用 • 3576 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 746 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖 • 2 关注
  • OnlyOffice
    4 引用 • 3 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 2 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 767 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 134 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖 • 1 关注
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    12 引用 • 54 回帖 • 163 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖 • 1 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    110 引用 • 54 回帖 • 1 关注
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 99 关注
  • 音乐

    你听到信仰的声音了么?

    60 引用 • 511 回帖