【CDH6】Hue 的安装及使用

本贴最后更新于 1601 天前,其中的信息可能已经斗转星移

Hue 的安装

HUE 是一个开源的 Apache Hadoop UI 系统,早期由 Cloudera 开发,它是基于 Python Web 框架 Django 实现,后来贡献给开源社区。它包括 3 个部分 hue ui,hue server,hue db。通过使用 Hue 我们可以通过浏览器方式操纵 Hadoop 集群,查看修改 hdfs 的文件,管理 hive 的元数据,运行 Sqoop,编写 Oozie 工作流等大量工作。Hue 的安装可以依赖 hive 和 oozie,所以这里先安装了 Hive 和 oozie。

  1. 选择集群,添加服务:
    image20201218155913421.png

  2. 添加服务向导:
    选择“hue”服务,点击“继续”:
    image20201218160115136.png
    选择依赖,点击“继续”:
    image20201218160432737.png
    角色按照默认配置即可,点击“继续”,完成 hue 的安装
    image20201218160610471.png
    当点击“继续”后,需要给 hue 配置数据库,需要在 cm-s1 节点上连接 mysql,执行创建数据库及分配权限语句:

    [root@cm-s1 ~]# mysql -hcm-s1 -pAz123456_ -e "create database hue DEFAULT CHARACTER SET utf8;grant all on hue.* TO 'hue'@'%' IDENTIFIED BY 'Az123456_';flush privileges;"

    在弹出的页面中选择数据库,填写用户名及密码,点击“测试连接”,测试数据库连接成功后,点击“继续”:
    image20201218160957019.png
    等待服务向导完成,点击“继续” -> “完成”,完成 hue 安装
    image20201218161138627.png

Hue 的使用

以上将 hue 安装在 cm-s1 节点上,这里登陆 hue 时,地址为:http://cm-s1:8889,首次登陆 hue 需要登陆 hue 的账号密码,这里输入 user:myhue,password:myhue。最好这里使用 hdfs 用户。因为 hdfs 用户可以操作 hdfs 中的文件,如果使用其他用户只能在当前用户的目录下创建文件。

image20201218215243709.png

  1. hue 创建用户
    点击“管理用户”->“添加用户”可以创建用户,并且可以指定权限,是否在 HDFS 中创建主目录等。
    image20201219131700865.png
    image20201219131819888.png

  2. hue 操作 HDFS 文件
    可以创建新的文件,也可以修改,最好 HDFS 中大文件不要在 hue 中操作。hue 中的用户默认是进入当前用户的主目录进行操作。
    image20201219141624972.png
    image20201219143330314.png
    点击以上“文件”进入到 HDFS 文件系统,进行创建上传文件夹或者文件,还可以对文件进行编辑。
    image20201219145914777.png

  3. Hue 操作 hive 中的数据
    登录 hue 之后,点击“查询” -> “编辑器” -> “Hive”,编写 SQL 创建 Hive 表:
    image20201219144759105.png
    创建完成后,点击 hive 数据库刷新,可以看到刚才创建的 Hive 表,创建表完成之后,可以右键表找到“在浏览器中打开”,可以查询、导入、删除表等操作,导入数据时选择的数据可以是 HDFS 中也可以是本地中的文件数据:
    image20201219151004538.png
    点击“提交”将 HDFS 中文件数据导入到表中。点击“查询”查询表中的数据,如下:
    image20201219151314668.png
    在 Hive SQL 面板中还可以查询数据,在查询编辑器中执行查询 sql 语句:
    image20201219151742409.png
    执行 sql 语句之后,hql 转换成 MR 作业,可以点击“作业”查看任务:
    image20201219152515160.png

  4. Hue 添加 RDBMS 数据库
    hue 也支持 RDBMS 关系数据库的展示及操作。启动 Cloudera Manager 登录 Hue 之后,在配置中搜索“hue_safety_valve.ini”配置项,配置如下内容,保存更改:

    [librdbms] [[databases]] [[[mysql]]] nice_name="all mysql databases" engine=mysql host=cm-s1 port=3306 user=root password=Az123456_ options={ "init_command":"SET NAMES 'utf8'"} [notebook] [[interpreters]] [[[hive]]] name=Hive [[[mysql]]] name=Mysql interface=rdbms [[[java]]] name=Java interface=oozie [[[spark2]]] name=Spark interface=oozie [[[shell]]] name=Shell interface=oozie [[[sqoop1]]] name=Sqoop1 interface=oozie [[[distcp]]] name=Distcp interface=oozie

    image20201219153219089.png
    以上参数中,nice_name 指定在 hue 中显示的连接名称。name 指定连接的 mysql 数据库名称,不指定这个参数,将默认显示全部的数据库。engine 指定 mysql 数据库类型。host 指定数据库地址。port 指定数据库端口号。user 指定连接用户名。password 指定密码。options 中指定的“init_command”指定数据库编码为 utf8,防止有中文时乱码。
    此外,在配置“[notebook]”时,可以只需要配置 Hive 与 Mysql 即可。以上配置完成之后,重启 hue。重新进入 hue webui 中,点击“查询”->“编辑器”,可以看到“MySQL”标签,点击在主页右侧“SQL”中也会出现对应的 MySQL 中的数据库及表信息。
    image20201219153717122.png

  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • CDH
    7 引用 • 2 回帖
  • HUE
    1 引用 • 1 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
k8s
59774 号黑客成员, 2020-05-16 加入 天津

推荐标签 标签

  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    66 引用 • 114 回帖 • 192 关注
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 704 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 1 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    168 引用 • 597 回帖
  • 笔记

    好记性不如烂笔头。

    310 引用 • 794 回帖
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    730 引用 • 1280 回帖 • 2 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    188 引用 • 319 回帖 • 250 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 61 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 468 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 385 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    174 引用 • 537 回帖
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 124 关注
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    239 引用 • 224 回帖
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    181 引用 • 821 回帖
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    117 引用 • 54 回帖 • 4 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 812 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 656 关注
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 67 回帖 • 452 关注
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖
  • 分享

    有什么新发现就分享给大家吧!

    248 引用 • 1794 回帖
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 636 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    211 引用 • 358 回帖 • 2 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    210 引用 • 2040 回帖
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 18 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 397 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 1 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    42 引用 • 130 回帖 • 250 关注