远程操作 hdfs 提示用户权限不足问题解决

本贴最后更新于 2043 天前,其中的信息可能已经物是人非

远程操作hdfs提示用户权限不足问题解决

最近在做的项目需要远程操作HDFS文件系统上面的文件,大家应该知道HDFS上的文件是有所属用户和组的,每个用户有与之对应的权限;

当你是用你本机的用户远程操作HDFS的话,可能会出现以下错误

1539757287560

查询许久之后,发现只需要在你远程操作前增加以下一句代码即可操作成功

System.setProperty("HADOOP_USER_NAME", user);

user是你所操作文件的用户

此时,就可以远程操作HDFS了.

可是,不久以后又一个新的问题冒出来了.因为项目所使用的集群有两种,一种是vanilla插件生成的用户为hadoop的集群,一种是Ambari插件生成用户为hdfs的集群.

当你远程操作完一种集群以后,需要再次向另一种集群发起请求的时候,以上的错误又出现了

1539758142374

我开始也是百思不得其解,明明每次操作之前,我都会根据集群类型的不同修改用户的呀,为什么还会出现以上错误.

后来在几经波折之下,终于找出了问题所在

通过追踪源码发现,用户获取模块是在UserGroupInformation类中获取的,部分代码如下:

 Principal user = null;  
    // if we are using kerberos, try it out  
    if (isAuthenticationMethodEnabled(AuthenticationMethod.KERBEROS)) {  
      user = getCanonicalUser(KerberosPrincipal.class);  
      if (LOG.isDebugEnabled()) {  
        LOG.debug("using kerberos user:"+user);  
      }  
    }  
    //If we don't have a kerberos user and security is disabled, check  
    //if user is specified in the environment or properties  
    if (!isSecurityEnabled() && (user == null)) {  
      String envUser = System.getenv(HADOOP_USER_NAME);  
      if (envUser == null) {  
        envUser = System.getProperty(HADOOP_USER_NAME);  
      }  
      user = envUser == null ? null : new User(envUser);  
    }  
    // use the OS user  
    if (user == null) {  
      user = getCanonicalUser(OS_PRINCIPAL_CLASS);  
      if (LOG.isDebugEnabled()) {  
        LOG.debug("using local user:"+user);  
      }  
    }  
    // if we found the user, add our principal  
    if (user != null) {  
      subject.getPrincipals().add(new User(user.getName()));  
      return true;  
    }  
    LOG.error("Can't find user in " + subject);  
    throw new LoginException("Can't find user name");  

从上面代码片段可以知道,Hadoop先判断集群是否启用了Kerberos授权.如果是,则直接从配置中获取用户(可以为空);

如果不是,则往下走.所以如果没有启用安全认证或者从Kerberos获取的用户为null,那么获取HADOOP_USER_NAME系统环境变量,如果获取到的系统环境变量为空,那么将会获取java环境变量,并将它的值作为Hadoop执行用户.

如果我们没有设置HADOOP_USER_NAME环境变量,那么程序将调用whoami来获取当前用户,并用groups来获取用户所在组.

所以,之前通过设置System.setProperty("HADOOP_USER_NAME", user); 设置java环境变量就可操作hdfs了.

可是后来换了集群用户以后通过设置java环境变量就不能修改了

1539763416140

通过上图,不难发现原因. 源码中加了一个判断 user==null,当第一次获取java环境变量以后,user已经有值了,所以不会再次重新获取.

出现了这个问题,确实挺让人头疼的. 我需要这么做才能让它重新设置用户呢?

修改源码吗? 我这种菜鸟怎么敢修改源码呢

 

后来发现,在获取HDFS文件系统的时候,有一个方法我没有注意到,也是一个解决我上面出现问题的最重要的方法.

//返回默认文件系统,core-site.xml中指定的,如果没有指定,则默认本地文件系统
public static FileSystem get(Configuration conf) throws IOException
public static FileSystem newInstance(Configuration conf) throws IOException

//通过给定 URI 方案和权限来确定要使用的文件系统,若 URI 中未指定方案,返回默认文件系统
public static FileSystem get(URI uri, Configuration conf) throws IOException
public static FileSystem newInstance(URI uri, Configuration conf) throws IOException

//作为给定用户来访问文件系统,对安全来说很重要
public static FileSystem get(final URI uri, final Configuration conf, final String user) throws IOException, InterruptedException
public static FileSystem newInstance(final URI uri, final Configuration conf, final String user) throws IOException, InterruptedException

在获取FileSystem 的时候是可以设置用户的user的,好吧! 我承认我又傻逼了一次,这不是第一次.也不是最后一次 ~~

  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    83 引用 • 122 回帖 • 617 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • someone

    这篇文章正好解决了一直的问题,博主谢谢啦😜

  • 其他回帖
  • someone

    博主很有学识,讲的通俗易懂,解决和我很久没有解决的问题,给你个大赞!!!

  • someone

    使用 ambari 集群会遇到这样的问题,亲测可行:微笑:

推荐标签 标签

  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    148 引用 • 257 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    10 引用 • 86 回帖
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    51 引用 • 226 回帖 • 1 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    9 引用 • 32 回帖 • 155 关注
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    320 引用 • 1679 回帖 • 2 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    536 引用 • 672 回帖 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 605 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    51 引用 • 37 回帖
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    90 引用 • 383 回帖
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 451 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    165 引用 • 1461 回帖
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    51 引用 • 190 回帖 • 3 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 5 关注
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    91 引用 • 751 回帖
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    103 引用 • 126 回帖 • 445 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    261 引用 • 662 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 56 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 520 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖 • 5 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 690 关注
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 605 关注
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    60 引用 • 287 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 1 关注
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 18 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    19 引用 • 31 回帖 • 5 关注