远程操作 hdfs 提示用户权限不足问题解决

本贴最后更新于 2085 天前,其中的信息可能已经物是人非

远程操作hdfs提示用户权限不足问题解决

最近在做的项目需要远程操作HDFS文件系统上面的文件,大家应该知道HDFS上的文件是有所属用户和组的,每个用户有与之对应的权限;

当你是用你本机的用户远程操作HDFS的话,可能会出现以下错误

1539757287560

查询许久之后,发现只需要在你远程操作前增加以下一句代码即可操作成功

System.setProperty("HADOOP_USER_NAME", user);

user是你所操作文件的用户

此时,就可以远程操作HDFS了.

可是,不久以后又一个新的问题冒出来了.因为项目所使用的集群有两种,一种是vanilla插件生成的用户为hadoop的集群,一种是Ambari插件生成用户为hdfs的集群.

当你远程操作完一种集群以后,需要再次向另一种集群发起请求的时候,以上的错误又出现了

1539758142374

我开始也是百思不得其解,明明每次操作之前,我都会根据集群类型的不同修改用户的呀,为什么还会出现以上错误.

后来在几经波折之下,终于找出了问题所在

通过追踪源码发现,用户获取模块是在UserGroupInformation类中获取的,部分代码如下:

 Principal user = null;  
    // if we are using kerberos, try it out  
    if (isAuthenticationMethodEnabled(AuthenticationMethod.KERBEROS)) {  
      user = getCanonicalUser(KerberosPrincipal.class);  
      if (LOG.isDebugEnabled()) {  
        LOG.debug("using kerberos user:"+user);  
      }  
    }  
    //If we don't have a kerberos user and security is disabled, check  
    //if user is specified in the environment or properties  
    if (!isSecurityEnabled() && (user == null)) {  
      String envUser = System.getenv(HADOOP_USER_NAME);  
      if (envUser == null) {  
        envUser = System.getProperty(HADOOP_USER_NAME);  
      }  
      user = envUser == null ? null : new User(envUser);  
    }  
    // use the OS user  
    if (user == null) {  
      user = getCanonicalUser(OS_PRINCIPAL_CLASS);  
      if (LOG.isDebugEnabled()) {  
        LOG.debug("using local user:"+user);  
      }  
    }  
    // if we found the user, add our principal  
    if (user != null) {  
      subject.getPrincipals().add(new User(user.getName()));  
      return true;  
    }  
    LOG.error("Can't find user in " + subject);  
    throw new LoginException("Can't find user name");  

从上面代码片段可以知道,Hadoop先判断集群是否启用了Kerberos授权.如果是,则直接从配置中获取用户(可以为空);

如果不是,则往下走.所以如果没有启用安全认证或者从Kerberos获取的用户为null,那么获取HADOOP_USER_NAME系统环境变量,如果获取到的系统环境变量为空,那么将会获取java环境变量,并将它的值作为Hadoop执行用户.

如果我们没有设置HADOOP_USER_NAME环境变量,那么程序将调用whoami来获取当前用户,并用groups来获取用户所在组.

所以,之前通过设置System.setProperty("HADOOP_USER_NAME", user); 设置java环境变量就可操作hdfs了.

可是后来换了集群用户以后通过设置java环境变量就不能修改了

1539763416140

通过上图,不难发现原因. 源码中加了一个判断 user==null,当第一次获取java环境变量以后,user已经有值了,所以不会再次重新获取.

出现了这个问题,确实挺让人头疼的. 我需要这么做才能让它重新设置用户呢?

修改源码吗? 我这种菜鸟怎么敢修改源码呢

 

后来发现,在获取HDFS文件系统的时候,有一个方法我没有注意到,也是一个解决我上面出现问题的最重要的方法.

//返回默认文件系统,core-site.xml中指定的,如果没有指定,则默认本地文件系统
public static FileSystem get(Configuration conf) throws IOException
public static FileSystem newInstance(Configuration conf) throws IOException

//通过给定 URI 方案和权限来确定要使用的文件系统,若 URI 中未指定方案,返回默认文件系统
public static FileSystem get(URI uri, Configuration conf) throws IOException
public static FileSystem newInstance(URI uri, Configuration conf) throws IOException

//作为给定用户来访问文件系统,对安全来说很重要
public static FileSystem get(final URI uri, final Configuration conf, final String user) throws IOException, InterruptedException
public static FileSystem newInstance(final URI uri, final Configuration conf, final String user) throws IOException, InterruptedException

在获取FileSystem 的时候是可以设置用户的user的,好吧! 我承认我又傻逼了一次,这不是第一次.也不是最后一次 ~~

  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    84 引用 • 122 回帖 • 619 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • someone

    博主很有学识,讲的通俗易懂,解决和我很久没有解决的问题,给你个大赞!!!

  • someone

    使用 ambari 集群会遇到这样的问题,亲测可行:微笑:

  • someone

    这篇文章正好解决了一直的问题,博主谢谢啦😜

推荐标签 标签

  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    116 引用 • 99 回帖 • 256 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 50 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1738 回帖 • 6 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 516 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 4 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    21 引用 • 58 回帖
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 700 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    106 引用 • 152 回帖
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 632 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖 • 2 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    83 引用 • 165 回帖 • 11 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 627 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3169 引用 • 8208 回帖
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 434 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 446 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 391 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 2 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖 • 2 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 140 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    163 引用 • 473 回帖
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 313 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 476 关注
  • gRpc
    10 引用 • 8 回帖 • 51 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    109 引用 • 54 回帖 • 1 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 41 关注
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    379 引用 • 1221 回帖 • 588 关注