单词计数

//编写Mapper类  TokenizerMapper.java

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class TokenizerMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        StringTokenizer itr = new StringTokenizer(value.toString());
        while(itr.hasMoreTokens()) {
            word.set(itr.nextToken());
            context.write(word, one);
        }
    }
}

//编写Reducer类  IntSumReducer.java

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    
    private IntWritable result = new IntWritable();
    
    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

//编写main函数  WordCount.java

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {
    
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        
        Configuration conf = new Configuration();
        if (args.length != 2) {
            System.err.println("Usage:wordcount<in><out>");
            System.exit(2);
        }

        Job job = new Job(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

//测试数据  input.txt

hello world
hello world
hello hadoop

#在HDFS上创建文件夹
hadoop fs -mkdir -p /class

#复制本地数据到HDFS
hadoop fs -copyFromLocal input.txt /class/input.txt

#编译源码
javac -classpath ../hadoop-core-1.2.1.jar *.java

#将类文件打包成jar
jar cvf WordCount.jar *.class

#运行程序，并将结果输出到HDFS上的/class/out文件夹
hadoop jar WordCount.jar WordCount /class/input.txt /class/out

#罗列HDFS上文件夹里的文件
hadoop fs -ls /class/out

#查看运行结果
hadoop fs -cat /class/out/part-r-00000

#运行结果

hadoop	1
hello	3
world	2

RollingLevelDBTimelineStore 详解

功能简介作业 timeline store 的一种基于 leveldb 的实现。主要保存下面信息： start time 信息，保存在 starttime-ldb 里面，是一个单独的 LevelDB。 entity 信息，保存在 entity-ldb 里面，是一个单独的 LevelDB，支持按照时间进行归档以及清理。 ..

NativeIO 源码解析

简介 NativeIO 主要用于实现一些 Java 未实现的 IO 相关的接口。通过 JNI 的的方式直接调用底层操作系统的系统函数，提升效率和性能。源码详解主要分下面几部分： JNI 初始化，包括底层 JNI 代码。底层 IO 操作详解初始化核心初始化的代码是在 NativeIO 里面的静态代码块里面实现的 ..

distributedShell 样例源码详解

[图片] 简介 distributedShell 是 Yarn 自带的应用程序，和 MR 类似，当前工具可以用来对 Yarn 进行压测。使用示例参考命令如下： ./bin/hadoop jar ./share/hadoop/yarn/hadoop-yarn-applications-distributedshell ..

HDFS 报错：Permission denied: user=dr.who, access=WRITE, inode="/":hadoop01

背景新建的 HDFS 使用 web 短上传文件的时候报错： Permission denied: user=dr.who, access=WRITE, inode='/':hadoop01 解决在 core-site.xml 中增加下面配置,其中 hadoop01 为 hdfs 运行的用户，修改完重启 hdfs 即 ..

DistCp 源码解析

说明 DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用 Map/Reduce 实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为 map 任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了 Map/Reduce 方法，这个工具在语义和执行上都会有特殊的地方。 ..

webhdfs 详解

[图片] 简介 hdfs 提供了一种除了通过 rpc 的方式进行文件操作的方式之外，还提供了 http 的方式对文件进行操作的方式：webhdfs。支持 HDFS 的完整 FileSystem / FileContext 接口。其中 Router 和 NameNode 都支持了 webhdfs 的功能，具体实现有差别 ..

【Hadoop 仿真】如何在仿真 NodeManager 中实现心跳

[图片] 背景 Hadoop 自带的 hadoop-sls 只能用于压测调度器，可在实际中影响 ResourceManager 性能的因素比较多，不能只看调度器。当前项目可构造海量的 Fake NM 节点，用于模拟线上 RM 的巨大压力场景，进行优化。首先需要对 NM 进行仿真。仿真 NodeManager 仿真 N ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

相关帖子

RollingLevelDBTimelineStore 详解

NativeIO 源码解析

distributedShell 样例源码详解

HDFS 报错：Permission denied: user=dr.who, access=WRITE, inode="/":hadoop01

DistCp 源码解析

webhdfs 详解

【Hadoop 仿真】如何在仿真 NodeManager 中实现心跳

欢迎来到这里！

近期热议

推荐标签标签

最新标签

单词计数

相关帖子

RollingLevelDBTimelineStore 详解

NativeIO 源码解析

distributedShell 样例源码详解

HDFS 报错：Permission denied: user=dr.who, access=WRITE, inode="/":hadoop01

DistCp 源码解析

webhdfs 详解

【Hadoop 仿真】如何在仿真 NodeManager 中实现心跳

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签