博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
MapReduce ----数据去重
阅读量:6374 次
发布时间:2019-06-23

本文共 2113 字,大约阅读时间需要 7 分钟。

三个文件

2017-03-10 a

2017-03-11 b
2017-03-12 d
2017-03-13 d
2017-03-14
2017-03-15 a

 

2017-03-10 e

2017-03-11 b
2017-03-12 c
2017-03-13
2017-03-14 h
2017-03-15 a
2017-03-17 p

2017-03-10

2017-03-11 b
2017-03-12
2017-03-13 d
2017-03-14
2017-03-15 f
2017-03-16 o

 

 

 


import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class Deup{    public static class Map extends Mapper
{
@Override protected void map(Object key, Text value, Mapper
.Context context) throws IOException, InterruptedException {
context.write(value, new Text("")); } } public static class Reduce extends Reducer
{ @Override protected void reduce(Text key, Iterable
values, Reducer
.Context context) throws IOException, InterruptedException {
context.write(key, new Text("")); } } public static void main(String[] args) throws Exception { Configuration conf=new Configuration(); @SuppressWarnings("deprecation") Job job=new Job(conf); job.setJarByClass(Deup.class); job.setMapperClass(Map.class); job.setCombinerClass(Reduce.class); job.setReducerClass(Reduce.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true)?0:1); }}

结果

2017-03-10    

2017-03-10 a    
2017-03-10 e    
2017-03-11 b    
2017-03-12    
2017-03-12 c    
2017-03-12 d    
2017-03-13    
2017-03-13 d    
2017-03-14    
2017-03-14 h    
2017-03-15 a    
2017-03-15 f    
2017-03-16 o    
2017-03-17 p   

转载地址:http://nwnqa.baihongyu.com/

你可能感兴趣的文章
POJ 3744 Scout YYF I 矩阵快速幂
查看>>
在linux下执行依赖多个jar的类的方法
查看>>
****** 二十五 ******、软设笔记【数据库】-数据库语言-数据定义、数据查询
查看>>
day7面向对象--反射
查看>>
文件打开方式
查看>>
ERROR 2002
查看>>
NET多线程探索-NET线程基础知识点
查看>>
Oracle 11g R2 新特性
查看>>
微信小程序新手知识
查看>>
java中数据流的简单介绍
查看>>
根据物流号查看物流信息
查看>>
jsp设置MIME类型
查看>>
python模拟自动登录网站(urllib2)
查看>>
Java 对文件的操作
查看>>
洛谷 题解 P3627 【[APIO2009]抢掠计划】
查看>>
springboot传入json和文件_SpringBoot系列教程22-整合SpringMVC之HttpMessageConverters
查看>>
不礼让行人怎么抓拍的_张家川公安交警持续曝光机动车不礼让行人【第24期】...
查看>>
用pythonturtle写名字_去年爆款新生儿名字,家长自以为起的不错,却有“棺材”的意思...
查看>>
句子分类_语法微课句子的分类+文本讲解
查看>>
显示提示_体检报告显示:“转氨酶”升高!提示身体可能出现了这些健康问题...
查看>>