- mapreduce編程實例

#e#　
　4、單表關聯

　　前面的實例都是在數據上進行一些簡單的處理，為進一步的操作打基礎。“單表關聯”這個實例要求從給出的數據中尋找所關心的數據，它是對原始數據所包含信息的挖掘。下面進入這個實例。

　　4.1 實例描述

　　實例中給出child-parent（孩子——父母）表，要求輸出grandchild-grandparent（孫子——爺奶）表。

　　樣例輸入如下所示。

　　file：

　　child parent

　　Tom Lucy

　　Tom Jack

　　Jone Lucy

　　Jone Jack

　　Lucy Mary

　　Lucy Ben

　　Jack Alice

　　Jack Jesse

　　Terry Alice

　　Terry Jesse

　　Philip Terry

　　Philip Alma

　　Mark Terry

　　Mark Alma

　　家族樹狀關系譜：

　 mapreduce編程實例

　　樣例輸出如下所示。

　　file：

　　grandchild grandparent

　　Tom 　　Alice

　　Tom 　　Jesse

　　Jone 　　Alice

　　Jone 　　 Jesse

　　Tom 　　Mary

　　Tom 　　Ben

　　Jone 　　 Mary

　　Jone 　　 Ben

　　Philip 　　 Alice

　　Philip 　　Jesse

　　Mark 　　 Alice

　　Mark 　　 Jesse

　　4.2 設計思路

　　分析這個實例，顯然需要進行單表連接，連接的是左表的parent列和右表的child列，且左表和右表是同一個表。

　　連接結果中除去連接的兩列就是所需要的結果——“grandchild--grandparent”表。要用MapReduce解決這個實例，首先應該考慮如何實現表的自連接；其次就是連接列的設置；最后是結果的整理。

　　考慮到MapReduce的shuffle過程會將相同的key會連接在一起，所以可以將map結果的key設置成待連接的列，然后列中相同的值就自然會連接在一起了。再與最開始的分析聯系起來：

　　要連接的是左表的parent列和右表的child列，且左表和右表是同一個表，所以在map階段將讀入數據分割成child和parent之后，會將parent設置成key，child設置成value進行輸出，并作為左表；再將同一對child和parent中的child設置成key，parent設置成value進行輸出，作為右表。為了區分輸出中的左右表，需要在輸出的value中再加上左右表的信息，比如在value的String最開始處加上字符1表示左表，加上字符2表示右表。這樣在map的結果中就形成了左表和右表，然后在shuffle過程中完成連接。reduce接收到連接的結果，其中每個key的value-list就包含了“grandchild--grandparent”關系。取出每個key的value-list進行解析，將左表中的child放入一個數組，右表中的parent放入一個數組，然后對兩個數組求笛卡爾積就是最后的結果了。

　　4.3 程序代碼

　　程序代碼如下所示。

　　package com.hebut.mr;

　　import java.io.IOException;

　　import java.util.*;

　　import org.apache.hadoop.conf.Configuration;

　　import org.apache.hadoop.fs.Path;

　　import org.apache.hadoop.io.IntWritable;

　　import org.apache.hadoop.io.Text;

　　import org.apache.hadoop.mapreduce.Job;

　　import org.apache.hadoop.mapreduce.Mapper;

　　import org.apache.hadoop.mapreduce.Reducer;

　　import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

　　import org.apache.hadoop.util.GenericOptionsParser;

　　public class STjoin {

　　public static int time = 0;

　　* map將輸出分割child和parent，然后正序輸出一次作為右表，

　　* 反序輸出一次作為左表，需要注意的是在輸出的value中必須

　　* 加上左右表的區別標識。

　　public static class Map extends Mapper《Object， Text， Text， Text》 {

　　// 實現map函數

　　public void map（Object key， Text value， Context context）

　　throws IOException， InterruptedException {

　　String childname = new String（）;// 孩子名稱

　　String parentname = new String（）;// 父母名稱

　　String relationtype = new String（）;// 左右表標識

　　// 輸入的一行預處理文本

　　StringTokenizer itr=new StringTokenizer（value.toString（））;

　　String［］ values=new String［2］;

　　int i=0;

　　while（itr.hasMoreTokens（））{

　　values［i］=itr.nextToken（）;

　　i++;

　　}

　　if （values［0］.compareTo（“child”）！= 0） {

　　childname = values［0］;

　　parentname = values［1］;

　　// 輸出左表

　　relationtype = “1”;

　　context.write（new Text（values［1］）， new Text（relationtype +

　　“+”+ childname + “+” + parentname））;

　　// 輸出右表

　　relationtype = “2”;

　　context.write（new Text（values［0］）， new Text（relationtype +

　　“+”+ childname + “+” + parentname））;

　　}

　　public static class Reduce extends Reducer《Text， Text， Text， Text》 {

　　// 實現reduce函數

　　public void reduce（Text key， Iterable《Text》 values， Context context）

　　throws IOException， InterruptedException {

　　// 輸出表頭

　　if （0 == time） {

　　context.write（new Text（“grandchild”）， new Text（“grandparent”））;

　　time++;

　　}

　　int grandchildnum = 0;

　　String［］ grandchild = new String［10］;

　　int grandparentnum = 0;

　　String［］ grandparent = new String［10］;

　　Iterator ite = values.iterator（）;

　　while （ite.hasNext（）） {

　　String record = ite.next（）.toString（）;

　　int len = record.length（）;

　　int i = 2;

　　if （0 == len） {

　　continue;

　　}

　　// 取得左右表標識

　　char relationtype = record.charAt（0）;

　　// 定義孩子和父母變量

　　String childname = new String（）;

　　String parentname = new String（）;

　　// 獲取value-list中value的child

　　while （record.charAt（i）！= ‘+’） {

　　childname += record.charAt（i）;

　　i++;

　　}

　　i = i + 1;

　　// 獲取value-list中value的parent

　　while （i 《 len） {

　　parentname += record.charAt（i）;

　　i++;

　　}

　　// 左表，取出child放入grandchildren

　　if （‘1’ == relationtype） {

　　grandchild［grandchildnum］ = childname;

　　grandchildnum++;

　　}

　　// 右表，取出parent放入grandparent

　　if （‘2’ == relationtype） {

　　grandparent［grandparentnum］ = parentname;

　　grandparentnum++;

　　}

　　// grandchild和grandparent數組求笛卡爾兒積

　　if （0 ！= grandchildnum && 0 ！= grandparentnum） {

　　for （int m = 0; m 《 grandchildnum; m++） {

　　for （int n = 0; n 《 grandparentnum; n++） {

　　// 輸出結果

　　context.write（new Text（grandchild［m］）， newText（grandparent［n］））;

　　}

　　public static void main（String［］ args） throws Exception {

　　Configuration conf = new Configuration（）;

　　// 這句話很關鍵

　　conf.set（“mapred.job.tracker”， “192.168.1.2:9001”）;

　　String［］ ioArgs = new String［］ { “STjoin_in”， “STjoin_out” };

　　String［］ otherArgs = new GenericOptionsParser（conf， ioArgs）.getRemainingArgs（）;

　　if （otherArgs.length ！= 2） {

　　System.err.println（“Usage： Single Table Join 《in》《out》”）;

　　System.exit（2）;

　　}

　　Job job = new Job（conf， “Single Table Join”）;

　　job.setJarByClass（STjoin.class）;

　　// 設置Map和Reduce處理類

　　job.setMapperClass（Map.class）;

　　job.setReducerClass（Reduce.class）;

　　// 設置輸出類型

　　job.setOutputKeyClass（Text.class）;

　　job.setOutputValueClass（Text.class）;

　　// 設置輸入和輸出目錄

　　FileInputFormat.addInputPath（job， new Path（otherArgs［0］））;

　　FileOutputFormat.setOutputPath（job， new Path（otherArgs［1］））;

　　System.exit（job.waitForCompletion（true）？ 0 ： 1）;

　　}

　　4.4 代碼結果

　　1）準備測試數據

　　通過Eclipse下面的“DFS Locations”在“/user/hadoop”目錄下創建輸入文件“STjoin_in”文件夾（備注：“STjoin_out”不需要創建。）如圖4.4-1所示，已經成功創建。

　　? mapreduce編程實例

　　然后在本地建立一個txt文件，通過Eclipse上傳到“/user/hadoop/STjoin_in”文件夾中，一個txt文件的內容如“實例描述”那個文件一樣。如圖4.4-2所示，成功上傳之后。

　　從SecureCRT遠處查看“Master.Hadoop”的也能證實我們上傳的文件，顯示其內容如圖4.4-3所示：

　　? mapreduce編程實例

　　2）運行詳解

　　（1）Map處理：

　　（2）Shuffle處理

　　在shuffle過程中完成連接。

　　（3）Reduce處理

　　首先由語句“0 ！= grandchildnum && 0 ！= grandparentnum”得知，只要在“value-list”中沒有左表或者右表，則不會做處理，可以根據這條規則去除無效的shuffle連接。

　　然后根據下面語句進一步對有效的shuffle連接做處理。

　　// 左表，取出child放入grandchildren

　　if （‘1’ == relationtype） {

　　grandchild［grandchildnum］ = childname;

　　grandchildnum++;

　　}

　　// 右表，取出parent放入grandparent

　　if （‘2’ == relationtype） {

　　grandparent［grandparentnum］ = parentname;

　　grandparentnum++;

　　}

　　針對一條數據進行分析：

　　《Jack，1+Tom+Jack，

　　1+Jone+Jack，

　　2+Jack+Alice，

　　2+Jack+Jesse 》

　　分析結果：左表用“字符1”表示，右表用“字符2”表示，上面的《key，value-list》中的“key”表示左表與右表的連接鍵。而“value-list”表示以“key”連接的左表與右表的相關數據。

　　根據上面針對左表與右表不同的處理規則，取得兩個數組的數據。

　　然后根據下面語句進行處理。

　　for （int m = 0; m 《 grandchildnum; m++） {

　　for （int n = 0; n 《 grandparentnum; n++） {

　　context.write（new Text（grandchild［m］）， new Text（grandparent［n］））;

　　}

　　處理結果如下面所示：

　　Tom Jesse

　　Tom Alice

　　Jone Jesse

　　Jone Alice

　　其他的有效shuffle連接處理都是如此。

　　3）查看運行結果

　　這時我們右擊Eclipse 的“DFS Locations”中“/user/hadoop”文件夾進行刷新，這時會發現多出一個“STjoin_out”文件夾，且里面有3個文件，然后打開雙其“part-r-00000”文件，會在Eclipse中間把內容顯示出來。如圖4.4-4所示。

　　? mapreduce編程實例

閱讀全文

MapReduce(6251) MapReduce(6251)

21個三菱PLC編程實例

21個三菱PLC編程實例，實現PLC從入門到精通

2022-10-25 09:27:04

7064

51的c編程實例

2012-08-11 16:46:29

MapReduce實例開發指南

MapReduce實例——wordcount（單詞統計）

2019-10-08 07:15:48

MapReduce數據壓縮的基本原則

黑猴子的家：MapReduce數據壓縮

2019-05-24 12:45:46

MapReduce框架音樂排行榜案例

Hadoop綜合實戰之MapReduce運算優化——音樂排行榜

2019-10-16 12:20:15

MapReduce的三種運行模式

第二章關于MapReduce

2019-03-26 06:32:50

MapReduce的操作案例分析

一、MapReduce概述1、基本概念Hadoop核心組件之一：分布式計算的方案MapReduce，是一種編程模型，用于大規模數據集的并行運算，其中Map（映射）和Reduce（歸約

2021-01-05 17:01:44

MapReduce綜述

的午餐11.2 串行與并行編程21.3 并行基本概念22 MapReduce基本原理介紹52.1 計算單詞數WordCount 62.2 類型72.3 其它實例73 MapReduce實現83.1

2010-09-18 08:31:59

編程實例供大家參考

搜集的一些編程實例供大家參考

2012-04-20 13:17:59

編程實例說明

編程實例說明初學者的資料

2013-05-27 20:53:56

LABVIEW編程實例

LABVIEW編程實例！！！！

2013-12-21 18:58:37

MaxCompute MapReduce

摘要：大數據計算服務(MaxCompute)的功能詳解和使用心得點此查看原文：http://click.aliyun.com/m/41384/前言MapReduce已經有文檔，用戶可以參考文檔

2018-01-31 17:08:45

PLC編程實例

2012-08-20 19:28:00

TLC1549的實例應用及編程有哪些？

什么是TLC1549？TLC1549的工作原理是什么？TLC1549的實例應用及編程有哪些？

2021-04-22 07:19:13

Yarn的偽分布部署步驟及MapReduce簡單使用

偽分布式部署yarn和MapReduce案例

2019-03-05 16:01:15

labview編程實例

編程實例，可供參考

2015-05-17 16:31:51

中斷編程實例

各種中斷編程實例，看完中斷編程毫無壓力……

2014-05-20 21:52:04

值得一看的MapReduce編程實例

MapReduce編程實例

2019-03-05 16:55:22

請問有基于USART IAP在線應用編程的實例嗎？

有沒有基于USARTIAP在線應用編程的實例啊.

2019-05-16 04:08:01

VISA編程及應用實例

VISA編程及應用實例 1、VISA編程概要在VISA編程過程中，面向儀器的所有操作都必須首先進行打開VISA資源

2009-06-22 12:25:05

5862

C語言與MATLAB接口編程與實例

本書以簡潔的語言、豐富的實例系統地介紹了C語言與 MATLAB 接口函數(稱之為：C-MEX函數)的編程方法。用實例詳細地介紹了MATLAB中所提供的數據類型在C-MEX函數中的編程方法。這些數據類

2011-08-08 11:23:00

abb_plc_500編程軟件使用實例

abb_plc_500編程軟件使用實例abb_plc_500編程軟件使用實例abb_plc_500編程軟件使用實例

2015-11-12 14:36:41

單片機C語言編程與實例

單片機C語言編程與實例學習單片機開發非常不錯的資料。

2016-01-11 14:50:21

單片機編程實例大全

受錄了多種實例的單片機編程，非常實用，與大家分享。

2016-03-23 17:06:41

PLC的原理、編程與應用（實例）

PLC的原理、編程與應用（實例）希望對大家有幫助

2016-08-03 18:20:02

Linux網絡編程實例詳解

網絡通訊教程學習之Linux網絡編程實例詳解

2016-09-01 14:55:49

VC_MFC編程實例

這是一個VC_MFC編程實例的文檔。學習教程。

2016-09-01 15:27:27

FX編程實例

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-07 15:24:16

光標切_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

供水_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

攻牙機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:02:59

廣告燈_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

廣州正佳廣場_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

家用程控_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

佳信達克爾布斯膠訂機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

漿紗機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

交通燈__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

接菌機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開箱機程式_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開平機程序_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

九層九站電梯_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開料鋸_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

空壓機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:10:18

克爾布斯膠訂機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

拉絲_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

控制行車_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:01:36

離子水__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

六層六站電梯_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

硫化機__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

零帶_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

魯式集塵機程式_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

馬達控制_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

瑪斯蘭貳廠壹期_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

噴涂_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

泡沫機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

氣壓控制_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

坡口銑床程序_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

搶答器_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

揉紋車間電梯編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:25:19

三菱PLC編程實例-A1S68AD

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:59:02

三菱PLC編程實例-FXComms.

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-04-27 15:13:32

三菱PLC編程實例-Fat Coater b

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:09:03

三菱PLC編程實例-DST for FX

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:09:03

三菱PLC編程實例-Daylight Savings Time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Brick Crane v5

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 17:07:45

三菱PLC編程實例-Analog Write

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-FX2N communicating to

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Analog Read

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Daylight Savings Time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-PID[1].FX2N

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Pick and Place

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Mitsubishi Timer Examp

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-osp2 plc

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-osp1

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-pid

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 17:09:04

179

三菱PLC編程實例-Medoc sequence generat

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-jq

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-純水

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Q[1].AD.DA

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱編程實例

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-12-10 14:58:28

C#編程實例與技巧

2017-01-02 19:57:54

基于MapReduce和矩陣的頻繁項集挖掘算法

基于MapReduce和矩陣的頻繁項集挖掘算法_周國軍

2017-01-07 18:39:17

Python編程實例

2017-01-08 14:14:39

MapReduce框架下的Skyline結果優化算法_馬學森

MapReduce框架下的Skyline結果優化算法_馬學森

2017-03-19 11:41:51

Mapreduce下改進Skyline的高效算法_劉建邦

Mapreduce下改進Skyline的高效算法_劉建邦

2017-03-19 18:58:18

MapReduce的誤差反向傳播算法

針對誤差反向傳播（BP）算法計算迭代的特點，給出了迭代式MapReduce框架實現BP算法的方法。迭代式MapReduce框架在傳統MapReduce框架上添加了傳送模塊，避免了傳統框架運用在迭代

2017-12-20 16:39:37

多階段劃分的MapReduce模型

針對已有的MapReduce模型階段劃分粒度不合理導致模型精度和復雜度存在的問題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現狀

2017-12-27 11:48:35

什么是mapreduce_mapreduce工作原理_mapreduce_mapreduce邏輯模型圖

Mapreduce概況 MapReduce是一種編程模型，用于大規模數據集（大于1TB）的并行運算。概念Map（映射）和Reduce（歸約），是它們的主要思想，都是從函數式編程語言里借來的，還有

2018-01-02 10:39:34

24973

詳解MapReduce的模式、算法和用例

本文總結了幾種網上或者論文中常見的MapReduce模式和算法，并系統化的解釋了這些技術的不同之處。所有描述性的文字和代碼都使用了標準hadoop的MapReduce模型，包括Mappers， Reduces， Combiners， Partitioners，和 sorting。下面我將一一進行分析。

2018-01-02 11:31:32

2233