关于map task和reduce task的个数 -

gushuizerotoone

浏览: 172199 次
性别:
来自: 杭州

最近访客更多访客>>

rbaggio10

KnightMCH

牛哄哄

wenming6688

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

关于map task和reduce task的个数

博客分类：

hadoop

Hadoop Eclipse lucene Mapreduce XML

先引用几段话：

1.http://coderplay.iteye.com/blog/318602
11 楼 riddle_chen 2009-05-05 引用
jiwenke 写道

coderplay 写道sorry,理解能力太差, 我不是很明白你的意思．如果你是需要控制单个节点同时在执行的的mapper/reducer数．你可以通过修改slave节点配置中的mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum．至于总的mapper任务数,是由splits决定的，当然可以通过JobConf.setNumMapTasks(n)来增大它，但没多大意义．是我没有写清楚，我想控制总的mapper任务数，比如生成5个任务，每台机器跑一个这样的需求。我同意这是由splits决定的，所以这个问题就转换为怎样生成splits的问题，我看了代码，发现splits的生成个数是和文件的个数有关的 - 如果每个文件小于block size，那就应该splits的个数等于文件个数。这样的话，如果我想控制总的任务数，就需要有那么多个文件，而我想只用一个文件。不知道现在的hadoop里面是不是支持。还有，我看到你的分析，在mapred中，TaskTracker通过heartbeat得到任务指令，然后去startNewTask(),但这里面我就迷失了.从后面往前推，maptask的启动是在Child.run()中启动的，而Child.run（）的启动似乎是在JVMManager中启动的，但我就找不到startNewTask（）是怎样启动JVMManager的？期待您的指点！谢谢！

JobConf.setNumMapTasks(n)是有意义的，结合block size会具体影响到map任务的个数，详见FileInputFormat.getSplits源码。假设没有设置mapred.min.split.size，缺省为1的情况下，针对每个文件会按照min (totalsize[所有文件总大小]/mapnum[jobconf设置的mapnum], blocksize)为大小来拆分，并不是说文件小于block size就不去拆分。

2.http://hadoop.hadoopor.com/thread-238-1-1.html
不知道你是要提高整个集群的map/reduce任务数，还是单个节点可并行运行的map/reduce任务数？对于前者是一般只设置reduce任务数，而map任务数是由Splits个数决定的; 对于后者，是可以在配置中设置的，分别为：mapred.tasktracker.map.tasks.maximum
mapred.tasktracker.reduce.tasks.maximum

另外，还有个参数mapred.jobtracker.taskScheduler.maxRunningTasksPerJob，用来控制一个job最大并行tasks数，这个是指在集群最大并行数。

3.我的理解：具体看FileInputFormat.java的代码
map tasks的个数只要是看splitSize，一个文件根据splitSize分成多少份就有多少个map tasks。而splitSize的计算(看FileInputFormat的源码)：splitSize = Math.max(minSize, Math.min(maxSize, blockSize));而
minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));即是某种格式的文件的最小分割size(如看源码sequenceFile是2000)和整个job配置的最小分割size（即mapred-default.xml中mapred.min.split.size的值）之间的较大的那个
maxSize是mapred.max.split.size（mapred-default.xml中竟然没有，我试了一下，在mapred-site.xml中配置覆盖也没有用，具体用法参照http://osdir.com/ml/mahout-user.lucene.apache.org/2010-01/msg00231.html用参数配置： hadoop jar /root/mahout-core-0.2.job org.apache.mahout.clustering.lda.LDADriver -Dmapred.max.split.size=900 ...）,如果不配置，默认值是long类型的最大值。（mapred.max.split.size不推荐配置（试））
blockSize是即hdfs-default.xml中dfs.block.size的值,可在hdf-site.xml中覆盖.这个值必须是512的倍数，如果想要数量更多的map的tasks的个数，可以把dfs.block.size设得小一点，512，1024等等，反正上面的公式保证了即使你这个blocksize设得比某种格式的文件的最小分割size要小，最后还是选者这种格式的最小分割size，如果blocksize比它大，则选用blocksize作为splitSize的大小.

总结：如果想要多一点的map tasks，(1)可以设置dfs.block.size小一点，sequenceFile推荐2048。。。（试）在eclipse运行时，dfs.block.size是由eclipse中mapreduce的设置（dfs.block.size）生效的，而不是hadoop的conf中的配置文件，但是如果用终端hadoop jar命令跑的话，应该是由hadoop的conf中的配置文件决定生效的
(2)推荐：可以分成多个sequenceFile来作为输入（把上层目录作为输入路径即可，上层目录下包括的必为清一色的sequenceFile）,输入路径 "./"或指定上层目录文件名

reduce task的个数：
可通过job.setNumReduceTasks(n);设定。多个reduce task的话就会有多个reduce结果，part-r-00000, part-r-00001, ...part-r-0000n

分享到：

vim的用法 | impove hadoop mapreduce performance

2010-04-13 22:15
浏览 14000
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于map task和reduce task的个数

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于map task和reduce task的个数

评论

发表评论

相关推荐

安装thrift

impove hadoop mapreduce performance

备忘：生成自己的build.xml，jar包

生成自己的hadoop eclipse plugin

hadoop备忘

can we specify a job running on a set of certain nodes.

最近访客更多访客>>