Hadoop 集群配置 与 WordCount 运行

集群配置:

http://yymmiinngg.iteye.com/blog/706699

http://linleran.iteye.com/blog/287993

主要参考这两篇blog, 第一篇为主

Problem:

1. 设置 master node 的时候 最好用 hostname, (IP 也是可以运行的)

2. Java JDK 用最新版本的

3. 设置 JAVA_HOME, 除了 hadoop-env.sh 外 也在 /etc/profiles 里设置一下 JAVA_HOME   要确保 每台机器都可以 echo 到javahome的值

4. 把 /etc/hosts 里面 127.0.0.1 第一行注释掉  添上本机IP 和 name  放在首行 (所有机器)

5. hadoop dfs -ls 运行时 是没有东西的 因为你还没有新建一个目录

 

WordCount.java 例子运行:

http://blog.csdn.net/snrqtdhuqf/article/details/7006489

Problems:

1.  注意大小写

2. wordcount.java package 是 org.apache… 所以在 jar包中应该也有这样的目录, 按照 blog 中一步一步做。

3. 设置 /etc/hosts 包括所有机器的 IP 和name。 否则 reduce 执行会卡住, 也可能在 hadoop 开始 start-all 的时候 显示 no tasktracer, no datanode.

4. 在每次 hadoop namenode -format 之前, 清空所有机器上的 tmp 文件夹 (存放hadoop 相应信息的文件夹 在 .xml 文件中自己设置的), 否则会有 namespaceids 冲突。

 

其他问题可以参照: hadoop 集群配置 和 使用技巧

多查看log文件 看错误提示信息

Advertisements
This entry was posted in Uncategorized. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s