hadoop 学习笔记1

环境搭建
- linux环境下需要有 jdk、ssh、rsync（集群环境下需要ssh进行数据交换）
- 下载hadoop-stable-0.22.0.tar.gz , 解压到 /home/tt/hadoop下
运行
- hadoop内有三种模式：local mode(单机模式),pseudo mode(伪集群模式，在单机部署整个系统),fully-distributed mode(完整集群模式-生产环境下用，集群规模可打上百台服务器)
- local mode
  1. cd /home/tt/hadoop
  2. mkdir input
  3. cp conf/.xml input
  4. bin/hadoop jar hadoop-examples..jar grep input output 'dfs[a-z]+'
  5. cat output/*
  6. 这个例子是读取input中的文件内容，并进行grep操作，这也是最简单的例子了
  7. 环境变量： JAVA_HOME,HADOOP_HOME,HADOOP_ROOT_LOGGER=DEBUG,console(输出详细的LOG)
  8. note: 最好使用 linux amd-64环境，因为 hadoop下默认自带 linux-amd-64.so的本地库
  9. 在 window下使用 cyg 的话会有这个问题，找不到需要的本地库.
- pseudo mode 1.
- fully-distributed