hadoop 学习笔记1
- 环境搭建
- linux环境下需要有 jdk、ssh、rsync(集群环境下需要ssh进行数据交换)
- 下载hadoop-stable-0.22.0.tar.gz , 解压到 /home/tt/hadoop下
运行
- hadoop内有三种模式:local mode(单机模式),pseudo mode(伪集群模式,在单机部署整个系统),fully-distributed mode(完整集群模式-生产环境下用,集群规模可打上百台服务器)
- local mode
- cd /home/tt/hadoop
- mkdir input
- cp conf/.xml input
- bin/hadoop jar hadoop-examples..jar grep input output 'dfs[a-z]+'
- cat output/*
- 这个例子是读取input中的文件内容,并进行grep操作,这也是最简单的例子了
- 环境变量: JAVA_HOME,HADOOP_HOME,HADOOP_ROOT_LOGGER=DEBUG,console(输出详细的LOG)
- note: 最好使用 linux amd-64环境, 因为 hadoop下默认自带 linux-amd-64.so的本地库
- 在 window下使用 cyg 的话 会有这个问题,找不到需要的 本地库.
- pseudo mode 1.
- fully-distributed