hadoop 学习笔记1

  1. 环境搭建
    • linux环境下需要有 jdk、ssh、rsync(集群环境下需要ssh进行数据交换)
    • 下载hadoop-stable-0.22.0.tar.gz , 解压到 /home/tt/hadoop下
  2. 运行

    • hadoop内有三种模式:local mode(单机模式),pseudo mode(伪集群模式,在单机部署整个系统),fully-distributed mode(完整集群模式-生产环境下用,集群规模可打上百台服务器)
    • local mode
      1. cd /home/tt/hadoop
      2. mkdir input
      3. cp conf/.xml input
      4. bin/hadoop jar hadoop-examples..jar grep input output 'dfs[a-z]+'
      5. cat output/*
      6. 这个例子是读取input中的文件内容,并进行grep操作,这也是最简单的例子了
      7. 环境变量: JAVA_HOME,HADOOP_HOME,HADOOP_ROOT_LOGGER=DEBUG,console(输出详细的LOG)
      8. note: 最好使用 linux amd-64环境, 因为 hadoop下默认自带 linux-amd-64.so的本地库
      9. 在 window下使用 cyg 的话 会有这个问题,找不到需要的 本地库.
    • pseudo mode 1.
    • fully-distributed 
  3.