1、作者先说明一下这套大数据开发环境用到的工具有:CentOS/Hadoop/Spark/Rocket MQ。第一篇主要讲解工具的说明和项目中起到的作用。对于CentOS我觉得没有什么可说的,作者自己搭建的演示环境里有两台虚拟机,搭载CentOS 6.5。我们接下来就用两台机器进行讲解。

2、对于Hadoop,Hadoop分为两部分,一个是存储HDFS,一个是计算Yarn,项目中作者只是用了存储HDFS。在安装Hadoop的时候两者会一起安装上。作者选择HDFS作为存储工具,基于两个原因,第一分布式存储,第二使用方便,可以在任意机器调用API对文件进行操作。

3、Spark。项目中用Spark进行计算,Spark用起来不是很容易的,我们选择它的原因就一个内存计算,速度快。但是在演示环境中,害苦了作者,内存消耗太快。作者的演示环境,就是作者自己的8G笔记本,上面有两个3G的虚拟机。

4、Rocket MQ。这是Alibaba的一个消息中间件,怎么说呢,要是再次选择的话,作者肯定不会再选它了,原因有两个,第一内存消耗太大,第二时间一长自动挂掉。不知道为什么自己挂掉,在开发环境中没有问题,但是在演示环境中就会自己挂掉。

5、最后总结一下,这是一个系列经验,当然作者不是很懒的话会写完。这篇经验的目的是让更多的大数据爱好者能够按照作者这个部署策略搭建出开发环境。当然了,部署策略各种各样,需要基于项目判断。具体的安装,在系列经验的其他篇中。
