面向新一代Hadoop 2.x版本的第四版新课程《Hadoop数据分析平台》17周全 炼数成金
课程介绍
这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cou和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字。成本和IT能力成为了海量数据分析的主要瓶颈。Hadoop这个开源产品的出现,打破了对数据力量的压制。Hadoop源于Nutch这个小型的搜索引擎项目。而Nutch则出自于著名的开源搜索引擎解决方案Lucene,而Lucene则来源于对Google的学习模仿。在Hadoop身上有着明显的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想来源于Goolge对Page rank的计算方法,HBase模仿的是Big Table,Zookeeper则学习了Chubby。Google巨人的力量尽管由于商业的原因被层层封锁,但在Hadoop身上得到了完美的重生和发展。从2006年Apache基金会接纳Hadoop项目以来。Hadoop已经成为云计算软件的一个事实标准,以及开源云计算解决方案的几乎唯一选择。对于想用低成本(包括软硬件)实现云计算平台或海量数据分析平台的用户,Hadoop集群是首选的对象。由于Hadoop在各方面都打破了传统关系型数据库的思路和模式,对于新接触Hadoop平台的人,往往会觉得困惑和难以理解,进而转化为畏惧。我们的《Hadoop数据分析平台》课程,正是为了帮助传统关系型数据库用户和数据分析者进入这个领域而开设,力求做到架构与实施并重,原理和实践结合,希望大家能在这个网络课程里学有所获,而我们也可为开源大业作出微薄的贡献。
-------------------课程目录-------------------
第1课 Hadoop的源起与体系介绍;实施Hadoop集群;CDH家族
第2课 分布式文件系统HDFS原理与操作,HDFS API编程;2.x下HDFS新特性,高可用,联邦,快照
第3课 具有全部新特性的2.x企业级集群实施
第4课 Map-Reduce原理、体系架构和工作机制,eclipse与Hadoop集群连接,使用maven
第5课 Map-Reduce编程实战,日志分析
第6课 Map-Reduce复杂应用案例,Hadoop流
第7课 新一代计算框架YARN
第8课 Pig原理,部署与Pig Latin语言,应用案例
第9课 Hive体系架构、安装与HiveQL
第10课 Hive应用案例,impala子项目
第11课 Zookeeper与分布式系统开发
第12课 HBase体系架构,集群部署,管理
第13课 HBase数据模型,实战案例建模剖析
第14课 数据集成Sqoop,Flume,Chukwa,商业数据库与Hadoop集群的连接
第15课 与应用连接,REST和Thrift接口,UDF实战,RHadoop,数据分析软件与Hadoop集群的连接
第16课 进军Hadoop
源代码
第17课 Hadoop在互联网企业中的应用案例;集成各个子项目形成企业级数据分析平台;Hadoop与机器学习