本书较为系统地讲解Hadoop生态系统的相关技术原理、使用方法及开发技术,全书共9章。第1章对大数据技术进行概述。第2章介绍Hadoop环境搭建的详细步骤。第3章介绍HDFS的架构理论、常用命令以及API的使用和编程方法。第4章介绍MapReduce的相关原理、I/O序列化机制、MapReduce的编程开发要点和实例。第5章介绍Yarn的产生背景、体系结构、通信协议、执行过程及调度器和ZooKeeper的数据模型、架构及安装配置。第6章介绍HBase的相关原理、安装配置、Shell命令以及API编程方法。第7章介绍Hive的基本原理、基本操作、HQL语句和Hive JDBC编程。第8章介绍NoSQL数据库的基本概念、MongoDB数据库的概念和安装配置、MongoDB数据库使用方法。第9章介绍在Hadoop生态系统中常用的几种工具,包括Sqoop、Kafka以及Flume。每章后附有小结、习题、二维码即测即评等栏目。
通过本书的学习,读者可以较快速地掌握使用开源软件搭建大数据生态环境的步骤和方法,而且能够全面地学习MapReduce、HDFS、Yarn、HBase、Hive、NoSQL等大数据组件的相关理论、基本操作和编程开发方法。
本书适合“数据科学与大数据技术”本科专业、“大数据管理与应用”本科专业以及计算机类专业本科和研究生使用,也可供从事大数据工作的工程技术人员参考