顶部
收藏

大数据离线分析系统安装部署(Hadoop)


作者:
于洁 马维旻 吴俊
定价:
36.00元
ISBN:
978-7-04-057970-3
版面字数:
310.000千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
2022-05-05
读者对象:
高等职业教育
一级分类:
计算机大类
二级分类:
计算机类
三级分类:
计算机应用技术

本书为国家职业教育大数据技术专业教学资源库配套教材,也是高等职业教育计算机类课程新形态一体化教材。

本书对大数据的发展历史、背景以及Hadoop 的基础知识进行了介绍。从一个真实的大数据离线分析项目开始,引导读者完成大数据离线分析平台的搭建工作,使得读者对大数据离线分析环境有一个直观的认识。另外,还以工作任务的形式引导读者完成大数据离线分析平台的HDFS、MapReduce、YARN、Hive、Flume、Sqoop、Azkaban 等组件的安装部署工作,同时还介绍了一些大数据技术必要的理论知识。

本书配套有微课、教学课件、源代码、教学案例等数字化教学资源。与本书配套的数字课程“大数据离线分析系统安装部署”已在“智慧职教”平台(www.icve.com.cn)上线,学习者可以登录平台进行在线开放课程的学习,授课教师可以调用本课程构建符合自身教学特色的SPOC 课程,详见“智慧职教”服务指南。读者可登录平台进行学习,也可发邮件至编辑邮箱1548103297@qq.com 获取相关资源。

本书紧跟信息社会发展动态,内容新颖、结构清晰,具有很强的趣味性和实用性。本书可作为高等职业院校大数据技术等相关专业的教材,也可作为大数据技术爱好者的自学用书。

  • 前辅文
  • 第1 章 绪论
    • 1.1 数据管理技术发展概述
    • 1.2 初识Hadoop
      • 1.2.1 Hadoop 的诞生
      • 1.2.2 了解Hadoop
      • 1.2.3 Hadoop 技术生态组件
      • 1.2.4 Hadoop 发行版
    • 1.3 本书结构介绍
  • 第2 章 Hadoop 集群的构建与安装
    • 2.1 从一个项目需求开始
    • 2.2 Hadoop 集群搭建基础
      • 2.2.1 运行平台支持
      • 2.2.2 所需软件
      • 2.2.3 Hadoop 集群构建流程
    • 2.3 Hadoop 集群规划
      • 2.3.1 主机规划
      • 2.3.2 软件规划
      • 2.3.3 网络拓扑结构规划
      • 2.3.4 集群规划
    • 2.4 运行平台构建
      • 2.4.1 修改主机名称
      • 2.4.2 配置IP 地址
      • 2.4.3 配置域名解析规则
      • 2.4.4 配置防火墙
    • 2.5 安装配置支持软件
      • 2.5.1 配置免密登录
      • 2.5.2 安装JDK
    • 2.6 安装配置Hadoop
      • 2.6.1 安装Hadoop
      • 2.6.2 Hadoop 环境变量配置
      • 2.6.3 配置主节点Hadoop 运行参数
      • 2.6.4 配置各从节点Hadoop 运行参数
      • 2.6.5 第1 次启动Hadoop
    • 2.7 验证Hadoop
      • 2.7.1 启动Hadoop
      • 2.7.2 验证Hadoop 进程
      • 2.7.3 验证Web 页面访问
      • 2.7.4 验证集群功能
  • 第3 章 深入理解Hadoop
    • 3.1 Hadoop 分布式文件系统HDFS
      • 3.1.1 HDFS 的重要概念
      • 3.1.2 HDFS 架构
      • 3.1.3 访问HDFS
    • 3.2 Hadoop 分布式计算框架MapReduce
      • 3.2.1 MapReduce 的重要概念
      • 3.2.2 MapReduce 运行原理
      • 3.2.3 运行简单的MapReduce程序
    • 3.3 Hadoop 集群资源管理系统YARN
      • 3.3.1 YARN 的重要概念
      • 3.3.2 YARN 的任务调度
      • 3.3.3 在YARN 中运行MapReduce程序
  • 第4 章 数据仓库工具Hive
    • 4.1 Hive 搭建基础
      • 4.1.1 Hive 版本的选择
      • 4.1.2 Hive 集群的规划
      • 4.1.3 安装MySQL
    • 4.2 在Hadoop 集群新增Hive 组件
      • 4.2.1 安装Hive
      • 4.2.2 配置Hive
      • 4.2.3 初始化元数据
      • 4.2.4 Hive 运行状态验证
    • 4.3 深入理解Hive
      • 4.3.1 Hive 的重要概念
      • 4.3.2 Hive 体系结构
    • 4.4 Hive 应用案例
  • 第5 章 海量日志采集、聚合及传输系统Flume
    • 5.1 在Hadoop 集群安装Flume 组件
      • 5.1.1 安装Flume
      • 5.1.2 验证Flume 安装
    • 5.2 深入理解Flume
      • 5.2.1 Flume 的重要概念
      • 5.2.2 Flume 的Source
      • 5.2.3 Flume 的Channel
      • 5.2.4 Flume 的Sink
      • 5.2.5 Flume 运行机制
    • 5.3 Flume 应用实例
      • 5.3.1 场景一
      • 5.3.2 场景二
      • 5.3.3 场景三
      • 5.3.4 场景四
  • 第6 章 海量数据传输工具Sqoop
    • 6.1 在Hadoop 集群安装Sqoop 组件
      • 6.1.1 安装Sqoop
      • 6.1.2 验证Sqoop
      • 6.1.3 配置JDBC
      • 6.1.4 测试Sqoop 远程连接数据库
    • 6.2 深入了解Sqoop
      • 6.2.1 Sqoop 架构
      • 6.2.2 深入理解数据导入
      • 6.2.3 深入理解数据导出
    • 6.3 Sqoop 应用实例
      • 6.3.1 数据导入
      • 6.3.2 数据导出
  • 第7 章 批量工作流任务调度器Azkaban
    • 7.1 安装部署Azkaban
      • 7.1.1 Azkaban 的安装
      • 7.1.2 导入数据库
      • 7.1.3 配置运行Azkaban
      • 7.1.4 验证Azkaban 运行情况
    • 7.2 构建工作流
      • 7.2.1 设计工作流程
      • 7.2.2 编写各阶段Job
      • 7.2.3 配置工作流并执行
      • 7.2.4 工作流执行监控
  • 参考文献

相关图书