顶部
收藏

数据存储与分析


作者:
朱旭刚 曹建春 任洪亮
定价:
39.50元
ISBN:
978-7-04-056162-3
版面字数:
280.000千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
2022-06-27
读者对象:
高等职业教育
一级分类:
计算机大类
二级分类:
计算机类
三级分类:
计算机应用技术

本书为国家职业教育大数据技术专业教学资源库配套教材。

本书面向高职高专学生编写,介绍数据存储与分析的基础知识,全书共分6章,内容包括绪论、大数据存储与管理、HDFS 存储操作、MapReduce 及架构原理、Hive 及架构原理以及离线分析集群调优。本书知识结构合理,无论是内容组织还是案例选取,都充分考虑了高职院校学生的认知规律,利于教学实施。

本书配有微课视频、课程标准、授课计划、授课用PPT、案例素材等丰富的数字化学习资源。与本书配套的数字课程“数据存储与分析”已在“智慧职教”平台(www.icve.com.cn)上线,学习者可以登录平台进行在线学习及资源下载,授课教师可以调用本课程构建符合自身教学特色的SPOC 课程,详见“智慧职教”服务指南。教师也可发邮件至编辑邮箱1548103297@qq.com 获取相关资源。

本书可作为高职院校大数据技术专业相关课程教材,也可作为期望从事大数据相关工作人员的自学参考书。

  • 前辅文
  • 第1章 绪论
    • 1.1 大数据存储技术概述
      • 1.1.1 大数据的概念
      • 1.1.2 大数据的特点
      • 1.1.3 大数据的数据来源
      • 1.1.4 大数据的数据结构
      • 1.1.5 大数据的存储
    • 1.2 大数据分析技术概论
      • 1.2.1 大数据分析
      • 1.2.2 大数据分析的应用
      • 1.2.3 大数据分析的过程
      • 1.2.4 大数据分析的技术
      • 1.2.5 大数据分析的难点
  • 第2章 大数据存储与管理
    • 2.1 从项目需求开始
    • 2.2 HDFS 设计
      • 2.2.1 前提和设计目标
      • 2.2.2 基本组件
      • 2.2.3 文件系统的名字空间
      • 2.2.4 数据复制
      • 2.2.5 文件系统元数据的持久化
      • 2.2.6 文件系统的通信协议
      • 2.2.7 文件系统的健壮性
    • 2.3 HDFS 数据管理
      • 2.3.1 数据块
      • 2.3.2 安全模式
      • 2.3.3 文件权限
      • 2.3.4 HDFS 优缺点
    • 2.4 HDFS 存储原理
      • 2.4.1 存储原理
      • 2.4.2 写文件流程
      • 2.4.3 读文件流程
      • 2.4.4 HDFS 添加节点和删除节点
      • 2.4.5 HDFS 存储扩容
  • 第3章 HDFS 存储操作
    • 3.1 HDFS Shell 操作
      • 3.1.1 创建目录
      • 3.1.2 上传文件
      • 3.1.3 查看文件内容
      • 3.1.4 复制文件
      • 3.1.5 修改文件权限
      • 3.1.6 修改文件属主属组信息
      • 3.1.7 查看目录所有文件
      • 3.1.8 查看文件系统磁盘使用情况
      • 3.1.9 删除文件
      • 3.1.10 删除目录
    • 3.2 HDFS Java API
      • 3.2.1 根据配置文件获取HDFS 操作对象
      • 3.2.2 创建文件夹
      • 3.2.3 重命名文件夹
      • 3.2.4 文件上传
      • 3.2.5 文件下载
      • 3.2.6 文件判断
      • 3.2.7 HDFS 文件复制
      • 3.2.8 文件夹的遍历操作
      • 3.2.9 获取配置的所有信息
      • 3.2.10 删除文件夹
    • 3.3 项目实战:将数据存储到HDFS
  • 第4章 MapReduce 及架构原理
    • 4.1 MapReduce
      • 4.1.1 MapReduce 编程模型概述
      • 4.1.2 MapReduce 编程模型
      • 4.1.3 MapReduce API 基本概念
      • 4.1.4 Java API 解析
    • 4.2 MapReduce 工作机制
      • 4.2.1 MapReduce 架构
      • 4.2.2 MapReduce 作业运行机制
      • 4.2.3 MapReduce 原理
    • 4.3 MapReduce 类型与格式
      • 4.3.1 MapReduce 输入格式
      • 4.3.2 MapReduce 输出格式
    • 4.4 MapReduce 新课题研究
      • 4.4.1 课题4.1:分组取topN 统计温度案例
      • 4.4.2 课题4.2:微博推荐案例(TF-IDF)
      • 4.4.3 课题4.3:好友推荐案例
    • 4.5 项目实战:数据清洗
  • 第5章 Hive 及架构原理
    • 5.1 Hive
      • 5.1.1 数据仓库
      • 5.1.2 数据仓库模型
      • 5.1.3 Hive 数据仓库的使用特点
    • 5.2 Hive 的架构
      • 5.2.1 Hive 的架构图
      • 5.2.2 Hive 的存储
    • 5.3 Hive 的定义语言
      • 5.3.1 数据类型
      • 5.3.2 基本数据类型
      • 5.3.3 复杂数据类型
    • 5.4 Hive 数据库操作
      • 5.4.1 创建数据库
      • 5.4.2 删除数据库
      • 5.4.3 修改数据库
    • 5.5 Hive 表操作
      • 5.5.1 创建表
      • 5.5.2 列出表
      • 5.5.3 内部表
      • 5.5.4 外部表
      • 5.5.5 分区
      • 5.5.6 更改表
      • 5.5.7 删除表
    • 5.6 将数据装载到表中
      • 5.6.1 使用存储在HDFS 中的文件装载数据
      • 5.6.2 使用查询装载数据
      • 5.6.3 单个查询语句中创建表并加载数据
      • 5.6.4 导出数据
    • 5.7 UDF 函数
      • 5.7.1 Hive 内置运算符
      • 5.7.2 字符串函数
      • 5.7.3 数学函数
      • 5.7.4 日期函数
      • 5.7.5 自定义函数
    • 5.8 连接
      • 5.8.1 Inner join
      • 5.8.2 Left outer join
      • 5.8.3 Right outer join
      • 5.8.4 Full outer join
      • 5.8.5 Left semi join
    • 5.9 Hive 新课题研究
      • 5.9.1 课题5.1:使用Hive 实现Wordcount
      • 5.9.2 课题5.2:使用Hive 实现掉话率统计业务
      • 5.9.3 课题5.3:使用Hive 实现房产数据统计
    • 5.10 项目实战:数据分析
  • 第6章 离线分析集群调优
    • 6.1 Hadoop 性能调优
      • 6.1.1 应用程序编码调优
      • 6.1.2 作业级别参数调优
      • 6.1.3 任务级别参数调优
    • 6.2 Hive 性能调优
      • 6.2.1 Hive 的压缩存储调优
      • 6.2.2 表的调优
      • 6.2.3 数据倾斜调优
  • 参考文献

相关图书