顶部
收藏

大数据技术基础与应用


作者:
主编 张燕 邹立达 张睿 于晓 林培光
定价:
29.40元
ISBN:
978-7-04-060396-5
版面字数:
340.000千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
2024-06-26
物料号:
60396-00
读者对象:
高等教育
一级分类:
计算机/教育技术类
二级分类:
计算机基础课程
三级分类:
大学计算机基础

当今大数据已广泛应用于各行各业,大数据相关的存储和分布式计算等基本知识也成为时下大学生,尤其是计算机相关专业学生应具备的知识。本书在内容上去繁就简,重点介绍大数据的相关基本概念和原理,包括存储原理和分布式处理的原理。本书主要围绕Hadoop大数据处理平台(第2章),介绍其中涉及的HDFS(第3章)、HBase(第4章)等存储技术和Hadoop MapReduce分布式处理技术(第6章);介绍了大数据相关的存储技术NoSQL数据库(第5章)以及数据仓库技术Hive(第7章);并对新兴的大数据平台Spark(第8章)以及其他流行的大数据技术(第9章)进行了介绍。

本书适合计算机专业的低年级学生作为大数据入门课程的教材或者其他专业学生的大数据课程教材。

  • 前辅文
  • 第1章 大数据概述
    • 1.1 大数据的产生、概念与特征
      • 1.1.1 大数据的产生
      • 1.1.2 大数据的概念
      • 1.1.3 大数据的特征
    • 1.2 从数据库到大数据
    • 1.3 大数据与云计算、物联网
      • 1.3.1 云计算概述
      • 1.3.2 云计算的特征
      • 1.3.3 云计算与大数据
      • 1.3.4 大数据与物联网
    • 1.4 大数据与现实生活
    • 1.5 大数据在金融领域的应用
      • 1.5.1 大数据技术在银行业中的应用
      • 1.5.2 大数据在保险行业中的应用
    • 1.6 本章小结
  • 第2章 Hadoop大数据处理平台
    • 2.1 Hadoop概述
      • 2.1.1 Hadoop的发展
      • 2.1.2 Hadoop的优点
    • 2.2 Hadoop的应用
      • 2.2.1 Hadoop在国外的典型应用
      • 2.2.2 Hadoop在国内的典型应用
    • 2.3 Hadoop生态系统构成
      • 2.3.1 HDFS(分布式文件系统)
      • 2.3.2 YARN(分布式资源管理系统)
      • 2.3.3 MapReduce(离线计算)
      • 2.3.4 HBase(分布式数据库)
      • 2.3.5 Hive(数据仓库工具)
      • 2.3.6 Mahout (数据挖掘工具)
      • 2.3.7 Pig(数据流处理)
      • 2.3.8 Oozie(作业流调度系统)
      • 2.3.9 Zookeeper(分布式协作服务)
      • 2.3.10 Sqoop(数据库ETL工具)
      • 2.3.11 Flume(日志收集工具)
      • 2.3.12 Ambari(Web工具)
    • 2.4 Hadoop的安装与使用
      • 2.4.1 在Linux中安装与配置Hadoop
      • 2.4.2 在Windows中安装与配置Hadoop
      • 2.4.3 安装和配置Hadoop集群
    • 2.5 Hadoop在金融领域的应用
    • 2.6 本章小结
  • 第3章 分布式文件系统HDFS
    • 3.1 分布式文件系统
    • 3.2 HDFS相关概念
      • 3.2.1 数据块
      • 3.2.2 名称节点和数据节点
      • 3.2.3 第二名称节点
    • 3.3 HDFS体系结构
    • 3.4 HDFS存储原理
      • 3.4.1 冗余数据存储
      • 3.4.2 HDFS数据存取
      • 3.4.3 数据错误与恢复
    • 3.5 HDFS的文件读写过程
      • 3.5.1 HDFS的文件读取过程
      • 3.5.2 HDFS的文件写入过程
    • 3.6 HDFS2.0的新特性
      • 3.6.1 HDFSHA
      • 3.6.2 HDFSFedration
    • 3.7 HDFS应用
      • 3.7.1 HDFS常用命令
      • 3.7.2 使用Java API操作HDFS
    • 3.8 本章小结
  • 第4章 分布式数据库HBase
    • 4.1 概述
    • 4.2 HBase访问接口
    • 4.3 HBase数据模型
      • 4.3.1 HBase数据模型概述
      • 4.3.2 数据模型的相关概念
      • 4.3.3 面向列的存储
    • 4.4 HBase的实现原理
      • 4.4.1 表和HRegion
      • 4.4.2 HRegion的定位
    • 4.5 HBase的运行机制
      • 4.5.1 Client
      • 4.5.2 Zookeeper
      • 4.5.3 HMaster
      • 4.5.4 HRegionServer
      • 4.5.5 HBase的读写
      • 4.5.6 hbase:meta表
    • 4.6 HBase编程实践
      • 4.6.1 安装并配置HBase
      • 4.6.2 利用Shell命令访问HBase
      • 4.6.3 Java API编程实例
    • 4.7 本章小结
  • 第5章 NoSQL数据库
    • 5.1 NoSQL的兴起
    • 5.2 NoSQL与关系数据库的比较
    • 5.3 NoSQL的四大类型
      • 5.3.1 键值数据库
      • 5.3.2 文档数据库
      • 5.3.3 列族数据库
      • 5.3.4 图数据库
    • 5.4 NoSQL的三大基石
      • 5.4.1 CAP
      • 5.4.2 BASE
      • 5.4.3 最终一致性
    • 5.5 文档数据库MongoDB
      • 5.5.1 MongoDB简介
      • 5.5.2 MongoDB的逻辑结构
      • 5.5.3 MongoDB的安装
      • 5.5.4 用Shell命令操作MongoDB
      • 5.5.5 使用Java API访问MongoDB
    • 5.6 本章小结
  • 第6章 大数据编程模型MapReduce
    • 6.1 分布式并行编程
    • 6.2 MapReduce模型概述
    • 6.3 MapReduce工作流程
      • 6.3.1 工作流程概述
      • 6.3.2 MapReduce各个执行阶段
      • 6.3.3 Shuffle 过程详解
    • 6.4 MapReduce开发环境与实例分析
      • 6.4.1 开发环境配置
      • 6.4.2 WordCount开发
      • 6.4.3 金融实例分析
    • 6.5 新MapReduce框架YARN
      • 6.5.1 YARN 框架的原理及运作机制
      • 6.5.2 两个HadoopMapReduce版本的比较
    • 6.6 本章小结
  • 第7章 基于Hadoop的数据仓库Hive
    • 7.1 Hive概述
      • 7.1.1 数据仓库及其面临的挑战
      • 7.1.2 Hive简介
    • 7.2 Hive的系统架构
    • 7.3 Hive工作原理
      • 7.3.1 用MapReduce实现连接操作
      • 7.3.2 用MapReduce实现分组操作
      • 7.3.3 HiveQL查询转换成MapReduce作业的过程
    • 7.4 HiveHA的基本原理
    • 7.5 Hive应用的基本操作
      • 7.5.1 安装Hive
      • 7.5.2 Hive的数据类型
      • 7.5.3 Hive的常用操作
    • 7.6 本章小结
  • 第8章 Spark
    • 8.1 Spark概述
      • 8.1.1 Spark简介
      • 8.1.2 Spark与Scala语言
      • 8.1.3 Spark与Hadoop
    • 8.2 Spark架构
      • 8.2.1 Spark的生态架构
      • 8.2.2 Spark的运行架构
      • 8.2.3 Spark的运行流程
      • 8.2.4 RDD的工作原理
    • 8.3 Spark的部署方式
      • 8.3.1 Standalone模式
      • 8.3.2 Sparkon Mesos模式
      • 8.3.3 Sparkon YARN模式
    • 8.4 Spark基本编程实践
      • 8.4.1 安装Spark
      • 8.4.2 SparkRDD基本操作
      • 8.4.3 编写Spark应用程序
    • 8.5 本章小结
  • 第9章 其他大数据技术
    • 9.1 机器学习框架Mahout
      • 9.1.1 简介
      • 9.1.2 系统架构
      • 9.1.3 适用场景
      • 9.1.4 优缺点分析
    • 9.2 分布式应用程序协调服务Zookeeper
      • 9.2.1 简介
      • 9.2.2 Zookeeper的工作原理
      • 9.2.3 适用场景
    • 9.3 流计算框架Storm
      • 9.3.1 简介
      • 9.3.2 计算框架
      • 9.3.3 适用场景
    • 9.4 图计算工具Pregel
      • 9.4.1 简介
      • 9.4.2 Pregel 图计算模型
      • 9.4.3 Pregel 的应用实例
    • 9.5 可视化工具
      • 9.5.1 数据可视化概念
      • 9.5.2 大数据数据可视化的过程
      • 9.5.3 主流数据可视化工具
    • 9.6 本章小结

相关图书