顶部
收藏

大数据处理(第2版)


作者:
主编:金海 石宣化 副主编:华强胜 吴松 郑然 陈汉华 廖小飞
定价:
43.00元
ISBN:
978-7-04-063682-6
版面字数:
420.00千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
2025-12-08
物料号:
63682-00
读者对象:
高等教育
一级分类:
计算机/教育技术类
二级分类:
计算机科学与技术专业课程

本书是大数据新兴领域“十四五”高等教育教材。本书围绕互联网领域大数据处理生态系统的典型架构,从“理解大数据”“处理大数据”以及“系统观建立”三个角度培养读者的大数据处理系统能力。对应以上三个角度的能力,本书从思维、编程、优化三个方面编写,即基础;。编程处理篇着重于数据处理本身,从应用编程、典型数据处理的角度讲解大数据批处理编程、流处理与图计算。系统与优化篇包含大数据系统资源管理以及大数据系统优化技术,讲解云计算环境下多任务管理机制、大数据分布式资源管理机制与服务协调机制,以及大数据处理系统优化的基本思路、关键组件分析和系统优化方法。

本书既可作为高等学校大数据相关专业的教学用书,也可供大数据领域专业技术人员参考。

  • 前辅文
  • 基础技术篇
    • 第1章 大数据处理基础
      • 导言
      • 1.1 大数据特征
        • 1.1.1 基本特征
        • 1.1.2 数据模型
      • 1.2 大数据存储模式
        • 1.2.1 分布式文件系统
        • 1.2.2 大数据存储形式
        • 1.2.3 大数据存储实例
      • 1.3 大数据处理模式
        • 1.3.1 并行处理
        • 1.3.2 分布式处理
        • 1.3.3 控制流的处理
        • 1.3.4 数据流的处理
      • 1.4 大数据编程模式
        • 1.4.1 批处理
        • 1.4.2 流处理
        • 1.4.3 交互式数据处理
        • 1.4.4 图处理
      • 1.5 大数据处理体系结构
        • 1.5.1 数据中心
        • 1.5.2 数据中心体系结构
        • 1.5.3 数据中心的网络拓扑结构
      • 1.6 本章小结与全书内容组织
      • 习题
      • 参考文献
    • 第2章 大数据存储基础
      • 导言
      • 2.1 分布式存储系统
        • 2.1.1 分布式存储系统的基本概念
        • 2.1.2 数据分布
        • 2.1.3 复制与一致性
        • 2.1.4 容错机制
        • 2.1.5 可扩展性
      • 2.2 分布式文件系统
        • 2.2.1 分布式文件系统概述
        • 2.2.2 HDFS的系统架构
        • 2.2.3 数据分布
        • 2.2.4 复制与一致性
        • 2.2.5 容错机制
        • 2.2.6 读写流程
        • 2.2.7 HDFS实例
      • 2.3 分布式键值系统
        • 2.3.1 分布式键值系统概述
        • 2.3.2 Dynamo概述
        • 2.3.3 数据分布
        • 2.3.4 复制与一致性
        • 2.3.5 容错机制
        • 2.3.6 负载均衡
        • 2.3.7 读写流程
      • 2.4 新型存储器件驱动的内存系统
        • 2.4.1 内存系统对大数据处理的重要性
        • 2.4.2 非易失性存储器
        • 2.4.3 异构内存系统
      • 2.5 本章小结
      • 习题
      • 参考文献
  • 编程处理篇
    • 第3章 大数据批处理编程
      • 导言
      • 3.1 函数式编程
        • 3.1.1 函数式编程的起源
        • 3.1.2 函数式编程的概念及特点
        • 3.1.3 函数式编程的兴衰
      • 3.2 函数式与大数据批处理编程
        • 3.2.1 MapReduce的由来
        • 3.2.2 大数据处理平台Hadoop
        • 3.2.3 Hadoop与MapReduce
      • 3.3 MapReduce编程
        • 3.3.1 MapReduce编程框架
        • 3.3.2 MapReduce主要特点
        • 3.3.3 MapReduce经典程序:单词计数
        • 3.3.4 MapReduce编程拓展:PageRank
      • 3.4 Spark编程
        • 3.4.1 Spark特性
        • 3.4.2 Spark软件生态
        • 3.4.3 Spark架构及原理
        • 3.4.4 Spark编程示例
      • 3.5 本章小结
      • 习题
      • 参考文献
    • 第4章 大数据流处理
      • 导言
      • 4.1 流处理概述
        • 4.1.1 流处理的定义
        • 4.1.2 流处理的需求
        • 4.1.3 流处理应用
      • 4.2 分布式流处理
        • 4.2.1 分布式流处理的基本原理
        • 4.2.2 数据封装
        • 4.2.3 建立应用拓扑
        • 4.2.4 指定操作的并行度
        • 4.2.5 指定数据分组与传输方式
      • 4.3 微批流处理模式
        • 4.3.1 微批流处理的处理过程
        • 4.3.2 微批流处理模式的优势和挑战
        • 4.3.3 基于内存计算批处理的微批流处理
      • 4.4 开源系统及编程模型
        • 4.4.1 Apache Storm
        • 4.4.2 Spark Streaming
        • 4.4.3 Apache Flink
      • 4.5 流处理系统机制及优化
        • 4.5.1 流处理调度及优化
        • 4.5.2 流处理一致性语义
        • 4.5.3 流处理容错
      • 4.6 本章小结
      • 习题
      • 参考文献
    • 第5章 图计算
      • 导言
      • 5.1 图计算背景
        • 5.1.1 图计算简介
        • 5.1.2 图计算特点
      • 5.2 图计算编程与执行
        • 5.2.1 图数据表达和存储
        • 5.2.2 图计算算法基础
        • 5.2.3 图计算迭代过程
      • 5.3 图计算优化技术
        • 5.3.1 图计算并行编程模型
        • 5.3.2 图划分策略
        • 5.3.3 消息推送机制
      • 5.4 单机图计算系统
        • 5.4.1 内存图计算系统
        • 5.4.2 核外图计算系统
      • 5.5 图计算硬件加速技术
        • 5.5.1 基于GPU的图计算加速技术
        • 5.5.2 基于MIC的图计算加速技术
        • 5.5.3 基于FPGA的图计算加速技术
        • 5.5.4 基于ASIC的图计算加速技术
      • 5.6 图算法实例
        • 5.6.1 拓扑属性算法
        • 5.6.2 图数据管理和查询算法
      • 5.7 图计算性能评价
      • 5.8 本章小结
      • 习题
      • 参考文献
  • 系统与优化篇
    • 第6章 大数据系统资源管理
      • 导言
      • 6.1 大数据系统统一资源管理
        • 6.1.1 统一资源管理的设计思想
        • 6.1.2 统一资源管理的系统架构
        • 6.1.3 统一资源管理的工作流程
      • 6.2 大数据系统资源调度
        • 6.2.1 资源调度系统的架构
        • 6.2.2 典型调度算法
        • 6.2.3 云原生混合调度
      • 6.3 大数据系统资源协调
        • 6.3.1 协调系统的架构与原理
        • 6.3.2 复制状态机模型
        • 6.3.3 分布式一致性算法
      • 6.4 案例研究
        • 6.4.1 YARN
        • 6.4.2 ZooKeeper
        • 6.4.3 Snowflake
      • 6.5 本章小结
      • 习题
      • 参考文献
    • 第7章 大数据系统优化技术
      • 导言
      • 7.1 存储优化
        • 7.1.1 数据局部性优化
        • 7.1.2 服务可扩展性优化
      • 7.2 调度优化
        • 7.2.1 调度模型
        • 7.2.2 数据本地化
        • 7.2.3 负载均衡
        • 7.2.4 拖后腿问题与推测执行
      • 7.3 运行时优化
        • 7.3.1 中间结果缓存
        • 7.3.2 序列化开销优化
      • 7.4 本章小结
      • 习题
      • 参考文献