本书聚焦于Hadoop、Spark、Flink 等面向数据密集型应用的分布式计算系统,将原理、架构、编程的知识进行有机结合,统一从设计思想、体系架构、工作原理、容错机制和编程示例5 个维度进行剖析。本书注重通过横向比较阐释该类系统设计的共性原理,帮助读者形成完整、统一的知识体系。
本书概述了分布式计算系统(第1 章),根据应用场景的差异将分布式计算系统划分为批处理系统(第3、4 章)、流计算系统(第7、8 章)、批流融合系统(第9、10 章)、图处理系统(第11 章),并选取了各个类别中的典型代表。由于这些分布式计算系统不可能孤立地存在,因此本书也介绍了面向文件存储(第2 章)、资源管理(第5 章)以及协调服务(第6 章)的系统。
本书可作为高等院校数据科学与大数据技术专业高年级本科生的教学用书,以及计算机科学与技术、软件工程、数据科学与工程等专业研究生的教学用书,也可作为部分业界研发人员的参考用书。
本课程聚焦于 Hadoop、Spark、Flink 等面向数据密集型应用的分布式计算系统,将原理、架构、编程的知识进行有机结合,统一从设计思想、体系架构、工作原理、容错机制和编程示例 5 个维度进行剖析。课程注重通过横向比较阐释该类系统设计的共性原理,帮助学生形成完整、统一的知识体系。
本课程概述了分布式计算系统(第 1 章),根据应用场景的差异将分布式计算系统划分为批处理系统(第 3、4 章)、流计算系统(第 7、8 章)、批流融合系统(第 9、10 章)、图处理系统(第 11 章),并选取了各个类别中的典型代表。由于这些分布式计算系统不可能孤立地存在,因此本课程也介绍了面向文件存储(第 2 章)、资源管理(第 5 章)以及协调服务(第6 章)的系统。
本课程可作为高等院校数据科学与大数据技术专业高年级本科生的教学课程,以及计算机科学与技术、软件工程、数据科学与工程等专业研究生的教学课程,也可作为部分业界研发人员的参考。