顶部
收藏

实时数据处理技术


作者:
卜令瑞 陈永 孙志敏
定价:
39.50元
ISBN:
978-7-04-056080-0
版面字数:
290.000千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
2022-05-09
读者对象:
高等职业教育
一级分类:
计算机大类
二级分类:
计算机类
三级分类:
软件技术

本书是国家职业教育大数据技术专业教学资源库配套教材。

本书主要介绍Spark 分布式计算框架的应用,重点是流式模块Spark Streaming 在实际项目中的应用,并通过一个实战项目来辅助读者学习实时数据处理场景。全书共分为6 章,主要内容包括绪论、Scala语言应用、Spark Streaming、Spark SQL、数据整合和Spark 优化。

本书配有微课视频、授课用PPT、教学设计、课程标准、案例源码等丰富的数字化学习资源。与本书配套的数字课程“实时数据处理技术”在“智慧职教”平台(www.icve.com.cn)上线,学习者可以登录平台进行在线学习及资源下载,授课教师可以调用本课程构建符合自身教学特色的SPOC 课程,详见“智慧职教”服务指南。教师也可发邮件至编辑邮箱1548103297@qq.com 获取相关资源。

本书内容翔实、理实一体,既可作为高职高专院校大数据技术专业的数据处理课程教材,也可作为从事大数据相关工作的技术人员的入门参考书。

  • 前辅文
  • 第1章 绪论
    • 1.1 实时数据处理
      • 1.1.1 大数据中的实时业务场景
      • 1.1.2 大数据实时数据处理解决方案
      • 1.1.3 大数据实时数据处理技术框架
    • 1.2 Spark 实时数据处理
      • 1.2.1 Spark 技术简介
      • 1.2.2 Spark 技术的发展历程
      • 1.2.3 Spark 技术模块
      • 1.2.4 Spark 技术流式处理模块Spark Streaming
    • 1.3 本章小结
  • 第2章 Scala 语言应用
    • 2.1 从一个项目开始
    • 2.2 需求分析
    • 2.3 Scala 安装及使用
      • 2.3.1 Scala 语言简介
      • 2.3.2 Scala 的安装与环境配置
      • 2.3.3 Scala 开发工具的安装与配置
    • 2.4 Scala 语言基础
      • 2.4.1 数据类型
      • 2.4.2 常量与变量的定义
      • 2.4.3 流程控制
    • 2.5 Scala 方法与函数
      • 2.5.1 递归方法
      • 2.5.2 有默认值方法
      • 2.5.3 可变长参数方法
      • 2.5.4 匿名函数
      • 2.5.5 嵌套方法
      • 2.5.6 偏应用表达式
      • 2.5.7 高阶函数
      • 2.5.8 Scala 函数案例
    • 2.6 Scala 集合
      • 2.6.1 数组
      • 2.6.2 list
      • 2.6.3 set 28 2.6.4 map
      • 2.6.5 tuple
      • 2.6.6 Scala 集合案例
    • 2.7 本章小结
  • 第3章 Spark Streaming
    • 3.1 Spark Streaming 初始化
      • 3.1.1 Spark Streaming 简介
      • 3.1.2 Spark Streaming 的特点
      • 3.1.3 Spark Streaming 读取数据原理
    • 3.2 Spark Streaming 处理数据案例
      • 3.2.1 启动Linux Socket 服务
      • 3.2.2 生产数据
      • 3.2.3 Spark Streaming 读取Socket数据
      • 3.2.4 注意事项
    • 3.3 Spark Streaming 算子简介
    • 3.4 Transformations 类算子
      • 3.4.1 updateStateByKey 算子案例
      • 3.4.2 transform 算子案例
      • 3.4.3 reduceByKeyAndWindow 算子案例
    • 3.5 OutputOperator 类算子
      • 3.5.1 Spark Streaming 监控目录数据案例
      • 3.5.2 print 算子案例
      • 3.5.3 saveAsTextFile 算子案例
    • 3.6 本章小结
  • 第4章 Spark SQL
    • 4.1 Spark SQL 概述
      • 4.1.1 Spark SQL 演变过程
      • 4.1.2 Spark SQL 数据类型
    • 4.2 Spark SQL 数据源
      • 4.2.1 JSON 数据源及案例
      • 4.2.2 DataSet 数据源及案例
      • 4.2.3 RDD 数据源及案例
      • 4.2.4 Parquet 数据源及案例
      • 4.2.5 MySQL 数据源及案例
    • 4.3 Spark on Hive 配置
      • 4.3.1 Hive on Spark
      • 4.3.2 Spark on Hive
      • 4.3.3 安装和配置Hive
      • 4.3.4 Spark on Hive 配置
      • 4.3.5 Spark Shell 验证
      • 4.3.6 Spark on Hive 速度测试案例
      • 4.3.7 Spark on Hive 案例分析
    • 4.4 本章小结
  • 第5章 数据整合
    • 5.1 Flume 与Kafka 的整合使用
      • 5.1.1 Flume 日志采集系统
      • 5.1.2 Flume 采集数据案例
      • 5.1.3 Kafka 分布式消息系统
      • 5.1.4 Flume 与Kafka 整合配置
    • 5.2 Spark Streaming 与Kafka 整合
      • 5.2.1 Spark 与Kafka 版本
      • 5.2.2 Spark Streaming 与Kafka 整合
      • 5.2.3 参数设置
      • 5.2.4 管理消费者offset 方式
    • 5.3 项目实战
      • 5.3.1 Flume 配置文件
      • 5.3.2 创建MySQL 数据库表
      • 5.3.3 编写业务核心代码
      • 5.3.4 任务提交
      • 5.3.5 查看结果
    • 5.4 本章小结
  • 第6章 Spark 优化
    • 6.1 资源调优
      • 6.1.1 资源调优简介
      • 6.1.2 资源调优方式
      • 6.1.3 资源调优案例
    • 6.2 增加并行度
      • 6.2.1 增加并行度简介
      • 6.2.2 增加并行度方式
      • 6.2.3 增加并行度案例
    • 6.3 代码调优
      • 6.3.1 代码调优简介
      • 6.3.2 代码调优方式
      • 6.3.3 代码调优案例
    • 6.4 数据倾斜的处理
      • 6.4.1 数据倾斜简介
      • 6.4.2 处理数据倾斜的方式
      • 6.4.3 数据倾斜案例
    • 6.5 本章小结
  • 参考文献

相关图书