本书以“高职院校学情分析”系统为项目原型,以任务驱动为主线,基于Hadoop大数据平台,讲解大数据平台的搭建与运维、大数据的采集与存储、大数据的处理、数据的分析、数据的可视化等完整的大数据应用案例,全面详细地讲述Hadoop、MapReduce、HDFS、Hive和Sqoop 等技术的相关知识,并详细讨论了Mahout大数据分析中的常用算法——K-means聚类算法、Canopy 聚类算法、欧氏距离算法、余弦距离算法、皮尔逊相关系数算法、TF-IDF加权算法等的使用及相关学情分析系统中算法的实现等。
本书具有较强的实用性和可操作性,语言精练,通俗易懂,操作步骤描述详尽,并配有大量操作图例。
本书可作为高等职业院校大数据应用专业、软件技术专业、云计算技术与应用专业的大数据分析与软件开发等相关课程的教材,也可作为从事大数据分析、云计算应用等系统开发与分析技术人员的参考用书。
- 前辅文
- 项目1 认识大数据,实现学情分析系统设计与环境搭建
- 学习目标
- 学习情境
- 任务1.1 设计学情分析系统
- 任务1.2 构建学情分析系统开发环境
- 项目2 Hadoop大数据平台的构建
- 学习目标
- 学习情境
- 任务2.1 搭建Ambari Hadoop系统
- 任务2.2 使用Apache Ambari管理Hadoop集群
- 项目3 就业岗位数据的采集和存储
- 学习目标
- 学习情境
- 任务3.1 使用网络爬虫采集岗位招聘数据
- 任务3.2 将采集的数据上传到HDFS
- 任务3.3 使用Sqoop转换MySQL中的学生成绩数据到Hive中
- 项目4 岗位数据的处理
- 学习目标
- 学习情境
- 任务4.1 使用Hadoop MR对数据进行清洗
- 任务4.2 使用命令行对Hive进行数据查询和过滤
- 任务4.3 使用Java API对Hive进行连接与操作
- 项目5 岗位和技能数据的分析
- 学习目标
- 学习情境
- 任务5.1 使用Mahout 命令进行岗位聚类分析
- 任务5.2 使用Mahout的 Java API进行岗位分析聚类开发
- 任务5.3 使用Mahout推荐工作岗位
- 项目6 数据的可视化
- 学习目标
- 学习情境
- 任务6.1 使用Excel可视化数据
- 任务6.2 使用ECharts可视化数据
- 任务6.3 使用D3.js可视化数据
- 参考文献