本书是博雅大数据学院针对新开设的“数据科学与大数据技术”专业编写的数据科学导论课程教材。全书内容共分十五章,包括绪论、数据预处理、回归模型、分类模型、集成模型、聚类模型、关联规则挖掘、降维、特征选择、EM 算法、概率图模型、文本分析、图与网络分析、深度学习、分布式计算。附录部分对相关的基础知识做了简要介绍。本书还提供了大量的数据分析实践案例,有助于加深读者对理论知识的理解,及培养其实际应用能力。
本书可作为全国高等学校数据科学相关专业的本科生和研究生教材,也可供从事相关工作的技术人员参考使用。
- 前辅文
- 第一章 绪论
- 1.1 数据科学的基本内容
- 1.2 对学科发展的影响
- 1.3 对科学研究的影响
- 1.4 数据科学的课程体系
- 1.5 本书内容介绍
- 第二章 数据预处理
- 2.1 特征编码
- 2.2 缺失值处理
- 2.3 数据标准化
- 2.4 特征离散化
- 2.5 离群值检测
- 2.6 其他预处理方法
- 案例与实战
- 第三章 回归模型
- 3.1 线性回归
- 3.2 线性回归正则化
- 3.3 非线性回归
- 案例与实战
- 第四章 分类模型
- 4.1 逻辑回归
- 4.2 K 近邻
- 4.3 决策树
- 4.4 朴素贝叶斯
- 4.5 支持向量机
- 案例与实战
- 第五章 集成模型
- 5.1 集成方法综述
- 5.2 随机森林
- 5.3 AdaBoost
- 5.4 应用实例: 个人信用风险评估
- 案例与实战
- 第六章 聚类模型
- 6.1 K-means 聚类
- 6.2 层次聚类
- 6.3 谱聚类
- 6.4 基于密度的聚类
- 6.5 小结
- 案例与实战
- 第七章 关联规则挖掘
- 7.1 关联规则概述
- 7.2 Apriori 算法
- 7.3 FP-Growth 算法
- 案例与实战
- 第八章 降维
- 8.1 主成分分析
- 8.2 线性判别分析
- 8.3 多维尺度变换
- 8.4 局部线性嵌入
- 8.5 其他降维方法
- 案例与实战
- 第九章 特征选择
- 9.1 特征选择的一般过程
- 9.2 特征选择常用的方法
- 9.3 无监督特征选择
- 9.4 小结
- 案例与实战
- 第十章 EM 算法
- 10.1 EM 算法
- 10.2 EM 的应用: 高斯混合模型
- 10.3 小结
- 案例与实战
- 第十一章 概率图模型
- 11.1 概率图模型概述
- 11.2 隐马尔可夫模型
- 11.3 条件随机场
- 11.4 小结
- 案例与实战
- 第十二章 文本分析
- 12.1 文本表示模型
- 12.2 主题模型
- 12.3 情感分析
- 案例与实战
- 第十三章 图与网络分析
- 13.1 基本概念
- 13.2 几何特征
- 13.3 链接分析
- 13.4 社区发现
- 13.5 知识图谱
- 案例与实战
- 第十四章 深度学习
- 14.1 多层感知机
- 14.2 深度学习模型的优化
- 14.3 卷积神经网络
- 14.4 循环神经网络
- 14.5 小结
- 案例与实战
- 第十五章 分布式计算
- 15.1 Hadoop: 分布式存储与处理
- 15.2 常见模型的\ MapReduce 实现
- 15.3 Spark: 分布式数据分析
- 15.4 其他分布式系统
- 附录
- A. 矩阵运算
- B. 概率论基础
- C. 优化算法
- D. 距离
- E. 模型评估
- 参考文献
数据科学导引数字课程与纸质教材一体化设计,紧密结合。数字课程包括实践案例、配套数据集、拓展阅读等内容,充分运用多种媒体资源,极大地丰富了知识的呈现形式,拓展了教材内容。在提升课程教学效果的同时,为学生学习提供思维探索的空间。