本书的内容安排基本上按照数据科学的步骤及思维, 所有讨论都基于实际数据案例并通过R和Python两种软件实现. 我们尽可能地给出所有数据集的来源, 读者可以通过相关网址及本书的二维码获取.
本书第一部分为读者介绍了两款软件的基本操作, 帮助读者快速入门. 第二部分内容包括数据及探索性数据分析、数据整理及清理, 我们力求打破传统教科书中的“规整案例”模式, 希望给读者呈现更“真实”的数据预处理的面貌, 并通过图形可视化方法勾勒数据的基本“画像”. 第三部分介绍有监督学习中十余种分类及回归学习方法. 第四部分介绍降维和聚类两类无监督学习方法. 这两部分是本书的核心内容所在. 第五部分通过案例简要介绍网络爬虫技术, 供读者参考.在课程内容的选择、课程进度及授课方式方面, 我们认为必须给任课教师以最大的自由度和自主权, 一切依学生的基础、条件及需要而定, 介绍对学生最有帮助的内容,使学生的思维空间向无限的可能开放.
本书既可作为本科各专业二、三年级数据科学的入门课程教材,也可供广大实际工作者参考.