顶部
收藏

数据科学导论——R与Python实现


作者:
吴喜之 刘苗
定价:
48.00元
ISBN:
978-7-04-052545-8
版面字数:
480.000千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
1900-01-01
读者对象:
高等教育
一级分类:
经济
二级分类:
经济学
三级分类:
经济统计学

本书的内容安排基本上按照数据科学的步骤及思维, 所有讨论都基于实际数据案例并通过R和Python两种软件实现. 我们尽可能地给出所有数据集的来源, 读者可以通过相关网址及本书的二维码获取.

本书第一部分为读者介绍了两款软件的基本操作, 帮助读者快速入门. 第二部分内容包括数据及探索性数据分析、数据整理及清理, 我们力求打破传统教科书中的“规整案例”模式, 希望给读者呈现更“真实”的数据预处理的面貌, 并通过图形可视化方法勾勒数据的基本“画像”. 第三部分介绍有监督学习中十余种分类及回归学习方法. 第四部分介绍降维和聚类两类无监督学习方法. 这两部分是本书的核心内容所在. 第五部分通过案例简要介绍网络爬虫技术, 供读者参考.在课程内容的选择、课程进度及授课方式方面, 我们认为必须给任课教师以最大的自由度和自主权, 一切依学生的基础、条件及需要而定, 介绍对学生最有帮助的内容,使学生的思维空间向无限的可能开放.

本书既可作为本科各专业二、三年级数据科学的入门课程教材,也可供广大实际工作者参考.

 

  • 前辅文
  • 第一部分 本书的安排及软件
    • 第1章 本书的内容安排及教学建议
      • 1.1 适用对象
      • 1.2 内容及教学建议
      • 1.3 根据需要和疑问调整教学内容
        • 1.3.1 拉动式学习方法
        • 1.3.2 根据学生的需要教学
        • 1.3.3 老师应该让学生产生质疑
    • 第2章 软件准备
      • 2.1 软件准备
      • 2.2 R——为领悟而运行
        • 2.2.1 R简介
        • 2.2.2 安装和运行
        • 2.2.3 试试R编程
      • 2.3 Python——为领悟而运行
        • 2.3.1 Python简介
        • 2.3.2 安装和运行
        • 2.3.3 试试Python编程
        • 2.3.4 Numpy模块
        • 2.3.5 Pandas模块
        • 2.3.6 Matplotlib模块
      • 2.4 习 题
  • 第二部分 数据及探索性数据分析
    • 第3章 数据的形式、获得及简单描述
      • 3.1 数据的意义及获取
        • 3.1.1 数据
        • 3.1.2 数据的获取
      • 3.2 标准格式数据
        • 3.2.1 变量和观测值
        • 3.2.2 数据的输入和简单展示
        • 3.2.3 数据阵中的元素
        • 3.2.4 变量的种类
        • 3.2.5 统计与计算机术语的区别
      • 3.3 简单的数据汇总
        • 3.3.1 一些汇总统计量
        • 3.3.2 汇总统计量的计算
        • 3.3.3 从“被平均”谈均值
        • 3.3.4 例3.1数据的简单汇总
      • 3.4 数据的图形描述
        • 3.4.1 程序包的安装和使用
        • 3.4.2 散点图
        • 3.4.3 直方图
        • 3.4.4 盒形图
        • 3.4.5 条形图
        • 3.4.6 三维曲面图及等高线图
        • 3.4.7 更多的图形*
      • 3.5 本章的Python代码
      • 3.6 习题
    • 第4章 数据整理和清理案例
      • 4.1 GDP数据案例
        • 4.1.1 形成某年各国的多指标数据
        • 4.1.2 形成某国各个时期不同指标的多元时间序列
        • 4.1.3 形成某指标的各个时期不同国家的多元时间序列
      • 4.2 世界卫生组织案例之一
        • 4.2.1 数据的提取
        • 4.2.2 删除多余的行和列
        • 4.2.3 把多个数据合并成一个数据
      • 4.3 世界卫生组织案例之二
        • 4.3.1 输入并识别数据
        • 4.3.2 删除多余的行和列
        • 4.3.3 合并数据
        • 4.3.4 清理数据中的其他问题
      • 4.4 数据中的缺失值
        • 4.4.1 缺失值的审视与标记
        • 4.4.2 删除缺失值的方法及问题
        • 4.4.3 用认定值或某些准则来填补缺失值
        • 4.4.4 利用可预测模型来填补缺失值
      • 4.5 本章的Python代码
        • 4.5.1 读入例4.1数据形成2016年的各国数据
        • 4.5.2 形成某国各个时期不同指标的多元时间序列
        • 4.5.3 某指标的各个时期不同国家的多元时间序列
        • 4.5.4 世界卫生组织案例一
        • 4.5.5 每个数据集只要一年的数据来合并
        • 4.5.6 世界卫生组织案例二
        • 4.5.7 数据的缺失值
      • 4.6 习题
  • 第三部分 有监督学习
    • 第5章 有监督学习概论
      • 5.1 “学习”的概念
        • 5.1.1 有监督学习
        • 5.1.2 无监督学习
      • 5.2 模型和拟合
        • 5.2.1 训练决策树模型分类的例子
        • 5.2.2 训练简单最小二乘线性回归模型的例子
        • 5.2.3 模型的普遍意义和过拟合
        • 5.2.4 警告: 训练集的MSE和测试集的MSE的计算不一样!
      • 5.3 模型评价
        • 5.3.1 交叉验证
        • 5.3.2 分类问题交叉验证的预测精度标准
        • 5.3.3 回归问题交叉验证预测精度标准
        • 5.3.4 Z折交叉验证时提取各折下标集的R函数
      • 5.4 本章的Python代码
        • 5.4.1 例5.1数据的决策树分类
        • 5.4.2 例5.2数据的决策树分类
        • 5.4.3 例5.3的简单线性回归
        • 5.4.4 Z折交叉验证时提取各折下标集的Python函数
      • 5.5 习题
    • 第6章 最小二乘线性回归
      • 6.1 基本概念
      • 6.2 一个回归实例
      • 6.3 多自变量线性回归系数大小有意义吗?
      • 6.4 本章的Python代码
    • 第7章 Logistic回归
      • 7.1 基本概念
      • 7.2 Logistic回归及ROC曲线
      • 7.3 本章的Python代码
    • 第8章 决策树及其组合方法
      • 8.1 决策树
        • 8.1.1 决策树分类
        • 8.1.2 决策树回归
      • 8.2 有放回再抽样简介
        • 8.2.1 有放回再抽样
        • 8.2.2 经验分布
        • 8.2.3 OOB 数据
        • 8.2.4 非等权放回再抽样
      • 8.3 Bagging
        • 8.3.1 Bagging的原理
        • 8.3.2 Bagging分类
        • 8.3.3 Bagging回归
      • 8.4 随机森林
        • 8.4.1 随机森林分类
        • 8.4.2 随机森林回归
        • 8.4.3 一个解释随机森林的程序包*
      • 8.5 AdaBoost分类
      • 8.6 本章的Python代码
        • 8.6.1 决策树分类
        • 8.6.2 决策树回归
        • 8.6.3 Bagging分类
        • 8.6.4 Bagging 回归
        • 8.6.5 随机森林分类
        • 8.6.6 随机森林回归
        • 8.6.7 AdaBoost分类
    • 第9章 支持向量机
      • 9.1 支持向量机分类
      • 9.2 支持向量机回归
      • 9.3 本章的Python代码
        • 9.3.1 支持向量机分类
        • 9.3.2 支持向量机回归
    • 第10章 人工神经网络
      • 10.1 基本概念
      • 10.2 神经网络分类
      • 10.3 神经网络回归
      • 10.4 本章的Python代码
        • 10.4.1 人工神经网络分类
        • 10.4.2 人工神经网络回归
    • 第11章 朴素贝叶斯
      • 11.1 朴素贝叶斯原理
      • 11.2 朴素贝叶斯方法分类
      • 11.3 本章的Python代码
    • 第12章 K最近邻方法
      • 12.1 K最近邻方法概要
        • 12.1.1 K最近邻分类
        • 12.1.2 K最近邻回归
      • 12.2 本章的Python代码
        • 12.2.1 K最近邻方法分类
        • 12.2.2 K最近邻方法回归
    • 第13章 有监督学习模型比较案例及第三部分习题
      • 13.1 多分类问题例子
        • 13.1.1 二分类问题
        • 13.1.2 回归问题
      • 13.2 本章的Python代码
      • 13.3 习题
  • 第四部分 无监督学习
    • 第14章 降维:主成分分析
      • 14.1 变量之间的关系与降维的可能性
      • 14.2 两维空间的降维
      • 14.3 通过特征值问题求各个主成分
      • 14.4 各个观测值在新坐标中的记分
      • 14.5 主成分分析在图像处理中的应用
      • 14.6 本章的Python代码
      • 14.7 习题
    • 第15章 聚类分析
      • 15.1 聚类分析概论
        • 15.1.1 点间距离
        • 15.1.2 类间距离
        • 15.1.3 分层聚类
        • 15.1.4 K均值聚类
        • 15.1.5 聚类数目的选择
        • 15.1.6 图像色彩的聚类
      • 15.2 本章的Python代码
      • 15.3 习题
  • 第五部分 网络爬虫
    • 第16章 网络抓取/网络爬虫入门
      • 16.1 引言
        • 16.1.1 目的
        • 16.1.2 手段
      • 16.2 HTML网页结构
        • 16.2.1 简单的网页
        • 16.2.2 元素(element)和标签(tag)的语法
        • 16.2.3 HTML的属性
      • 16.3 网络抓取的步骤
        • 16.3.1 使用Python软件
        • 16.3.2 使用R软件
      • 16.4 网络爬虫的若干案例
        • 16.4.1 抓取新京报动新闻标题
        • 16.4.2 马克思恩格斯全集文章的抓取
        • 16.4.3 抓取狄更斯小说《双城记》全部原文内容
        • 16.4.4 抓取豆瓣《月亮与六便士》书评
        • 16.4.5 抓取微博账号“公安部儿童失踪信息紧急发布平台”儿童失踪信息
      • 16.5 表格数据爬取
      • 16.6 习题
  • 参考文献

相关图书