顶部
收藏

数据准备:方法、原理与应用


作者:
李艳、周迎春
定价:
48.60元
ISBN:
978-7-04-064535-4
版面字数:
390.00千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
2025-09-02
物料号:
64535-00
读者对象:
高等教育
一级分类:
数学与统计学类
二级分类:
信息与计算科学专业课
三级分类:
数据分析

本书主要介绍数据科学中数据准备阶段常用的数据处理方法。全书内容分为个部分:数据准备概览、数据清理、数据变换、数据归约和案例分析。本书注重方法的原理及其应用,在方法原理引介部分强调重要的统计学思想,在方法应用部分强化数据思维和数据处理规范。

本书可作为高等学校统计学类专业、数据科学专业,以及人工智能、计算机科学技术等专业的本科生或研究生的教材或教学参考书,同时可供相关领域工作者参考使用。

  • 前辅文
  • 第一部分 概览
    • 第一章 数据准备概述
      • 1.1 数据准备的必要性
      • 1.2 数据准备的步骤
      • 1.3 数据准备的评价与优化
      • 1.4 案例分析
      • 本章小结
      • 习题
      • 参考文献
    • 第二章 数据理解
      • 2.1 数据特点
      • 2.2 计量尺度
      • 2.3 数据质量
      • 本章小结
      • 习题
      • 参考文献
  • 第二部分 数据清理
    • 第三章 清洗脏数据
      • 本章小结
      • 习题
      • 参考文献
    • 第四章 离群值处理
      • 4.1 离群值处理概述
      • 4.2 一元变量的离群值识别
        • 4.2.1 Z分数与修正的Z分数
        • 4.2.2 箱线图
      • 4.3 椭圆包络
        • 4.3.1 参数的稳健估计:MCD方法
        • 4.3.2 Fast-MCD算法
        • 4.3.3 判别临界值γ的确定
      • 4.4 局部离群点因子
        • 4.4.1 距离、邻居与密度
        • 4.4.2 LOF值
        • 4.4.3 邻居数量的设置
      • 4.5 孤立森林
        • 4.5.1 孤立树
        • 4.5.2 路径长度
        • 4.5.3 异常分
        • 4.5.4 判别临界值γ的确定
      • 4.6 单类支持向量机
        • 4.6.1 基于线性超平面的离群值识别
        • 4.6.2 参数ω的求解
        • 4.6.3 支持向量与离群值
        • 4.6.4 参数ρ的求解
        • 4.6.5 基于非线性超平面的离群值识别
      • 4.7 案例分析
      • 本章小结
      • 习题
      • 参考文献
    • 第五章 缺失值处理
      • 5.1 缺失值处理概述
        • 5.1.1 识别缺失值
        • 5.1.2 探索缺失模式
        • 5.1.3 分析导致缺失值的原因
        • 5.1.4 处理缺失值
        • 5.1.5 诊断缺失值处理结果
      • 5.2 缺失值插补方法概述
        • 5.2.1 缺失值插补方法分类
        • 5.2.2 缺失值插补方法应具备的特点
      • 5.3 κ近邻插补
      • 5.4 回归插补与随机回归插补
        • 5.4.1 回归插补
        • 5.4.2 随机回归插补
      • 5.5 缺失森林
      • 5.6 MICE与预测均值匹配
        • 5.6.1 MICE
        • 5.6.2 基于MICE的预测均值匹配
        • 5.6.3 基于普通最小二乘回归模型的特例
      • 5.7 案例分析
      • 本章小结
      • 习题
      • 参考文献
  • 第三部分 数据变换
    • 第六章 特征衍生
      • 6.1 一阶特征衍生
      • 6.2 二阶与高阶特征衍生
      • 6.3 案例分析
      • 本章小结
      • 习题
      • 参考文献
    • 第七章 数据规范化
      • 7.1 定量变量的规范化
        • 7.1.1 标准化
        • 7.1.2 最小值-最大值规范化
        • 7.1.3 幂变换
        • 7.1.4 白化
        • 7.1.5 行归一化
      • 7.2 定性变量的规范化
        • 7.2.1 独热编码
        • 7.2.2 有序编码
      • 本章小结
      • 习题
      • 参考文献
    • 第八章 数据离散化
      • 8.1 离散化的作用与分类
      • 8.2 无监督离散化
        • 8.2.1 组距分组
        • 8.2.2 分位数分组
        • 8.2.3 均值-标准差分组
        • 8.2.4 K-means分箱
      • 8.3 有监督离散化概述
        • 8.3.1 有监督离散化的基本原则
        • 8.3.2 有监督离散化效果评价
      • 8.4 ChiMerge算法
      • 8.5 CAIM算法
      • 8.6 基于MDLP的离散化方法
        • 8.6.1 基于信息增益的离散化
        • 8.6.2 MDLPC准则
        • 8.6.3 方法步骤
      • 8.7 案例分析
      • 本章小结
      • 习题
      • 参考文献
    • 第九章 类别不平衡问题处理
      • 9.1 类别不平衡问题
      • 9.2 欠采样:EasyEnsemble算法
      • 9.3 过采样:SMOTE算法
      • 9.4 案例分析
      • 本章小结
      • 习题
      • 参考文献
  • 第四部分 数据归约
    • 第十章 特征选择
      • 10.1 特征选择概述
      • 10.2 无监督过滤法
        • 10.2.1 删除缺失值比例较高的变量
        • 10.2.2 删除方差几乎为零的变量
        • 10.2.3 去除强相关的变量
        • 10.2.4 通过聚类过滤变量
      • 10.3 有监督过滤法
        • 10.3.1 基于多重检验过滤变量
        • 10.3.2 基于互信息过滤变量
        • 10.3.3 基于最大信息系数过滤变量
      • 10.4 封装法
        • 10.4.1 由单一模型选择特征
        • 10.4.2 循序特征选择
        • 10.4.3 递归特征删除
      • 10.5 案例分析
      • 本章小结
      • 习题
      • 参考文献
    • 第十一章 特征提取
      • 11.1 特征提取概述
        • 11.1.1 特征转换的作用
        • 11.1.2 特征转换方法分类
      • 11.2 Truncated SVD
      • 11.3 主成分分析
        • 11.3.1 最大化方差
        • 11.3.2 最小化重构误差
      • 11.4 费希尔判别分析
      • 11.5 独立成分分析
        • 11.5.1 问题与假设条件
        • 11.5.2 FastICA算法
        • 11.5.3 互信息极小化
      • 11.6 核主成分分析
      • 11.7 多维缩放
      • 11.8 等度量映射
      • 11.9 局部线性嵌入
      • 11.10 SNE与t-SNE
        • 11.10.1 SNE
        • 11.10.2 t-SNE
      • 11.11 案例分析
      • 本章小结
      • 习题
      • 参考文献
  • 第五部分 案例分析
    • 第十二章 天猫用户复购预测案例分析
      • 12.1 数据理解
      • 12.2 数据准备
        • 12.2.1 数据处理方案
        • 12.2.2 清洗脏数据
        • 12.2.3 特征衍生
        • 12.2.4 划分训练集和测试集
        • 12.2.5 特征提取
        • 12.2.6 特征选择
        • 12.2.7 规范化
        • 12.2.8 缺失值处理
      • 12.3 模型构建与主要结果
      • 12.4 结论与反思
      • 参考文献
      • 附录A 数据处理流程示意图
      • 附录B 衍生的特征
      • 附录C 部分Python代码

相关图书