顶部
收藏

数据科学导论——基于Python


作者:
主编:陈华 副主编:严晓东 郭政
定价:
54.00 元
版面字数:
390.00千字
开本:
16开
装帧形式:
平装
版次:
1
最新版次
印刷时间:
2026年
ISBN:
978-7-04-067099-8
物料号:
67099-00
出版时间:
2026-06-24
读者对象:
高等教育

本书是面向大数据人才培养的应用型数据科学系列教材中的一本,首先介绍了数据和数据科学的相关概念,给出数据科学的编程和数学基础。然后,根据数据处理流程的逻辑顺序,对数据预处理、探索性数据分析和数据建模进行了深入介绍。同时给出了结构化和非结构化数据库及密码算法等内容的讨论。全书以问题为驱动,结合Python实现,使抽象的数据思维具象化,加深读者对数据的感性认识,提高其数据处理过程中的实践能力。

本书可作为高等学校理工类、经管类等专业本科生学习大数据知识的基础性教材,也可供科技工作者参考。

  • 前辅文
  • 第一章 绪论
    • 1.1 数据基本概念
      • 1.1.1 数据
      • 1.1.2 大数据
      • 1.1.3 DIKW模型
      • 1.1.4 数据科学
    • 1.2 数据科学发展历史
    • 1.3 数据科学研究内容
      • 1.3.1 数据科学韦恩图
      • 1.3.2 数据科学知识体系
      • 1.3.3 数据科学流程
      • 1.3.4 本书内容体系与大作业安排
    • 1.4 数据科学应用场景与领域
    • 习题一
  • 第二章 数据科学编程基础
    • 2.1 Python基础知识
      • 2.1.1 帮助
      • 2.1.2 标识符
      • 2.1.3 行与缩进
      • 2.1.4 变量与对象
      • 2.1.5 数字与表达式
      • 2.1.6 字符串
      • 2.1.7 日期和时间
    • 2.2 Python中的数据类型与序列
      • 2.2.1 数据类型与组合数据类型
      • 2.2.2 列表
      • 2.2.3 元组
      • 2.2.4 字典
      • 2.2.5 集合
    • 2.3 语句与控制流
      • 2.3.1 条件语句
      • 2.3.2 循环语句
      • 2.3.3 推导式
    • 2.4 函数
      • 2.4.1 函数的参数
      • 2.4.2 全局变量和局部变量
      • 2.4.3 匿名函数
      • 2.4.4 递归和闭包
    • 2.5 类
      • 2.5.1 类与实例
      • 2.5.2 继承
    • 习题二
  • 第三章 数据科学数学基础
    • 3.1 微积分基础
      • 3.1.1 映射与极限
      • 3.1.2 一元函数的导数与微分
      • 3.1.3 多元函数的导数与微分
      • 3.1.4 不定积分
      • 3.1.5 定积分
      • 3.1.6 重积分
    • 3.2 数理统计基础
      • 3.2.1 随机变量及其分布
      • 3.2.2 离散随机变量及其分布
      • 3.2.3 连续随机变量及其分布
      • 3.2.4 随机变量的分布特征
      • 3.2.5 大数定律与中心极限定理
      • 3.2.6 参数估计与假设检验
    • 3.3 线性代数基础
      • 3.3.1 向量及其运算
      • 3.3.2 矩阵及其运算
  • 第四章 数据预处理
    • 4.1 数据获取
    • 4.2 数据清洗
      • 4.2.1 删除法
      • 4.2.2 填充法
      • 4.2.3 数据清洗实践
    • 4.3 数据转换
      • 4.3.1 One-Hot编码
      • 4.3.2 分箱法
      • 4.3.3 聚类法
      • 4.3.4 数据转换实践
    • 4.4 数据标准化
      • 4.4.1 Min-Max标准化
      • 4.4.2 Z-score标准化
      • 4.4.3 小数定标标准化
      • 4.4.4 数据标准化实践
    • 习题四
  • 第五章 探索性数据分析
    • 5.1 简介
      • 5.1.1 导论
      • 5.1.2 基本概念
    • 5.2 基本方法
      • 5.2.1 茎叶图
      • 5.2.2 概括值与数据批特征
      • 5.2.3 箱线图与数据批特征分析
    • 5.3 其他方法介绍
      • 5.3.1 重新表达(变换数据)
      • 5.3.2 耐抗性
    • 5.4 相关性分析与特征重要性
      • 5.4.1 相关性分析
      • 5.4.2 特征重要性
    • 5.5 可视化分析
      • 5.5.1 可视化分析的作用
      • 5.5.2 可视化分析方法
      • 5.5.3 可视化分析常用工具
    • 习题五
  • 第六章 数据管理、安全与技术
    • 6.1 数据管理和数据库发展史
    • 6.2 SQL与sqlite3数据库
      • 6.2.1 SQL
      • 6.2.2 SQLite3数据库
    • 6.3 NoSQL数据库
    • 6.4 数据安全
    • 6.5 大数据技术
    • 习题六
  • 第七章 数据建模
    • 7.1 概述
    • 7.2 回归模型
      • 7.2.1 回归模型介绍
      • 7.2.2 线性回归的实现
    • 7.3 分类模型
      • 7.3.1 逻辑回归及其实现
      • 7.3.2 KNN及其实现
      • 7.3.3 决策树及其实现
      • 7.3.4 支持向量机
    • 7.4 集成模型
      • 7.4.1 随机森林及其实现
      • 7.4.2 AdaBoost及其实现
    • 7.5 聚类模型
      • 7.5.1 K-means及其实现
      • 7.5.2 密度聚类及其实现
      • 7.5.3 层次聚类及其实现
    • 7.6 神经网络
      • 7.6.1 神经网络基本原理
      • 7.6.2 BP神经网络及其实现
      • 7.6.3 其他神经网络介绍
    • 习题七
  • 第八章 综合案例
    • 8.1 问题背景
    • 8.2 数据探索性分析
      • 8.2.1 结构化数据的读取与查看
      • 8.2.2 结构化数据的可视化
      • 8.2.3 描述性统计分析
      • 8.2.4 变量相关分析
    • 8.3 基于机器学习的数据建模与评估
      • 8.3.1 特征工程与特征筛选
      • 8.3.2 拆分训练集和验证集
      • 8.3.3 特征筛选
      • 8.3.4 基础模型的训练与预测
      • 8.3.5 机器学习实验流程
    • 8.4 基于XGBoost集成学习的数据建模与评估
    • 习题八
  • 参考文献

相关图书


相关数字化产品