图书信息
图书目录

数据挖掘方法与模型




当下,由于强大的数据挖掘软件平台很容易获得,草率地使用数据挖掘方法和技术将导致挖掘的结果混淆难解。这种失误往往源自盲目使用“黑盒子”方法进行数据挖掘,而最好的避免途径就是使用“自盒子”方法,理解隐藏在软件背后的算法和统计模型结构。

本书分为7章,第l章是对降维方法的介绍,这是数据挖掘技术的一个先决条件;第2章至第6章为经典的数据挖掘算法和技术,包括一元回归模型、多元回归模 型、逻辑回归模型、贝叶斯网络分析以及遗传算法,通过实际案例引导读者由已预处理的数据使用不同的挖掘技术从而得出所需结论;第7章为基于数据挖掘过程模 型上的多个案例研究,通过多个领域的案例来阐述算法和技术是如何被运用的。

本书可作为数据挖掘课程教学用书,适用于高年级本科生和研究生的教学,也可供科研人员参考使用。



作者:
刘燕权等

定价:
49.00元

出版时间:
2011-03-15

ISBN:
978-7-04-030968-3

物料号:
30968-00

读者对象:
高等教育

一级分类:
计算机/教育技术类

二级分类:
计算机类专业核心课程

三级分类:
数据库系统原理

重点项目:
暂无

版面字数:
380.000千字

开本:
16开

全书页数:
287页

装帧形式:
平装
  • 前辅文
  • 第1章 降维方法
    • 1.1 数据挖掘中降低维度的必要性
    • 1.2 主成分分析法
      • 1.2.1 主成分分析应用于房屋数据集
      • 1.2.2 应提取多少个主成分
    • 1.3 因子分析法
      • 1.3.1 因子分析法在成年人数据集中的应用
      • 1.3.2 因子旋转
    • 1.4 用户自定义合成
    • 总结
    • 参考文献
    • 练习题
  • 第2章 回归模型
    • 2.1 简单线性回归实例
    • 2.2 最小二乘法估计
    • 2.3 决定系数
    • 2.4 估计值的标准误差
    • 2.5 相关系数
    • 2.6 方差分析表
    • 2.7 异常点、高杠杆点和强影响观测值
    • 2.8 回归模型
    • 2.9 回归推断
      • 2.9.1 x和y之间线性关系的t检验
      • 2.9.2 回归直线斜率的置信区间
      • 2.9.3 给定x条件下,y均值的置信区间
      • 2.9.4 给定x条件下,y随机选择值的预测区间
    • 2.10 回归假设检验
    • 2.11 实例:棒球数据集
    • 2.12 实例:加利福尼亚州数据集
    • 2.13 线性变换实现
    • 总结
    • 参考文献
    • 练习题
  • 第3章 多元回归和建模
    • 3.1 多元回归实例
    • 3.2 多元回归模型多元回归模型
    • 3.3 多元回归推断多元回归推断
      • 3.3.1 y和xi之间关系的t检验
      • 3.3.2 营养级别和糖之间关系的t检验
      • 3.3.3 营养级别和纤维之间关系的t检验
      • 3.3.4 整体回归模型的显著性水平检验:F检验
      • 3.3.5 营养级别(糖和纤维)的综合因素的F检验
      • 3.3.6 特定回归系数的置信区间特定回归系数的置信区间
      • 3.3.7 给定x1,x2,…,xm下,y均值的置信区间
      • 3.3.8 给定x1,x2,…,xm下,y随机选择值的预测区间
    • 3.4 含有分类预测变量的回归含有分类预测变量的回归
      • 3.4.1 调整R2:对包含无用预测变量的惩罚模式
      • 3.4.2 序贯的误差平方和序贯的误差平方和
    • 3.5 多重共线性多重共线性
    • 3.6 变量选择方法
      • 3.6.1 偏F检验偏F检验
      • 3.6.2 向前选择程序前向选择程序
      • 3.6.3 向后排除程序向后排除程序
      • 3.6.4 逐步选择程序逐步选择程序
      • 3.6.5 最优子集程序最优子集程序
      • 3.6.6 所有可能的子集选择程序
    • 3.7 变量选择方法的应用
      • 3.7.1 向前选择程序应用于谷物数据集应用于谷物数据集
      • 3.7.2 向后排除程序应用于谷物数据集
      • 3.7.3 逐步选择程序应用于谷物数据集
      • 3.7.4 最优子集程序应用于谷物数据集
    • 3.8 Mallows’Cp统计量
    • 3.9 变量选择标准变量选择标准
    • 3.10 用主成分作为预测变量用主成分作为预测变量
    • 总结
    • 参考文献
    • 练习题
  • 第4章 逻辑回归
    • 4.1 逻辑回归的简单实例
    • 4.2 最大似然估计
    • 4.3 解读逻辑回归模型的输出
    • 4.4 推论:预测变量都显著吗
    • 4.5 解读逻辑回归模型
      • 4.5.1 解读一个两分预测变量的模型
      • 4.5.2 解读一个多分预测变量的模型
      • 4.5.3 解读一个连续预测变量的模型
    • 4.6 线性假设
    • 4.7 空值问题
    • 4.8 多元逻辑回归
    • 4.9 引入高阶项处理非线性问题
    • 4.10 验证逻辑回归模型
    • 4.11 WEKA:运用逻辑回归进行实际应用分析
    • 总结
    • 参考文献
    • 练习题
  • 第5章 朴素贝叶斯估计和贝叶斯网络
    • 5.1 贝叶斯方法
    • 5.2 最大后验概率分类
      • 5.2.1 后验让步比
      • 5.2.2 平衡数据
    • 5.3 朴素贝叶斯分类
    • 5.4 WEKA:运用朴素贝叶斯进行实际应用分析
    • 5.5 贝叶斯信念网络
      • 5.5.1 购买服装实例
      • 5.5.2 使用贝叶斯网络寻找概率
    • 5.6 WEKA:运用贝叶斯网络分类器进行实际应用分析
    • 总结
    • 参考文献
    • 练习题
  • 第6章 遗传算法
    • 6.1 遗传算法简介
    • 6.2 遗传算法的基本框架
    • 6.3 遗传算法运用简单实例
      • 6.3.1 第一次循环
      • 6.3.2 第二次循环
    • 6.4 修改和改进:选择
    • 6.5 修改和改进:交叉
    • 6.6 实值变量的遗传算法
    • 6.7 使用遗传算法训练神经网络
    • 6.8 WEKA:使用遗传算法进行实际操作分析
    • 总结
    • 参考文献
    • 练习题
  • 第7章 案例研究:直邮营销的回应建模问题
    • 7.1 跨行业的数据挖掘标准流程
    • 7.2 业务理解阶段
      • 7.2.1 直邮营销回应问题
      • 7.2.2 建立成本/收益表
    • 7.3 数据理解和数据准备阶段
      • 7.3.1 服装店数据集
      • 7.3.2 变换以实现数据的正态性或对称性
      • 7.3.3 标准化和标志变量
      • 7.3.4 衍生新的变量
      • 7.3.5 探索预测变量和回应变量之间的关系
      • 7.3.6 对预测变量之间关联结构的考察
    • 7.4 建模和评估阶段
      • 7.4.1 主成分分析
      • 7.4.2 聚类分析:BIRCH聚类算法
      • 7.4.3 平衡训练数据集
      • 7.4.4 建立基线模型性能
      • 7.4.5 模型集A:使用主成分
      • 7.4.6 失衡作为错误分类成本的替代
      • 7.4.7 组合模型:投票
      • 7.4.8 模型集B:非主成分分析模型
      • 7.4.9 利用均值回应概率组合模型