本书研究大数据计算的基础方法,重点讲述静态大数据和动态大数据的计算方法,静态大数据可以采用并行的方法来提高求解速度,而动态大数据则可以采用概率近似正确计算的方法来提高响应速度。
全书着重讲述了静态大数据并行计算相关理论(详见第二章)、动态大数据与概率近似正确计算方法(详见第三章)以及大数据的样本复杂性理论和样本价值(详见第四章),针对动态数据和静态数据的差异,各部分均进行了细致讨论。为了便于阅读和学习,提供了预备基础知识(详见第一章),并对常用的数据集和数据计算平台进行了介绍(详见第五章)。
本书框架清晰,内容翔实,对于一些经典问题给出了详细的证明,可作为高等学校计算机、计算数学以及相关专业的本科高年级学生和研究生的教学用书,亦可供从事高性能计算相关工作的科技人员阅读参考。
- 前辅文
- 第一章 大数据计算基本数学知识
- 1.1 概率统计基础
- 1.1.1 有关数据的统计学
- 1.1.2 多元分析基础
- 1.1.3 数据的概率统计分布
- 1.2 抽样方法
- 1.2.1 依分布采样
- 1.2.2 重要性采样
- 1.2.3 重要性重采样
- 1.2.4 吉布斯采样
- 1.2.5 辛普森采样
- 1.3 大数据计算重要定理
- 1.3.1 四个重要不等式
- 1.3.2 贝叶斯定理
- 1.3.3 大数定律和中心极限定理
- 1.4 统计模拟方法
- 1.4.1 蒙特卡洛方法
- 1.4.2 主成分分析
- 1.4.3 拟合方法基础
- 参考文献
- 第二章 静态大数据计算
- 2.1 并行计算与BSP模型
- 2.1.1 并行计算的基本知识
- 2.1.2 静态大数据与并行计算
- 2.1.3 BSP计算模型
- 2.2 计算资源均衡与亚线性算法
- 2.2.1 并行算法的复杂性度量
- 2.2.2 并行算法的资源均衡
- 2.2.3 亚线性算法
- 2.3 大数据的双亚线性并行计算
- 2.3.1 双亚线性并行理论
- 2.3.2 双亚线性并行算法设计方法
- 2.3.3 双亚线性并行计算的应用
- 参考文献
- 第三章 动态大数据计算与概率近似正确方法
- 3.1 动态大数据的基本特征和复杂性
- 3.2 约简计算和概率近似正确计算
- 3.2.1 约简计算
- 3.2.2 概率近似正确计算
- 3.2.3 概率近似正确计算的数据规模与VC维数
- 3.3 数值计算中的PAC方法
- 3.3.1 偏微分方程求解
- 3.3.2 样本插值和曲线拟合
- 3.3.3 多项式逼近
- 3.3.4 线性方程组
- 3.3.5 积分方程
- 3.4 非数值计算中的PAC方法
- 参考文献
- 第四章 样本复杂度与交互式计算
- 4.1 样本复杂度
- 4.1.1 样本复杂度的定义与基本性质
- 4.1.2 样本计算在似然估计中的应用
- 4.1.3 似然估计算法的局限——费希尔信息量
- 4.2 样本信息与条件信息
- 4.2.1 数据的信息熵与样本复杂度
- 4.2.2 数据的信息熵与价值密度
- 4.3 关于数据边际价值递减原理
- 4.4 交互式计算
- 4.5 蒙特卡洛树搜索
- 参考文献
- 第五章 大数据计算平台
- 5.1 主流大数据计算框架
- 5.1.1 Hadoop
- 5.1.2 Spark
- 5.1.3 Storm
- 5.2 常用大数据集
- 5.2.1 通用数据集
- 5.2.2 经济及统计数据集
- 5.2.3 基因数据集
- 5.3 典型大数据硬件平台
- 5.3.1 飞天大数据平台
- 5.3.2 FusionInsight智能数据湖
- 5.3.3 云海Insight HD
- 5.3.4 XData大数据一体机
- 5.4 国产大数据一体机及应用
- 5.4.1 国产大数据一体机平台
- 5.4.2 基因压缩在大数据平台的典型应用
- 5.4.3 天文大数据
- 参考文献