本书是“大数据科学”丛书的首册,编译自Yang W Lee、Leo L Pipino、James D Funk和Richard Y Wang合作编著的《Journey to Data Quality》,四位作者都是国际数据质量研究的先驱,该书堪称数据质量领域的经典之作。
本书从数据质量的概念入手,结合案例和分析工具,深入浅出地总结了美国学术界和产业界十余年的成果和经验,具有很强的指导性和实用性。全书共12章,内容包括对数据质量概念的翔实介绍,对数据质量项目案例的深入部析,以及信息产品地图等数据质量分析工具的应用指南。无论是对初窥门径的学生,还是对有多年工作经验的实践者,本书都有极高的参考价值。
“大数据科学”丛书涉及大数据理论、技术、产业和管理的方方面面,旨在帮助国内的学者,特别是产业界了解界大数据研究和应用的前沿,也可以作为教学之用。
- 前辅文
- 第1章 引言
- 1.1 信息可以被共享吗
- 1.2 新系统不是解决办法
- 1.3 开启数据质量之旅
- 1.4 成功开始的故事
- 1.5 CEO领导的旅程
- 1.6 数据质量之旅面临的挑战
- 1.7 数据质量为什么重要
- 1.8 本书概览
- 第2章 成本-效益分析
- 2.1 挑战性
- 2.2 成本-收益的权衡
- 2.3 一个案例
- 2.4 高级成本-效益分析技术
- 2.5 本章小结
- 第3章 数据质量评估(一)
- 3.1 评估技术和相关方法
- 3.2 实际中的评价方法
- 3.3 差距分析技术
- 3.4 数据完整性评价
- 3.5 本章小结
- 附录 数据质量评价调查(IQA)问卷
- 第4章 数据质量评估(二)
- 4.1 科德完整性约束
- 4.2 数据质量指标
- 4.3 自动化的测量方法
- 4.4 嵌入过程的数据整体性方法
- 4.5 本章小结
- 第5章 保证信息质量的抽样方法
- 5.1 基本概念
- 5.2 选择抽样过程
- 5.3 确定样本量
- 5.4 交易数据库的抽样
- 5.5 环境扩展:分布式数据库和数据仓库
- 5.6 本章小结
- 第6章 数据质量问题及其模式剖析
- 6.1 数据质量问题的十大根源
- 6.2 数据质量问题的表现
- 6.3 数据质量问题的转换
- 6.4 本章小结
- 第7章 识别数据质量问题的根本原因——一个医疗保健组织案例
- 7.1 案例:好感觉健康系统公司(Feelwell Health
- Systems)
- 7.2 识别问题
- 7.3 组建跨部门的团队
- 7.4 采用一种框架:建立并测试假设
- 7.5 关键信息
- 7.6 找出数据质量问题的诱因
- 7.7 本章小结
- 第8章 信息的产品化管理
- 8.1 信息产品
- 8.2 四个案例
- 8.3 四个原则
- 8.4 把信息当成副产品来管理是无效的
- 8.5 本章小结
- 第9章 开发信息产品地图
- 9.1 信息产品地图的概念、定义和符号
- 9.2 绘制信息产品地图的步骤
- 9.3 建立信息产品地图的一个案例
- 9.4 本章小结
- 附录 基于IPMAP的图形化编辑软件
- 第10章 数据质量实践——一家大型教学医院的案例
- 10.1 LTH健康系统案例研究
- 10.2 提交数据质量改进项目
- 10.3 信息产品地图
- 10.4 改进方案:当前的处理过程和未来计划
- 10.5 本章小结
- 第11章 数据质量政策
- 11.1 十大政策指引
- 11.2 本章小结
- 附录1 数据质量岗位介绍
- 附录2 来自全球制造公司的数据架构政策示例
- 附录3 数据质量实践与产品评估工具
- 第12章 旅途结束了吗
- 12.1 要点回顾
- 12.2 面临的挑战和威胁
- 12.3 对数据质量特征的规范定义
- 12.4 公司家族化
- 12.5 数据挖掘
- 12.6 数据集成
- 12.7 安全性
- 12.8 有线和无线的世界
- 12.9 后记
- 附录 一种基于期望失验理论的信息质量评估指标体系
- F.1 引言
- F.2 文献回顾
- F.3 信息质量的概念
- F.4 信息质量的指标体系
- F.5 讨论
- 参考文献