中图网文创礼盒,买2个减5元
欢迎光临中图网 请 | 注册

大数据湖最佳实践

作者:AlexGorelik
出版社:中国电力出版社出版时间:2020-07-01
开本: 16开 页数: 240
¥33.7(5.0折)?

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

00:00:00
中 图 价:¥37.4(5.5折)定价  ¥68.0 登录后可看到会员价
加入购物车 收藏
运费6元,全场折上9折期间 满39元包邮
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

大数据湖最佳实践 版权信息

大数据湖最佳实践 本书特色

挖掘大数据和数据科学的价值。 数据湖利用大数据技术为企业提供便捷的数据自助服务能力,这是一项别具一格的创新。但这适合每一个公司吗?本书基于与100多个组织的从业者和高管的讨论,涉及的组织类型包括Google、LinkedIn和Facebook这类数据驱动型公司以及政府和传统企业。通过本书,你将了解什么是数据湖,为什么企业需要它,以及如何使用本书中的*佳实践成功地构建数据湖。 本书作者是Waterline Data的首席技术官兼创始人,他解释了为什么旧系统、旧流程无法再支持企业的数据需求。在关于数据湖实施的一系列文章中,他介绍了来自各行业数据专家的数据湖方案、分析项目、经验以及*佳实践。 “Alex是位富有远见的数据人。他把他的实践见解融入到本书,探讨了过渡到数据驱动型企业涉及的技术因素、对公司整体的影响以及由此产生的对业务的影响。”——Keyur DesaiTD Ameritrade首席数据官 “本书很好地阐述了各类数据湖的架构,包括它们提供了什么价值,带来了哪些挑战,以及如何应对这些挑战。”——Jari KoisterFICO产品和技术副总裁,加州大学伯克利分校的数据科学教授 挖掘大数据和数据科学的价值。

大数据湖最佳实践 内容简介

数据仓库、大数据、数据科学的简单介绍。
了解企业建立数据湖的各种途径。
探索如何构建自助服务模型,以及如何让分析师便捷访问数据的很好实践。
使用不同的方法来构建数据湖。
了解不同行业专家实现数据湖的方法。

大数据湖最佳实践 目录

前言 1

第1 章 数据湖概述 7

数据湖的成熟度 9

数据水洼 11

数据池 12

创建成功的数据湖 12

适合的平台 13

适合的数据 14

适合的界面 16

数据沼泽 18

成功实施数据湖的路线图 20

建立数据湖 20

规划数据湖 21

构建自助服务的数据湖 23

构建数据湖 28

云上数据湖 29

逻辑数据湖 29

小结 34

第2 章 历史背景 35

数据自助服务驱动——数据库的诞生 36

分析必要性驱动——数据仓库的诞生 39

数据仓库生态系统 40

存储和查询数据 41

加载数据——数据集成工具 47

组织和管理数据 51

消费数据 57

小结 58

第3 章 大数据和数据科学概述 59

Hadoop 引领大数据的历史性转变 60

Hadoop 文件系统 60

MapReduce 作业中计算和存储如何交互 61

Schema on Read 63

Hadoop 项目 64

数据科学 65

你的分析机构应该关注什么? 67

机器学习 71

可解释性 72

变更管理 73

小结 74

第4 章 建立数据湖 75

为什么是Hadoop 75

防止数据水洼扩散 78

利用大数据的优势 79

以数据科学为先导 80

策略1: 迁移已有功能 83

策略2: 为新项目建立数据湖 85

策略3: 建立数据治理中心 85

哪种策略*适合你? 86

小结 88

第5 章 从数据池/ 大数据仓库到数据湖 89

数据仓库的基本功能 90

用于分析的维度模型 91

整合不同源的数据 92

使用缓慢变化维保存历史记录 93

数据仓库作为历史库的局限性 93

迁移至数据池 94

数据池中保存历史数据 94

在数据池中使用缓慢变化维 96

数据池演化为数据湖——加载数据仓库中未包含的数据 98

原始数据 98

外部数据 99

IoT 与其他流式数据 102

实时数据湖 103

Lambda 架构 105

数据转换 106

目标系统 108

数据仓库 109

业务数据存储 109

实时应用和数据产品 110

小结 111

第6 章 自助服务优化 112

自助服务起源 113

业务分析师 115

发现和理解数据——企业数据归档 116

建立信任 119

数据预置 126

为分析准备数据 128

数据湖数据整理 129

用Hadoop 来准备数据 129

数据预处理的常见案例 130

分析和可视化 133

自助式商业智能的新世界 133

新的分析工作流 134

门卫向店主的角色转变 136

管理自助服务 137

小结 137

第7 章 数据湖架构 139

规划数据湖 139

原始区 141

产品区 142

工作区 144

敏感区 145

多数据湖 146

保持各数据湖独立的优势 147

合并多数据湖的优势 147

云上数据湖 148

虚拟数据湖 151

数据联邦 151

大数据虚拟化 152

消除冗余 154

小结 156

第8 章 数据湖元数据 157

组织数据 157

技术元数据 159

业务元数据 164

打标 166

自动编目 167

逻辑数据管理 169

敏感数据管理和访问控制 169

数据质量 170

连接分散的数据 172

建立血缘关系 174

数据预置 176

创建目录的工具 176

工具对比 177

数据洋 178

小结 179

第9 章 数据访问控制 180

授权与访问控制 181

基于标签的控制策略 182

数据脱敏 186

数据主权与法规 189

自助服务访问管理 191

预置数据 196

小结 204

第10 章 行业案例 205

金融服务大数据 206

消费者、数字化和数据正在改变我们所熟知的金融行业 206

拯救银行 208

新数据提供新机遇 212

使用数据湖的关键过程 215

数据湖为金融服务领域带来的价值 218

保险行业中的数据湖 220

智慧城市 222

医疗大数据 224

作者介绍 227

封面介绍 227


展开全部

大数据湖最佳实践 作者简介

Alex Gorelik是Waterline Data的首席技术官和创始人,也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理,负责管理公司的平台和数据集成技术。此外,他还曾是IBM杰出的工程师,也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。

商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服