精通Hadoop 版权信息
- ISBN:9787115411051
- 条形码:9787115411051 ; 978-7-115-41105-1
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>>
精通Hadoop 本书特色
本书是一本循序渐进的指导手册,重点介绍了hadoop的高级概念和特性。内容涵盖了hadoop 2.x版的改进,mapreduce、pig和hive等的优化及其高级特性,hadoop 2.0的专属特性(如yarn和hdfs联合),以及如何使用hadoop
2.0版本扩展hadoop的能力。
如果你想拓展自己的hadoop知识和技能,想应对具有挑战性的数据处理问题,想让hadoop作业、pig脚本和hive查询运行得更快,或者想了解升级hadoop的好处,那么本书便是你的不二选择。
通过阅读本书,你将能够:
理解从hadoop 1.0到hadoop 2.0的变化
定制和优化hadoop 2.0中的mapreduce作业
探究hadoop i/o和不同的数据格式
深入学习yarn和storm,并通过yarn集成hadoop和storm
基于亚马逊elastic
mapreduce部署hadoop
探究hdfs替代品,学习hdfs联合
掌握hadoop安全方面的主要内容
使用mahout和rhadoop进行hadoop数据分析
精通Hadoop 内容简介
hadoop是大数据处理的同义词。hadoop的编程模型简单,“一次编码,任意部署”,且生态圈日益完善,已成为一个可供不同技能水平的程序员共同使用的全方位平台。今天,面临着处理和分析大数据的任务,hadoop成了理所当然的工具。hadoop 2.0扩展了羽翼,能覆盖各种类型的应用模式,并解决更大范围的问题。
精通Hadoop 目录
第1章 hadoop 2.x 11.1 hadoop的起源 11.2 hadoop的演进 21.3 hadoop 2.x 61.3.1 yet another resource negotiator(yarn) 71.3.2 存储层的增强 81.3.3 支持增强 111.4 hadoop的发行版 111.4.1 选哪个hadoop发行版 121.4.2 可用的发行版 141.5 小结 16第2章 mapreduce进阶 172.1 mapreduce输入 182.1.1 inputformat类 182.1.2 inputsplit类 182.1.3 recordreader类 192.1.4 hadoop的“小文件”问题 202.1.5 输入过滤 242.2 map任务 272.2.1 dfs.blocksize属性 282.2.2 中间输出结果的排序与溢出 282.2.3 本地reducer和combiner 312.2.4 获取中间输出结果——map 侧 312.3 reduce任务 322.3.1 获取中间输出结果——reduce侧 322.3.2 中间输出结果的合并与溢出 332.4 mapreduce的输出 342.5 mapreduce作业的计数器 342.6 数据连接的处理 362.6.1 reduce侧的连接 362.6.2 map侧的连接 422.7 小结 45第3章 pig进阶 473.1 pig对比sql 483.2 不同的执行模式 483.3 pig的复合数据类型 493.4 编译pig脚本 503.4.1 逻辑计划 503.4.2 物理计划 513.4.3 mapreduce计划 523.5 开发和调试助手 523.5.1 describe命令 523.5.2 explain命令 533.5.3 illustrate命令 533.6 pig 操作符的高级特性 543.6.1 foreach操作符进阶 543.6.2 pig的特殊连接 583.7 用户定义函数 613.7.1 运算函数 613.7.2 加载函数 663.7.3 存储函数 683.8 pig的性能优化 693.8.1 优化规则 693.8.2 pig脚本性能的测量 713.8.3 pig的combiner 723.8.4 bag数据类型的内存 723.8.5 pig的reducer数量 723.8.6 pig的multiquery模式 733.9 *佳实践 733.9.1 明确地使用类型 743.9.2 更早更频繁地使用投影 743.9.3 更早更频繁地使用过滤 743.9.4 使用limit操作符 743.9.5 使用distinct操作符 743.9.6 减少操作 743.9.7 使用algebraic udf 753.9.8 使用accumulator udf 753.9.9 剔除数据中的空记录 753.9.10 使用特殊连接 753.9.11 压缩中间结果 753.9.12 合并小文件 763.10 小结 76第4章 hive进阶 774.1 hive架构 774.1.1 hive元存储 784.1.2 hive编译器 784.1.3 hive执行引擎 784.1.4 hive的支持组件 794.2 数据类型 794.3 文件格式 804.3.1 压缩文件 804.3.2 orc文件 814.3.3 parquet文件 814.4 数据模型 824.4.1 动态分区 844.4.2 hive表索引 854.5 hive查询优化器 874.6 dml进阶 884.6.1 group by操作 884.6.2 order by与sort by 884.6.3 join类型 884.6.4 高级聚合 894.6.5 其他高级语句 904.7 udf、udaf和udtf 904.8 小结 93第5章 序列化和hadoop i/o 955.1 hadoop数据序列化 955.1.1 writable与writablecomparable 965.1.2 hadoop与java序列化的区别 985.2 avro序列化 1005.2.1 avro与mapreduce 1025.2.2 avro与pig 1055.2.3 avro与hive 1065.2.4 比较avro与protocol buffers/thrift 1075.3 文件格式 1085.3.1 sequence文件格式 1085.3.2 mapfile格式 1115.3.3 其他数据结构 1135.4 压缩 1135.4.1 分片与压缩 1145.4.2 压缩范围 1155.5 小结 115第6章 yarn——其他应用模式进入hadoop的引路人 1166.1 yarn的架构 1176.1.1 资源管理器 1176.1.2 application master 1186.1.3 节点管理器 1196.1.4 yarn客户端 1206.2 开发yarn的应用程序 1206.2.1 实现yarn客户端 1206.2.2 实现am实例 1256.3 yarn的监控 1296.4 yarn中的作业调度 1346.4.1 容量调度器 1346.4.2 公平调度器 1376.5 yarn命令行 1396.5.1 用户命令 1406.5.2 管理员命令 1406.6 小结 141第7章 基于yarn的storm——hadoop中的低延时处理 1427.1 批处理对比流式处理 1427.2 apache storm 1447.2.1 apache storm的集群架构 1447.2.2 apache storm的计算和数据模型 1457.2.3 apache storm用例 1467.2.4 apache storm的开发 1477.2.5 apache storm 0.9.1 1537.3 基于yarn的storm 1547.3.1 在yarn上安装apache storm 1547.3.2 安装过程 1547.4 小结 161第8章 云上的hadoop 1628.1 云计算的特点 1628.2 云上的hadoop 1638.3 亚马逊elastic mapreduce 1648.4 小结 175第9章 hdfs替代品 1769.1 hdfs的优缺点 1769.2 亚马逊aws s3 1779.3 在hadoop中实现文件系统 1799.4 在hadoop中实现s3原生文件系统 1799.5 小结 189第10章 hdfs联合 19010.1 旧版hdfs架构的限制 19010.2 hdfs联合的架构 19210.2.1 hdfs联合的好处 19310.2.2 部署联合namenode 19310.3 hdfs高可用性 19510.3.1 从namenode、检查节点和备份节点 19510.3.2 高可用性——共享edits 19610.3.3 hdfs实用工具 19710.3.4 三层与四层网络拓扑 19710.4 hdfs块放置策略 19810.5 小结 200第11章 hadoop安全 20111.1 安全的核心 20111.2 hadoop中的认证 20211.2.1 kerberos认证 20211.2.2 kerberos的架构和工作流 20311.2.3 kerberos认证和hadoop 20411.2.4 http接口的认证 20411.3 hadoop中的授权 20511.3.1 hdfs的授权 20511.3.2 限制hdfs的使用量 20811.3.3 hadoop中的服务级授权 20911.4 hadoop中的数据保密性 21111.5 hadoop中的日志审计 21611.6 小结 217第12章 使用hadoop进行数据分析 21812.1 数据分析工作流 21812.2 机器学习 22012.3 apache mahout 22212.4 使用hadoop和mahout进行文档分析 22312.4.1 词频 22312.4.2 文频 22412.4.3 词频-逆向文频 22412.4.4 pig中的tf-idf 22512.4.5 余弦相似度距离度量 22812.4.6 使用k-means 的聚类 22812.4.7 使用apache mahout进行k-means聚类 22912.5 rhadoop 23312.6 小结 233附录 微软windows中的hadoop 235
展开全部
精通Hadoop 作者简介
Sandeep Karanth
Scibler公司联合创始人,负责数据智能产品的架构;DataPhi Labs公司联合创始人兼首席架构师,专注于构建和实施软件系统。他拥有14年以上的软件行业从业经验,既设计过企业数据应用,也开发过新一代移动应用。他曾就职于微软总部和微软印度研究院。他的Twitter账号是@karanths,GitHub账号是https://github.com/Karanth。