中图网文创礼盒,买2个减5元
欢迎光临中图网 请 | 注册
> >>
Spark核心源码分析与开发实战

Spark核心源码分析与开发实战

出版社:机械工业出版社出版时间:2016-03-05
开本: 16开 页数: 432
中 图 价:¥54.0(7.2折) 定价  ¥75.0 登录后可看到会员价
加入购物车 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

Spark核心源码分析与开发实战 版权信息

Spark核心源码分析与开发实战 本书特色

本书是一本全面介绍spark以及spark生态系统相关技术的书籍。主要内容包括spark系统概述、spark安装和集群的部署、rdd的编程实践、spark的运行模式、spark的运行机制以及spark的四大子框架(spark sql、spark streaming、spark graphx、mllib)的详细讲解。本书通过理论和实践相结合的方式对spark的核心框架和生态圈做了详细的解读,不仅对spark的原理进行详细阐述,还结合spark的源码和案例操作展示了spark框架的所具有的优雅和丰富的表现力。本书适合大数据从业者、spark技术爱好者阅读。相信通过学习本书,读者能够熟悉和掌握spark这一当前流行的大数据计算框架,并将其投入到实践中去。

Spark核心源码分析与开发实战 内容简介

大数据培训名师、spark大数据畅销书《大数据spark企业级实战》作者王家林新作。内容全面覆盖spark技术及其生态系统,通过源码分析详解spark四大子框架。秉承“实战”类图书特点,解析大量代码的编写操作,具有较强的可操作性,便于读者学习和理解。 

Spark核心源码分析与开发实战 目录

第1章spark系统概述11spark是什么12spark生态系统bdas121spark core122spark sql123spark streaming124spark graphx125mllib126tachyon127blinkdb思考题第2章spark安装和集群部署21搭建hadoop分布式集群211安装vmware虚拟机212安装ubuntu的镜像文件213安装jdk214搭建另外两台ubuntu系统并配置ssh免密码登录215安装hadoop和搭建hadoop分布式集群22spark安装和集群部署221安装scala222安装spark和集群部署23测试spark集群231通过spark提供的示例localpi测试spark集群232通过spark shell测试spark集群思考题第3章spark rdd与spark api编程实践31rdd介绍311rdd是spark的核心抽象312rdd的特征32rdd的操作分类321输入操作322转换操作323行动操作324控制操作33spark shell下的spark api编程实践331local模式下实践map、filter和collect方法332集群模式下实践textfile、sortbykey和 saveastextfile方法333集群模式下实践union、join、reduce和lookup方法334搜狗日志数据分析实践34基于intellij idea使用spark api开发应用程序341搭建和设置intellij idea开发环境342在intellij idea下开发并部署spark应用程序343使用sbt编译spark应用程序344使用maven构建spark应用程序345spark工具思考题第4章spark的运行模式41spark的运行模式概览411spark的基本工作流程412spark应用程序部署42local模式421local模式实例部署及运行演示422local模式内部实现原理43standalone模式431standalone模式实例部署及运行演示432standalone模式内部实现原理44yarn-cluster模式441yarn-cluster模式实例部署及运行演示442yarn-cluster模式内部实现原理45yarn-client模式451yarn-client模式实例部署及运行演示452yarn-client模式内部实现原理46mesos模式461mesos模式实例部署及运行演示462mesos模式内部实现原理思考题第5章spark的运行机制51spark集群的架构52spark的作业和任务调度521spark application提交522作业(job)提交523dagscheduler划分stage并提交524taskscheduler提交task525executor运行task并返回结果526driver的处理53容错机制531lineage机制532checkpoint机制54storage存储模块541storage模块整体架构542缓存实现原理543缓存策略55spark的消息传递机制akka551akka架构解析552akka驱动下的start-allsh源码解析56shuffle机制561shuffle的原理 562shuffle的写操作563shuffle的读操作57共享变量571广播变量572累加器58spark性能调优581数据序列化582内存优化583其他优化方法思考题第6章spark sql61spark sql原理和实现611spark sql简介612spark sql运行架构613hive在spark上的使用614源码解析sql语句和hiveql语句的执行过程62spark sql的操作实例621文本文件操作以及dsl操作622parquet文件以及json文件操作623hive数据操作演示(订单交易数据操作)624spark sql处理交通数据实战思考题第7章spark streaming71spark streaming运行原理711spark streaming简介712编程模型dstream713容错和持久化714性能调优715监控应用72源码解析spark streaming的运行过程721streamingcontext初始化并启动722数据接收723数据处理73spark streaming操作实例演示731文本数据操作实例演示732网络数据操作实例——销售模拟器演示733有状态(stateful)操作实例演示734window操作实例演示735sparkstreaming处理多源数据实战思考题第8章spark graphx81图的定义和应用811图的定义812图的应用82spark graphx简介821弹性分布式属性图822spark graphx图的切分和存储策略823spark graphx图的操作83spark graphx架构831pregel图计算框架832spark graphx的实现833spark graphx图算法的实现方法84spark graphx图操作实例841基于spark graphx的属性图的操作实例842spark graphx图算法操作实例思考题第9章mllib91机器学习简介911机器学习的定义912机器学习的分类913机器学习的常用算法92mllib的简介921什么是mllib922mllib的架构923mllib的数据类型924mllib的算法93mllib常用算法操作实践931k-means算法解析和实践932协同过滤算法分析和案例实践思考题
展开全部
商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服