当前位置:网站首页>推荐书籍 > 正文 >>

SPARK大数据开发与应用案例(视频教学版)

图书信息

作者:段海涛,杨忠良,余辉著著

出版社:清华大学出版社

定价:109.00

ISBN:9787302703280

出版时间:2025-10-01

分类:图书,行业职业,计算机,编程语言

商品介绍

目录

第1章 Spark简介1

1.1 Spark概念及其特点1

1.2 Spark技术生态系统2

1.3 Spark运行模式4

1.4 Spark执行流程8

1.5 Spark专有名词9

1.6 本章小结11

第2章 Spark集群环境部署12

2.1 VM虚拟机安

2.2 Ubuntu 22.04系统安装19

2.3 Ubuntu 22.04网络配置24

2.4 Ubuntu 22.04环境配置28

2.5 ZooKeeper安装33

2.6 Hadoop安装35

2.6.1 下载并解压35

2.6.2 配置系统环境变量35

2.6.3 配置核心文件36

2.6.4 分发Hadoop40

2.6.5 启动和验证40

2.7 Spark安装47

2.7.1 下载和解压47

2.7.2 配置系统环境变量47

2.7.3 配置核心文件47

2.7.4 分发Spark48

2.7.5 Spark启动及UI界面查看48

2.7.6 spark-shell启动验证49

2.8 集群和代码下载50

2.9 本章小结52

第3章 Spark编程体验54

3.1 Scala基础编程54

3.1.1 基本语法55

3.1.2 函数和方法57

3.1.3 控制语句59

3.1.4 函数式编程62

3.1.5 类和对象67

3.1.6 Scala异常处理70

3.1.7 Trait(特征)72

3.1.8 Scala文件I/O73

3.1.9 Scala练习题74

3.2 Spark创建项目80

3.3 Spark程序编写与运行方法90

3.4 本章小结92

第4章 RDD深度解读93

4.1 RDD的概念及特点93

4.1.1 RDD的特点94

4.1.2 RDD的算子分类95

4.1.3 RDD创建方法95

4.2 RDD的血缘和依赖97

4.2.1 血缘与依赖的概念98

4.2.2 Dependency依赖关系98

4.3 RDD的Transformation算子103

4.4 RDD的Action算子122

4.5 RDD的特殊算子129

4.5.1 cache和persist129

4.5.2 checkpoint131

4.6 RDD转换算子的惰性133

4.6.1 Scala迭代器Iterator接口133

4.6.2 Scala迭代器Lazy特性及原理134

4.7 模拟Spark自定义RDD135

4.8 Spark任务执行原理图解分析138

4.8.1 WordCount程序元素分解138

4.8.2 WordCount程序图解139

4.8.3 Stage和Task的类型142

4.9 案例:多种算子实现WordCount143

4.9.1 map + reduceByKey144

4.9.2 countByValue145

4.9.3 aggregateByKey或foldByKey146

4.9.4 groupByKey+map147

4.9.5 Scala原生实现wordCount148

4.9.6 combineByKey149

4.10 本章小结150

第5章 RDD的Shuffle详解151

5.1 Shuffle的概念及历史151

5.1.1 Shuffle的概念151

5.1.2 Shuffle演进的历史152

5.2 Shuffle的验证及复用性153

5.2.1 案例:reduceByKey一定会Shuffle吗153

5.2.2 案例:join操作一定会触发Shuffle吗155

5.2.3 Shuffle数据的复用实验156

5.3 HashShuffleManager160

5.3.1 HashShuffleManager优化前160

5.3.2 HashShuffleManager优化后161

5.4 SortShuffleManager162

5.4.1 普通运行机制163

5.4.2 Bypass运行机制164

5.5 本章小结164

第6章 Spark共享变量166

6.1 广播变量166

6.1.1 广播变量的使用场景166

……

内容简介

本书在培训机构的教学实践中历经8年锤炼而成,以简明清晰且易于理解的方式,全面覆盖Spark集群构建、Spark Core、Spark SQL、Spark实战案例以及面试问答等内容。为增强读者的学习体验,本书配套丰富的电子资源,包括示例源码、PPT教学课件、集群环境、教学视频以及作者微信群答疑服务。

本书精心编排为15章,内容包括Spark简介、Spark集群环境部署、Spark编程体验、RDD深度解读、RDD的Shuffle详解、Spark共享变量、Spark序列化和线程安全、Spark内存管理机制、Spark SQL简介、Spark SQL抽象编程详解、Spark SQL自定义函数、Spark SQL源码解读、Spark性能调优、Spark实战案例、Spark面试题。

本书不仅适合Spark初学者快速入门,也有助于大数据分析人员及大数据应用开发人员进一步提升技能。同时,本书也可以作为高等院校或高职高专院校Spark大数据技术课程的教材。

作者简介

"段海涛,毕业于南京邮电大学,高级工程师。曾就职于中国移动、中国石油、亚信科技等。从事大数据行业10余年,海易牛科技(大数据平台开发技术服务)和北京多易教育(大数据技术培训)创始人。为中国移动、用友软件、四方精创及多个城市的数据局等企业和单位提供过解决方案和技术咨询服务;为数千有志进入大数据开发行业的大学生提供了就业培训服务。在多个互联网平台公开Hadoop、Spark、Flink等大量培训视频,广受欢迎和好评。 杨忠良,毕业于清华大学电子工程系,博士,北京邮电大学副研究员、博士生导师。长期从事人工智能、大数据分析等领域的研究。在国内外重要期刊和会议发表学术论文80余篇,多篇文章收录ESI高被引论文。主持或参与多项国家自然科学基金、国家重点研发计划项目等,参与编撰教材1部。获得 2024年中国通信学会科学技术二等奖,2021 年 ACM SIGWEB CHINA 新星奖。 余辉,毕业于中科院,硕士,中级工程师,大数据平台架构师。曾就职于京东金融、酷开网络。从事大数据行业10余年,专注于大数据及机器学习领域。发表大数据相关论文3篇,发表软著10多个,授权专利30多个。著有《Hadoop+Spark生态系统与实战指南》。"

推荐书籍