首页 技术 正文
技术 2022年11月6日
0 收藏 747 点赞 356 浏览 771 个字

Spark比MR快的原因

1、Spark基于内存的计算

2、粗粒度资源调度

3、DAG有向无环图:可以根据宽窄依赖划分出可以并行计算的task

细粒度资源调度

MR是属于细粒度资源调度

优点:每个task运行的时候单独申请资源,资源被充分利用

缺点:task启动速度慢

粗粒度资源调度

Spark是属于粗粒度资源调度

优点:一次性将所有需要的资源都申请下来,task后续启动就不需要额外申请资源,启动速度非常快

缺点:会造成资源的浪费,因为只有当最后一个task运行完以后资源才会被释放

资源申请

1、使用spark-sumbit提交任务

2、在提交任务的节点启动Driver程序:Drive主要负责任务调度

3、Driver程序会向RM申请资源启动AM

4、RM会随机分配一台NM启动AM

5、AM又会向RM申请资源启动一批Executor

6、RM会分配资源在NM中启动Executor

7、Executor启动后会反向注册给Drive端

资源调度

1、当遇到一个action算子的时候,开始触发一个job进行任务调度

2、根据代码,构建DAG有向无环图

3、DAGScheduler会根据宽窄依赖切分Stage:Stage:是一组可以并行计算的Task

4、会将每个Stage以TaskSet的形式发送个TaskScheduler

5、TaskScheduler会将Task依次发送到Executor中执行

Task的重试机制

1、Task如果失败了,会由TaskScheduler重试3次

2、如果还是失败了,会由DAGScheduler将Stage重试4次

3、如果出现Shuffle file not found,DAGScheduler会去将上游的Stage进行重试

推测执行

当某个task执行太慢的时候,TaskSchedule会发送一个一模一样的task去执行,最终结果谁先执行完就以谁为准

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:8,955
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,479
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,291
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,108
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,740
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,774