Spark VS Mapreduce

Spark

  1. 基于内存的计算
  2. 高性能要求

增加了Driver新组件

  1. Client收到应用请求,首先会拉起Driver,主要是用于Spark的工作流程规划和TASK下发。

RDD算子

  1. 执行类的算子
  2. 逻辑操作类的算子

整体流程

  1. 用户向Client提交应用,Client接收
  2. Client向RM提交请求,申请应用,RM中的APPMANAGER会返回一个JOB-ID
  3. CLIENT下发应用,通过对应用到进行解析,我们可以提取并且加载DRIVER,DRIVER一般是运行在CONTAINER中的,和MR中的APPMASTER一样,当然用户亦可指定DRIVER的执行位置
  4. DRIVER启动之后,会联系APPMANAGER,下发APPMASTER程序,APP