Differences between revisions 7 and 8
Revision 7 as of 2018-06-09 06:31:23
Size: 1451
Editor: localhost
Comment:
Revision 8 as of 2018-06-09 07:06:58
Size: 1661
Editor: localhost
Comment:
Deletions are marked like this. Additions are marked like this.
Line 31: Line 31:

== SparkStreaming with SparkStructuredSreaming with Storm的关于 ==
  I. SparkStructuredSreaming仅供SparkSQL上层使用,它可以将原行细碎化的SQL操作转换为流式操作,使数据安全

Spark VS Mapreduce

Spark

  1. 基于内存的计算
  2. 高性能要求

增加了Driver新组件

  1. Client收到应用请求,首先会拉起Driver,主要是用于Spark的工作流程规划和TASK下发。

RDD算子

  1. 执行类的算子
  2. 逻辑操作类的算子

整体流程

  1. 用户向Client提交应用,Client接收
  2. Client向RM提交请求,申请应用,RM中的APPMANAGER会返回一个JOB-ID
  3. CLIENT下发应用,通过对应用到进行解析,我们可以提取并且加载DRIVER,DRIVER一般是运行在CONTAINER中的,和MR中的APPMASTER一样,当然用户亦可指定DRIVER的执行位置
  4. DRIVER启动之后,会联系APPMANAGER,下发APPMASTER程序,APPMANAGER收到请求之后,会向ResourceManager查询当前集群中节点的负载情况,选择其中负载最小值的VM,然后要求其拉起Container,并且将APPMASTER下发到其中运行。

  5. APPMASTER启动之后,无需注册,直接计划当前的应用需要消耗的资源,DRIVER会根据应用的执行情况,将应用切分为Aplication(个数为1)

DataSet

  1. 以行为单位的数据

DataSet 特点

  1. 快,大多数场景下性能优于RDD,Encoders优于Kryo或者Java序列化;避免不必要的格式转化。
  2. 类型安全:类似于RDD.

DataFrame

  1. 以列为单位的数据

SparkStreaming with SparkStructuredSreaming with Storm的关于

  1. SparkStructuredSreaming仅供SparkSQL上层使用,它可以将原行细碎化的SQL操作转换为流式操作,使数据安全

首頁/2018-06-09 (last edited 2018-06-10 08:40:58 by localhost)