Spark Graph X Spark Streaming Spark API RDDResilient

  • Slides: 27
Download presentation

 • Spark • Graph. X(重点) • Spark. Streaming

• Spark • Graph. X(重点) • Spark. Streaming

Spark API • 粗粒度——RDD(Resilient Distributed Datasets )上的操作 • 支持三种语言: – Scala(主要的) – Python –

Spark API • 粗粒度——RDD(Resilient Distributed Datasets )上的操作 • 支持三种语言: – Scala(主要的) – Python – Java

Spark编程接口(举例说明) Transformations Action map(func) filter(func) union(other. Dataset) reduce. By. Key(func, [num. Tasks]) • repartition.

Spark编程接口(举例说明) Transformations Action map(func) filter(func) union(other. Dataset) reduce. By. Key(func, [num. Tasks]) • repartition. And. Sort. Within. P artitions(partitioner) • • reduce(func) collect() count() foreach(func)

Spark组件 • • Graph. X——图计算 Spark. Streaming——流式处理 Spark. SQL——Hive on spark MLlab——机器学习

Spark组件 • • Graph. X——图计算 Spark. Streaming——流式处理 Spark. SQL——Hive on spark MLlab——机器学习

对图的操作 • Graph. X提供了多种类型的操作: – Information about the Graph – Views of the graph

对图的操作 • Graph. X提供了多种类型的操作: – Information about the Graph – Views of the graph as collections – Functions for caching graphs – Change the partitioning heuristic – Transform vertex and edge attributes – Modify the graph structure – Join RDDs with the graph – Aggregate information about adjacent triplets – Iterative graph-parallel computation – Basic graph algorithms

Spark对Map. Reduce的支持 • 对图的每一个triplets执行传入的map函数和 reduce函数 • Graph. Ops类的aggregate. Messages方法

Spark对Map. Reduce的支持 • 对图的每一个triplets执行传入的map函数和 reduce函数 • Graph. Ops类的aggregate. Messages方法

DStream • Discretized Stream or Dstream是 Spark. Streaming的主要抽象 • 它代表着一系列数据流 • 在内部,表示为一系列连续的RDD

DStream • Discretized Stream or Dstream是 Spark. Streaming的主要抽象 • 它代表着一系列数据流 • 在内部,表示为一系列连续的RDD