大数据导论:ApacheSpark之三课件

Spark是基于分布式数据集的概念的,可以包含任意的Java、Python对象。 我们只需要基于这些外部数据构造数据集,然后对这些数据集进行并行操 作。Spark API的基础构件是RDD API,在RDD API之上,又提供了高层的API 供使用,例如DataFrame API,机器学习API。这些更高层次的API提供了特 定数据操作的方法,本部分将通过若干例子说明最简单的Spark应用,展示 Spark的强大功能。

  • 2021-12-27
  • 收藏0
  • 阅读260
  • 下载0
  • 18页
  • pdf
  • 620.03M

评价

评分 :
   *