大数据导论:ApacheSpark之三课件
Spark是基于分布式数据集的概念的,可以包含任意的Java、Python对象。
我们只需要基于这些外部数据构造数据集,然后对这些数据集进行并行操
作。Spark API的基础构件是RDD API,在RDD API之上,又提供了高层的API
供使用,例如DataFrame API,机器学习API。这些更高层次的API提供了特
定数据操作的方法,本部分将通过若干例子说明最简单的Spark应用,展示
Spark的强大功能。
- 2021-12-27
- 阅读331
- 下载0
- 18页
- pdf