更新时间:2021年03月23日17时45分 来源:乐鱼电竞 浏览次数:

Spark可以通过并行集合创建RDD。即从一个已经存在的集合、数组上,通过SparkContext对象调用parallelize()方法创建RDD。
若要创建RDD,则需要先创建一个数组,再通过执行parallelize()方法实现,具体代码如下:
scala> val array=Array(1,2,3,4,5) array: Array[Int]=Array(1,2,3,4,5)
scala> val arrRDD=sc.parallelize(array)
arrRDD: org.apache.spark.rdd.RDD[Int]=ParallelcollectionRDD[6] at parallelize
at <console>:26
执行上述代码后,从返回结果arrRDD的属性中看出RDD创建完成。
猜你喜欢:
Combiner组件创建和使用演示【大数据文章】
怎样使用Linux和HDFS创建RDD?
RDD有什么特征?
DataFrame是什么意思?与RDD相比有哪些优点?
乐鱼电竞大数据项目开发培训