apache-spark
rdd
Aravind Yarram
sumber
sumber
Biasanya ini berarti bahwa data telah diambil dari cache dan tidak perlu menjalankan ulang tahapan yang diberikan. Ini konsisten dengan DAG Anda yang menunjukkan bahwa tahap berikutnya membutuhkan pengocokan ( reduceByKey
). Setiap kali ada pengacakan yang terlibat, Spark secara otomatis menyimpan data yang dihasilkan dalam cache :
Acak juga menghasilkan sejumlah besar file perantara pada disk. Mulai Spark 1.3, file-file ini disimpan hingga RDD yang sesuai tidak lagi digunakan dan sampah dikumpulkan. Ini dilakukan agar file acak tidak perlu dibuat ulang jika garis keturunan dihitung ulang.