Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang
Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang
Menurut Learning Spark Ingatlah bahwa mempartisi ulang data Anda adalah operasi yang cukup mahal. Spark juga memiliki versi yang repartition()dipanggil coalesce()yang dioptimalkan yang memungkinkan menghindari perpindahan data, tetapi hanya jika Anda mengurangi jumlah partisi RDD. Satu...
Dalam hal RDDketekunan, apa perbedaan antara cache()dan persist()dalam
Saya lebih suka Python daripada Scala. Tetapi, karena Spark secara asli ditulis dalam Scala, saya mengharapkan kode saya berjalan lebih cepat di Scala daripada versi Python karena alasan yang jelas. Dengan asumsi itu, saya berpikir untuk belajar & menulis versi Scala dari beberapa kode...
Ketika dataset didistribusikan (RDD) yang tangguh dibuat dari file teks atau koleksi (atau dari RDD lain), apakah kita perlu memanggil "cache" atau "bertahan" secara eksplisit untuk menyimpan data RDD ke dalam memori? Atau apakah data RDD disimpan secara terdistribusi dalam memori secara...
Bagaimana saya bisa mengubah RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) ke Dataframe org.apache.spark.sql.DataFrame. Saya mengkonversi dataframe menjadi rdd menggunakan .rdd. Setelah mengolahnya, saya ingin kembali dalam bingkai data. Bagaimana saya bisa melakukan
Apa perbedaan antara RDD map dan mapPartitionsmetode? Dan apakah flatMapberperilaku suka mapatau suka mapPartitions? Terima kasih. (Sunting) yaitu apa perbedaan (baik secara semantik atau dalam hal eksekusi) antara def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b:...
Dari Spark UI saya. Apa yang dimaksud dengan dilewati?