Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang
Apache Spark adalah mesin pengolah data terdistribusi open source yang ditulis dalam Scala yang menyediakan API terpadu dan set data terdistribusi kepada pengguna. Gunakan Kasus untuk Apache Spark sering terkait dengan pembelajaran mesin / dalam, pemrosesan grafik.
Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang
Menurut Learning Spark Ingatlah bahwa mempartisi ulang data Anda adalah operasi yang cukup mahal. Spark juga memiliki versi yang repartition()dipanggil coalesce()yang dioptimalkan yang memungkinkan menghindari perpindahan data, tetapi hanya jika Anda mengurangi jumlah partisi RDD. Satu...
Dapatkah seseorang menjelaskan kepada saya perbedaan antara peta dan flatMap dan apa gunanya kasus yang baik untuk masing-masing? Apa yang dimaksud dengan "meratakan hasil"? Apa
Cluster saya: 1 master, 11 slave, setiap node memiliki memori 6 GB. Pengaturan saya: spark.executor.memory=4g, Dspark.akka.frameSize=512 Inilah masalahnya: Pertama , saya membaca beberapa data (2,19 GB) dari HDFS ke RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Kedua , lakukan sesuatu...
Mendapatkan perilaku aneh saat memanggil fungsi di luar penutupan: ketika fungsi dalam suatu objek semuanya berfungsi ketika fungsi di kelas dapatkan: Tugas tidak serializable: java.io.NotSerializableException: pengujian Masalahnya adalah saya perlu kode saya di kelas dan bukan objek. Tahu...
Saya membaca Ikhtisar Mode Cluster dan saya masih tidak dapat memahami proses yang berbeda di cluster Standalone Spark dan paralelisme. Apakah pekerja itu proses JVM atau tidak? Saya menjalankan bin\start-slave.shdan menemukan bahwa itu memunculkan pekerja, yang sebenarnya adalah JVM. Sesuai...
Dalam hal RDDketekunan, apa perbedaan antara cache()dan persist()dalam
Saya berasal dari latar belakang panda dan terbiasa membaca data dari file CSV ke dalam kerangka data dan kemudian hanya mengubah nama kolom menjadi sesuatu yang berguna menggunakan perintah sederhana: df.columns = new_column_name_list Namun, hal yang sama tidak berfungsi di pyspark dataframe...
Saya menggunakan spark-csv untuk memuat data ke dalam DataFrame. Saya ingin melakukan kueri sederhana dan menampilkan konten: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from...
Saya mencoba memahami hubungan jumlah core dan jumlah eksekutor ketika menjalankan pekerjaan Spark di BENANG. Lingkungan pengujian adalah sebagai berikut: Jumlah node data: 3 Spesifikasi mesin simpul data: CPU: Core i7-4790 (# core: 4, # utas: 8) RAM: 32GB (8GB x 4) HDD: 8TB (2TB x...
Saya ingin menghentikan berbagai pesan yang datang pada cangkang percikan. Saya mencoba mengedit log4j.propertiesfile untuk menghentikan pesan ini. Berikut isinya log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN,
Saya ingin membaca banyak file teks dari lokasi HDFS dan melakukan pemetaan pada iterasi menggunakan percikan. JavaRDD<String> records = ctx.textFile(args[1], 1); mampu membaca hanya satu file pada satu waktu. Saya ingin membaca lebih dari satu file dan memprosesnya sebagai RDD tunggal....
Saya lebih suka Python daripada Scala. Tetapi, karena Spark secara asli ditulis dalam Scala, saya mengharapkan kode saya berjalan lebih cepat di Scala daripada versi Python karena alasan yang jelas. Dengan asumsi itu, saya berpikir untuk belajar & menulis versi Scala dari beberapa kode...
Ketika dataset didistribusikan (RDD) yang tangguh dibuat dari file teks atau koleksi (atau dari RDD lain), apakah kita perlu memanggil "cache" atau "bertahan" secara eksplisit untuk menyimpan data RDD ke dalam memori? Atau apakah data RDD disimpan secara terdistribusi dalam memori secara...
Benar ... sudah banyak dibahas. Namun ada banyak ambiguitas dan beberapa jawaban yang diberikan ... termasuk duplikat referensi jar di guci / pelaksana / konfigurasi driver atau opsi. Detail yang ambigu dan / atau dihilangkan Rincian ambiguitas, tidak jelas, dan / atau dihilangkan berikut ini...
Misalkan saya melakukan sesuatu seperti: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...
Mari kita asumsikan sebagai berikut bahwa hanya satu tugas Spark yang berjalan di setiap titik waktu. Apa yang saya dapatkan sejauh ini Inilah yang saya pahami tentang apa yang terjadi di Spark: Saat a SparkContextdibuat, setiap node pekerja memulai eksekutor. Pelaksana adalah proses...
Menurut Introducing Spark Datasets : Saat kami menantikan Spark 2.0, kami merencanakan beberapa peningkatan yang menarik pada Kumpulan Data, khususnya: ... Penyandi khusus - sementara kami saat ini membuat penyandiaksaraan otomatis untuk berbagai jenis, kami ingin membuka API untuk objek...
Saya ingin membaca CSV dalam percikan dan mengubahnya sebagai DataFrame dan menyimpannya dalam HDFS dengan df.registerTempTable("table_name") Saya telah mencoba: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Kesalahan yang saya dapatkan: java.lang.RuntimeException:...
Saya menginstal Spark menggunakan panduan AWS EC2 dan saya dapat meluncurkan program dengan baik menggunakan bin/pysparkscript untuk sampai ke percikan percikan dan juga dapat melakukan Quick Start quide berhasil. Namun, saya tidak bisa selama hidup saya mencari cara untuk menghentikan semua...