Pertanyaan yang diberi tag apache-spark

257

Perbedaan antara DataFrame, Dataset, dan RDD di Spark

Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang

254

Spark - partisi ulang () vs coalesce ()

Menurut Learning Spark Ingatlah bahwa mempartisi ulang data Anda adalah operasi yang cukup mahal. Spark juga memiliki versi yang repartition()dipanggil coalesce()yang dioptimalkan yang memungkinkan menghindari perpindahan data, tetapi hanya jika Anda mengurangi jumlah partisi RDD. Satu...

apache-spark distributed-computing rdd

249

Apa perbedaan antara peta dan flatMap dan kasus penggunaan yang baik untuk masing-masing?

Dapatkah seseorang menjelaskan kepada saya perbedaan antara peta dan flatMap dan apa gunanya kasus yang baik untuk masing-masing? Apa yang dimaksud dengan "meratakan hasil"? Apa

apache-spark

228

Spark java.lang.OutOfMemoryError: Java heap space

Cluster saya: 1 master, 11 slave, setiap node memiliki memori 6 GB. Pengaturan saya: spark.executor.memory=4g, Dspark.akka.frameSize=512 Inilah masalahnya: Pertama , saya membaca beberapa data (2,19 GB) dari HDFS ke RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Kedua , lakukan sesuatu...

out-of-memory apache-spark

224

Tugas tidak serializable: java.io.NotSerializableException saat memanggil fungsi penutupan luar hanya pada kelas bukan objek

Mendapatkan perilaku aneh saat memanggil fungsi di luar penutupan: ketika fungsi dalam suatu objek semuanya berfungsi ketika fungsi di kelas dapatkan: Tugas tidak serializable: java.io.NotSerializableException: pengujian Masalahnya adalah saya perlu kode saya di kelas dan bukan objek. Tahu...

scala serialization apache-spark typesafe

219

Apa yang dimaksud dengan pekerja, pelaksana, inti dalam kluster Spark Standalone?

Saya membaca Ikhtisar Mode Cluster dan saya masih tidak dapat memahami proses yang berbeda di cluster Standalone Spark dan paralelisme. Apakah pekerja itu proses JVM atau tidak? Saya menjalankan bin\start-slave.shdan menemukan bahwa itu memunculkan pekerja, yang sebenarnya adalah JVM. Sesuai...

apache-spark distributed-computing

202

Apa perbedaan antara cache dan bertahan?

Dalam hal RDDketekunan, apa perbedaan antara cache()dan persist()dalam

apache-spark distributed-computing rdd

201

Bagaimana cara mengubah nama kolom dataframe di pyspark?

Saya berasal dari latar belakang panda dan terbiasa membaca data dari file CSV ke dalam kerangka data dan kemudian hanya mengubah nama kolom menjadi sesuatu yang berguna menggunakan perintah sederhana: df.columns = new_column_name_list Namun, hal yang sama tidak berfungsi di pyspark dataframe...

python apache-spark pyspark pyspark-sql

201

Bagaimana cara menampilkan konten kolom lengkap dalam Spark Dataframe?

Saya menggunakan spark-csv untuk memuat data ke dalam DataFrame. Saya ingin melakukan kueri sederhana dan menampilkan konten: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from...

apache-spark dataframe spark-csv output-formatting

193

Apache Spark: Jumlah inti vs jumlah pelaksana

Saya mencoba memahami hubungan jumlah core dan jumlah eksekutor ketika menjalankan pekerjaan Spark di BENANG. Lingkungan pengujian adalah sebagai berikut: Jumlah node data: 3 Spesifikasi mesin simpul data: CPU: Core i7-4790 (# core: 4, # utas: 8) RAM: 32GB (8GB x 4) HDD: 8TB (2TB x...

hadoop apache-spark yarn

181

Bagaimana cara menghentikan pesan INFO yang ditampilkan pada konsol percikan?

Saya ingin menghentikan berbagai pesan yang datang pada cangkang percikan. Saya mencoba mengedit log4j.propertiesfile untuk menghentikan pesan ini. Berikut isinya log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN,

apache-spark log4j spark-submit

179

Bagaimana cara membaca banyak file teks menjadi satu RDD?

Saya ingin membaca banyak file teks dari lokasi HDFS dan melakukan pemetaan pada iterasi menggunakan percikan. JavaRDD<String> records = ctx.textFile(args[1], 1); mampu membaca hanya satu file pada satu waktu. Saya ingin membaca lebih dari satu file dan memprosesnya sebagai RDD tunggal....

apache-spark

178

Kinerja Spark untuk Scala vs Python

Saya lebih suka Python daripada Scala. Tetapi, karena Spark secara asli ditulis dalam Scala, saya mengharapkan kode saya berjalan lebih cepat di Scala daripada versi Python karena alasan yang jelas. Dengan asumsi itu, saya berpikir untuk belajar & menulis versi Scala dari beberapa kode...

scala performance apache-spark pyspark rdd

171

(Mengapa) kita perlu memanggil cache atau tetap menggunakan RDD

Ketika dataset didistribusikan (RDD) yang tangguh dibuat dari file teks atau koleksi (atau dari RDD lain), apakah kita perlu memanggil "cache" atau "bertahan" secara eksplisit untuk menyimpan data RDD ke dalam memori? Atau apakah data RDD disimpan secara terdistribusi dalam memori secara...

scala apache-spark rdd

158

Tambahkan toples ke Spark Job - spark-submit

Benar ... sudah banyak dibahas. Namun ada banyak ambiguitas dan beberapa jawaban yang diberikan ... termasuk duplikat referensi jar di guci / pelaksana / konfigurasi driver atau opsi. Detail yang ambigu dan / atau dihilangkan Rincian ambiguitas, tidak jelas, dan / atau dihilangkan berikut ini...

java scala apache-spark jar spark-submit

152

Bagaimana saya bisa mengubah tipe kolom di DataFrame Spark SQL?

Misalkan saya melakukan sesuatu seperti: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment:...

scala apache-spark apache-spark-sql

149

Bagaimana tahapan dibagi menjadi beberapa tugas di Spark?

Mari kita asumsikan sebagai berikut bahwa hanya satu tugas Spark yang berjalan di setiap titik waktu. Apa yang saya dapatkan sejauh ini Inilah yang saya pahami tentang apa yang terjadi di Spark: Saat a SparkContextdibuat, setiap node pekerja memulai eksekutor. Pelaksana adalah proses...

apache-spark

149

Bagaimana cara menyimpan objek khusus di Dataset?

Menurut Introducing Spark Datasets : Saat kami menantikan Spark 2.0, kami merencanakan beberapa peningkatan yang menarik pada Kumpulan Data, khususnya: ... Penyandi khusus - sementara kami saat ini membuat penyandiaksaraan otomatis untuk berbagai jenis, kami ingin membuka API untuk objek...

scala apache-spark apache-spark-dataset apache-spark-encoders

147

Spark - memuat file CSV sebagai DataFrame?

Saya ingin membaca CSV dalam percikan dan mengubahnya sebagai DataFrame dan menyimpannya dalam HDFS dengan df.registerTempTable("table_name") Saya telah mencoba: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Kesalahan yang saya dapatkan: java.lang.RuntimeException:...

scala apache-spark hadoop apache-spark-sql hdfs

144

Bagaimana cara mematikan info INFO di Spark?

Saya menginstal Spark menggunakan panduan AWS EC2 dan saya dapat meluncurkan program dengan baik menggunakan bin/pysparkscript untuk sampai ke percikan percikan dan juga dapat melakukan Quick Start quide berhasil. Namun, saya tidak bisa selama hidup saya mencari cara untuk menghentikan semua...

python scala apache-spark hadoop pyspark