Pertanyaan yang diberi tag apache-spark

133
Apache Spark: map vs mapPartitions?

Apa perbedaan antara RDD map dan mapPartitionsmetode? Dan apakah flatMapberperilaku suka mapatau suka mapPartitions? Terima kasih. (Sunting) yaitu apa perbedaan (baik secara semantik atau dalam hal eksekusi) antara def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b:...

127
Cara mengatur memori Apache Spark Executor

Bagaimana saya dapat meningkatkan memori yang tersedia untuk node eksekutor percikan Apache? Saya memiliki file 2 GB yang cocok untuk memuat ke Apache Spark. Saya menjalankan percikan apache untuk saat ini pada 1 mesin, sehingga driver dan eksekutor berada pada mesin yang sama. Mesin ini memiliki...

124
Bagaimana cara mencetak konten RDD?

Saya mencoba mencetak konten koleksi ke konsol Spark. Saya punya tipe: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Dan saya menggunakan perintah: scala> linesWithSessionId.map(line => println(line)) Tapi ini dicetak: res1: org.apache.spark.rdd.RDD [Unit] =...

111
mengimpor pyspark di shell python

Ini adalah salinan pertanyaan orang lain di forum lain yang tidak pernah dijawab, jadi saya pikir saya akan menanyakannya kembali di sini, karena saya memiliki masalah yang sama. (Lihat http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Saya telah menginstal Spark dengan benar di mesin...

110
Muat file CSV dengan Spark

Saya baru mengenal Spark dan saya mencoba membaca data CSV dari file dengan Spark. Inilah yang saya lakukan: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Saya berharap panggilan ini memberi saya daftar dari dua kolom pertama file saya tetapi...

107
Bagaimana menimpa direktori keluaran di spark

Saya memiliki aplikasi streaming percikan yang menghasilkan kumpulan data untuk setiap menit. Saya perlu menyimpan / menimpa hasil dari data yang diproses. Ketika saya mencoba menimpa dataset org.apache.hadoop.mapred.FileAlreadyExistsException menghentikan eksekusi. Saya mengatur properti Spark...

101
Aplikasi Menjalankan Spark Kill

Saya memiliki aplikasi Spark yang sedang berjalan yang menempati semua inti di mana aplikasi saya yang lain tidak akan dialokasikan sumber daya apa pun. Saya melakukan beberapa penelitian cepat dan orang menyarankan menggunakan YARN kill atau / bin / spark-class untuk mematikan perintah. Namun,...

100
Cara memuat file lokal di sc.textFile, alih-alih HDFS

Saya mengikuti tutorial percikan hebat jadi saya mencoba pada 46m: 00s untuk memuat README.mdtetapi gagal untuk apa yang saya lakukan adalah ini: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls...