Cara menjalankan aplikasi pyspark di command prompt windows 8

8

Saya memiliki skrip python yang ditulis dengan Spark Context dan saya ingin menjalankannya. Saya mencoba mengintegrasikan IPython dengan Spark, tetapi saya tidak bisa melakukannya. Jadi, saya mencoba untuk mengatur jalur percikan [folder Instalasi / nampan] sebagai variabel lingkungan dan disebut perintah percikan-kirim di cmd prompt. Saya percaya itu menemukan konteks percikan, tetapi menghasilkan kesalahan yang sangat besar. Bisakah seseorang tolong saya dengan masalah ini?

Jalur variabel lingkungan: C: /Users/Name/Spark-1.4; C: /Users/Name/Spark-1.4/bin

Setelah itu, di cmd prompt: spark-submit script.py

masukkan deskripsi gambar di sini

SRS
sumber
Helpful Post
Dawny33

Jawaban:

3

Saya cukup baru untuk Spark, dan telah menemukan cara mengintegrasikan dengan IPython pada Windows 10 dan 7. Pertama, periksa variabel lingkungan Anda untuk Python dan Spark. Ini milik saya: SPARK_HOME: C: \ spark-1.6.0-bin-hadoop2.6 \ Saya menggunakan Enthought Canopy, jadi Python sudah terintegrasi dalam jalur sistem saya. Selanjutnya, luncurkan Python atau IPython dan gunakan kode berikut. Jika Anda mendapatkan kesalahan, periksa apa yang Anda dapatkan untuk 'spark_home'. Kalau tidak, itu akan berjalan dengan baik.

import os

import sys

spark_home = os.environ.get('SPARK_HOME', None)

if not spark_home:

raise ValueError('SPARK_HOME environment variable is not set')

sys.path.insert(0, os.path.join(spark_home, 'python'))

sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.

execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

pySpark di IPython

Jon
sumber
1

Periksa apakah tautan ini dapat membantu Anda.

program tanpa judul
sumber
Saya sudah mengikuti ini sebelumnya. Tidak berfungsi
SRS
1

Jawaban Johnnyboycurtis bekerja untuk saya. Jika Anda menggunakan python 3, gunakan kode di bawah ini. Kode-nya tidak bekerja di python 3. Saya mengedit hanya baris terakhir dari kode-nya.

import os
import sys


spark_home = os.environ.get('SPARK_HOME', None)
print(spark_home)
if not spark_home:
    raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.1-bin-hadoop2.6/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.


filename=os.path.join(spark_home, 'python/pyspark/shell.py')
exec(compile(open(filename, "rb").read(), filename, 'exec'))
pengguna2543622
sumber
Saya telah menggunakan kode yang disediakan oleh "user2543622" dengan sukses, dan baru-baru ini mengalami masalah dengan pesan kesalahan berikut. Apakah Anda tahu apa yang salah? Terima kasih. Pengecualian: Proses gateway Java keluar sebelum mengirim driver nomor port-nya
user27155
0

Akhirnya, saya menyelesaikan masalah ini. Saya harus mengatur lokasi pyspark dalam variabel PATH dan lokasi py4j-0.8.2.1-src.zip dalam variabel PYTHONPATH.

SRS
sumber