Saya mencoba mengatur Apache Spark di Windows.
Setelah mencari sedikit, saya memahami bahwa mode mandiri adalah yang saya inginkan. Binari mana yang saya unduh untuk menjalankan Apache spark di windows? Saya melihat distribusi dengan hadoop dan cdh di halaman download spark.
Saya tidak memiliki referensi di web untuk ini. Panduan langkah demi langkah untuk ini sangat dihargai.
sumber
Langkah-langkah untuk menginstal Spark dalam mode lokal:
Instal Java 7 atau yang lebih baru . Untuk menguji instalasi java selesai, buka jenis command prompt
java
dan tekan enter. Jika Anda menerima pesan'Java' is not recognized as an internal or external command.
Anda perlu mengkonfigurasi variabel lingkungan Anda,JAVA_HOME
danPATH
mengarahkan ke jalur jdk.Unduh dan instal Scala .
Atur
SCALA_HOME
keControl Panel\System and Security\System
"Pengaturan Sistem Lanjut" dan tambahkan%SCALA_HOME%\bin
variabel PATH di variabel lingkungan.Instal Python 2.6 atau yang lebih baru dari tautan Unduh Python .
Unduh SBT . Instal dan tetapkan
SBT_HOME
sebagai variabel lingkungan dengan nilai sebagai<<SBT PATH>>
.Unduh
winutils.exe
dari repo HortonWorks atau git repo . Karena kami tidak memiliki instalasi Hadoop lokal di Windows, kami harus mengunduhwinutils.exe
dan meletakkannya dibin
direktori di bawahHadoop
direktori home yang dibuat . TetapkanHADOOP_HOME = <<Hadoop home directory>>
dalam variabel lingkungan.Kami akan menggunakan paket Spark yang sudah dibuat sebelumnya, jadi pilih paket yang sudah dibuat sebelumnya Spark untuk mengunduh Hadoop Spark . Unduh dan ekstrak.
Atur
SPARK_HOME
dan tambahkan%SPARK_HOME%\bin
variabel PATH di variabel lingkungan.Jalankan perintah:
spark-shell
Buka
http://localhost:4040/
di browser untuk melihat UI web SparkContext.sumber
Anda dapat mengunduh percikan dari sini:
http://spark.apache.org/downloads.html
Saya merekomendasikan Anda versi ini: Hadoop 2 (HDP2, CDH5)
Sejak versi 1.0.0 ada skrip .cmd untuk menjalankan spark di windows.
Buka kemasannya menggunakan 7zip atau serupa.
Untuk memulai, Anda dapat menjalankan /bin/spark-shell.cmd --master local [2]
Untuk mengkonfigurasi instance Anda, Anda dapat mengikuti link ini: http://spark.apache.org/docs/latest/
sumber
Anda dapat menggunakan cara berikut untuk menyiapkan Spark:
Padahal ada berbagai cara untuk membangun Spark dari Source .
Pertama saya mencoba membangun sumber Spark dengan SBT tetapi itu membutuhkan hadoop. Untuk menghindari masalah tersebut, saya menggunakan rilis yang dibuat sebelumnya.
Alih-alih Sumber, saya mengunduh rilis Prebuilt untuk versi hadoop 2.x dan menjalankannya. Untuk ini, Anda perlu menginstal Scala sebagai prasyarat.
Saya telah menyusun semua langkah di sini:
Cara menjalankan Apache Spark di Windows7 dalam mode mandiri
Semoga membantu Anda .. !!!
sumber
Mencoba bekerja dengan spark-2.xx, membuat kode sumber Spark tidak berhasil untuk saya.
Jadi, meskipun saya tidak akan menggunakan Hadoop, saya mengunduh Spark yang sudah dibuat sebelumnya dengan hadoop embeded:
spark-2.0.0-bin-hadoop2.7.tar.gz
Arahkan SPARK_HOME pada direktori hasil ekstraksi, lalu tambahkan ke
PATH
:;%SPARK_HOME%\bin;
Unduh winutils yang dapat dieksekusi dari repositori Hortonworks, atau dari winutils platform Amazon AWS .
Buat direktori tempat Anda meletakkan winutils.exe yang dapat dieksekusi. Misalnya, C: \ SparkDev \ x64. Tambahkan variabel lingkungan
%HADOOP_HOME%
yang menunjuk ke direktori ini, lalu tambahkan%HADOOP_HOME%\bin
ke PATH.Menggunakan baris perintah, buat direktori:
Menggunakan file yang dapat dieksekusi yang Anda unduh, tambahkan izin penuh ke direktori file yang Anda buat tetapi menggunakan formalisme unixian:
Ketik baris perintah berikut:
Input baris perintah scala harus ditampilkan secara otomatis.
Catatan: Anda tidak perlu mengkonfigurasi Scala secara terpisah. Itu juga ada di dalamnya.
sumber
Berikut perbaikan untuk menjalankannya di Windows tanpa membangun kembali semuanya - seperti jika Anda tidak memiliki versi MS-VS terbaru. (Anda memerlukan kompiler Win32 C ++, tetapi Anda dapat menginstal MS VS Community Edition secara gratis.)
Saya sudah mencoba ini dengan Spark 1.2.2 dan mahout 0.10.2 serta dengan versi terbaru pada November 2015. Ada sejumlah masalah termasuk fakta bahwa kode Scala mencoba menjalankan skrip bash (mahout / bin / mahout) yang tentu saja tidak berfungsi, skrip sbin belum di-porting ke windows, dan winutils akan hilang jika hadoop tidak diinstal.
(1) Instal scala, lalu unzip spark / hadoop / mahout ke root C: di bawah nama produk masing-masing.
(2) Ubah nama \ mahout \ bin \ mahout menjadi mahout.sh.was (kami tidak akan membutuhkannya)
(3) Kompilasi program Win32 C ++ berikut dan salin file yang dapat dieksekusi ke file bernama C: \ mahout \ bin \ mahout (itu benar - tidak ada akhiran .exe, seperti Linux yang dapat dieksekusi)
(4) Buat skrip \ mahout \ bin \ mahout.bat dan tempelkan konten di bawah ini, meskipun nama persis dari toples di jalur kelas _CP akan bergantung pada versi spark dan mahout. Perbarui jalur apa pun sesuai instalasi Anda. Gunakan nama jalur 8.3 tanpa spasi di dalamnya. Perhatikan bahwa Anda tidak dapat menggunakan karakter pengganti / tanda bintang di jalur kelas di sini.
Nama variabel MAHOUT_CP tidak boleh diubah, karena dirujuk dalam kode C ++.
Tentu saja Anda dapat mengomentari kode yang meluncurkan master dan pekerja Spark karena Mahout akan menjalankan Spark sesuai kebutuhan; Saya baru saja memasukkannya ke dalam pekerjaan batch untuk menunjukkan cara meluncurkannya jika Anda ingin menggunakan Spark tanpa Mahout.
(5) Tutorial berikut adalah tempat yang baik untuk memulai:
Anda dapat memunculkan instance Mahout Spark di:
sumber
Panduan oleh Ani Menon (thx!) Hampir berfungsi untuk saya di windows 10, saya hanya perlu mendapatkan winutils.exe yang lebih baru dari git itu (saat ini hadoop-2.8.1): https://github.com/steveloughran/winutils
sumber
Berikut tujuh langkah untuk menginstal spark di windows 10 dan menjalankannya dari python:
Langkah 1: unduh file spark 2.2.0 tar (tape Archive) gz ke sembarang folder F dari tautan ini - https://spark.apache.org/downloads.html . Buka zip dan salin folder yang telah dibuka ke folder A. Ubah nama folder spark-2.2.0-bin-hadoop2.7 menjadi spark.
Biarkan path ke folder spark menjadi C: \ Users \ Desktop \ A \ spark
Langkah 2: unduh file hardoop 2.7.3 tar gz ke folder yang sama F dari tautan ini - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Buka zip dan salin folder yang telah dibuka ke folder yang sama A. Ubah nama folder dari Hadoop-2.7.3.tar menjadi hadoop. Biarkan path ke folder hadoop menjadi C: \ Users \ Desktop \ A \ hadoop
Langkah 3: Buat file teks notepad baru. Simpan file notepad kosong ini sebagai winutils.exe (dengan Save as type: All files). Salin file winutils.exe O KB ini ke folder bin Anda di spark - C: \ Users \ Desktop \ A \ spark \ bin
Langkah 4: Sekarang, kita harus menambahkan folder ini ke lingkungan Sistem.
4a: Buat variabel sistem (bukan variabel pengguna karena variabel pengguna akan mewarisi semua properti variabel sistem) Nama variabel: SPARK_HOME Nilai variabel: C: \ Users \ Desktop \ A \ spark
Temukan variabel sistem Path dan klik edit. Anda akan melihat banyak jalur. Jangan hapus jalur mana pun. Tambahkan nilai variabel ini -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Buat variabel sistem
Nama variabel: HADOOP_HOME Nilai variabel: C: \ Users \ Desktop \ A \ hadoop
Temukan variabel sistem Path dan klik edit. Tambahkan nilai variabel ini -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Buat variabel sistem Nama variabel: JAVA_HOME Cari Java di windows. Klik kanan dan klik buka lokasi file. Anda harus sekali lagi mengklik kanan pada salah satu file java dan mengklik lokasi file yang terbuka. Anda akan menggunakan jalur folder ini. ATAU Anda dapat mencari C: \ Program Files \ Java. Versi Java saya yang terinstal di sistem adalah jre1.8.0_131. Nilai variabel: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Temukan variabel sistem Path dan klik edit. Tambahkan nilai variabel ini -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Langkah 5: Buka command prompt dan masuk ke folder spark bin Anda (ketik cd C: \ Users \ Desktop \ A \ spark \ bin). Ketik spark-shell.
Mungkin perlu waktu dan memberikan beberapa peringatan. Terakhir, ini akan menampilkan selamat datang di spark versi 2.2.0
Langkah 6: Ketik exit () atau mulai ulang prompt perintah dan buka folder spark bin lagi. Ketik pyspark:
Ini akan menampilkan beberapa peringatan dan kesalahan tetapi abaikan. Berhasil.
Langkah 7: Unduhan Anda selesai. Jika Anda ingin langsung menjalankan spark dari shell python maka: buka Scripts di folder python Anda dan ketik
di command prompt.
Di shell python
impor modul yang diperlukan
Jika Anda ingin melewatkan langkah-langkah untuk mengimpor findspark dan memulainya, silakan ikuti prosedur yang diberikan dalam mengimpor pyspark di shell python
sumber
Berikut ini skrip minimum sederhana untuk dijalankan dari konsol python mana pun. Ini mengasumsikan bahwa Anda telah mengekstrak pustaka Spark yang telah Anda unduh ke C: \ Apache \ spark-1.6.1.
Ini berfungsi di Windows tanpa membangun apa pun dan memecahkan masalah di mana Spark akan mengeluh tentang pengawetan rekursif.
sumber
Cloudera dan Hortonworks adalah alat terbaik untuk memulai dengan HDFS di Microsoft Windows. Anda juga dapat menggunakan VMWare atau VBox untuk memulai Mesin Virtual untuk membuat build ke HDFS dan Spark, Hive, HBase, Pig, Hadoop dengan Scala, R, Java, Python.
sumber