Karena ada banyak alat yang tersedia untuk tugas-tugas ilmu data, dan rumit untuk menginstal semuanya dan membangun sistem yang sempurna.
Apakah ada gambar Linux / Mac OS dengan Python, R dan alat sains data open-source lainnya diinstal dan tersedia untuk digunakan orang sekarang juga? Ubuntu atau OS ringan dengan versi terbaru Python, R (termasuk IDE), dan alat visualisasi data open source lainnya yang diinstal akan ideal. Saya belum menemukan satu di pencarian cepat saya di Google.
Tolong beri tahu saya jika ada atau apakah seseorang dari Anda telah membuat sendiri? Saya berasumsi beberapa universitas mungkin memiliki gambar VM mereka sendiri. Silakan bagikan tautan tersebut.
Jawaban:
Ada pilihan lain yang populer baru-baru ini: buruh pelabuhan ( https://www.docker.com ). Docker adalah wadah dan memungkinkan Anda membuat / memelihara lingkungan kerja dengan sangat mudah dan cepat.
Semoga itu bisa membantu Anda.
sumber
Jika Anda mencari VM dengan banyak alat yang sudah diinstal, coba Toolbox Ilmu Data .
sumber
docker-machine regenerate-certs
saya harap bisa membantu :)Sementara gambar Docker sekarang lebih trendi, saya pribadi menemukan teknologi Docker tidak ramah pengguna, bahkan untuk pengguna tingkat lanjut. Jika Anda setuju dengan menggunakan gambar VM non-lokal dan dapat menggunakan Amazon Web Services (AWS) EC2 , pertimbangkan gambar yang berfokus pada R untuk proyek-proyek ilmu data, yang dibuat sebelumnya oleh Louis Aslett. Gambar-gambar tersebut mengandung versi terbaru LTS , R dan RStudio Server Ubuntu terbaru . Anda dapat mengaksesnya di sini .
Selain komponen-komponen utama yang saya sebutkan di atas, gambar-gambar itu mengandung banyak alat sains data yang berguna. Misalnya, gambar mendukung LaTeX, ODBC, OpenGL, Git, perpustakaan numerik yang dioptimalkan dan banyak lagi.
sumber
Apakah Anda mencoba Cloudera's QuickStart VM ?:
Saya merasa sangat mudah untuk menjalankannya dan itu termasuk perangkat lunak sumber terbuka seperti Mahout dan Spark .
sumber
Hari ini saya menggunakan repositori ini dari https://github.com/ berikutnyaenceiq /docker-spark dan membangunnya dengan buruh pelabuhan. itu adalah percikan bangunan buruh pelabuhan gambar berdasarkan gambar hadoop dari pemilik yang sama. jika Anda menggunakan percikan, ia memiliki api python yang disebut pyspark http://spark.apache.org/docs/latest/api/python/
sumber