Pertanyaan yang diberi tag apache-spark

Apache Spark adalah sistem komputasi cluster open source yang bertujuan untuk membuat analitik data menjadi cepat - cepat dijalankan dan cepat untuk menulis, awalnya dikembangkan di AMPLab di UC Berkeley.

16
membuat peta panas seaborn lebih besar

Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk...

10
Spark, secara optimal membagi RDD tunggal menjadi dua

Saya memiliki dataset besar yang perlu saya bagi menjadi beberapa kelompok sesuai dengan parameter tertentu. Saya ingin pekerjaan diproses seefisien mungkin. Saya dapat membayangkan dua cara untuk melakukannya Opsi 1 - Buat peta dari RDD asli dan filter def customMapper(record): if...

10
Kapan harus memilih regresi linier atau Pohon Keputusan atau regresi Hutan Acak? [Tutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya sedang

10
Hubungan antara belit dalam matematika dan CNN

Saya sudah membaca penjelasan konvolusi dan memahaminya sampai batas tertentu. Adakah yang bisa membantu saya memahami bagaimana operasi ini berhubungan dengan konvolusi dalam Jaring Saraf Konvolusional? Apakah fungsi seperti filter gyang menerapkan