Pertanyaan yang diberi tag data-mining

Aktivitas yang mencari pola dalam kumpulan data yang besar dan kompleks. Biasanya menekankan teknik algoritmik, tetapi mungkin juga melibatkan serangkaian keterampilan, aplikasi, atau metodologi terkait dengan tujuan itu.

29
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?

Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba...

25
Koefisien Gini vs Gini pengotor - pohon keputusan

Masalahnya mengacu pada pembuatan pohon keputusan. Menurut Wikipedia ' koefisien Gini ' tidak boleh disamakan dengan ' pengotor Gini '. Namun kedua ukuran tersebut dapat digunakan saat membangun pohon keputusan - ini dapat mendukung pilihan kita saat membagi set item. 1) 'Pengotor Gini' - ini...

24
Arti fitur laten?

Saya belajar tentang faktorisasi matriks untuk sistem yang merekomendasikan dan saya melihat istilah yang latent featuresterjadi terlalu sering tetapi saya tidak dapat memahami apa artinya. Saya tahu apa fitur itu tetapi saya tidak mengerti ide fitur laten. Bisakah tolong jelaskan? Atau setidaknya...

22
Apakah Ilmu Data Sama Dengan Penambangan Data?

Saya yakin ilmu data seperti yang akan dibahas dalam forum ini memiliki beberapa sinonim atau setidaknya bidang terkait di mana data besar dianalisis. Pertanyaan khusus saya adalah tentang Penambangan Data. Saya mengambil kelas pascasarjana di Data Mining beberapa tahun yang lalu. Apa perbedaan...

16
membuat peta panas seaborn lebih besar

Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk...

15
Pohon keputusan vs. KNN

Dalam kasus apa lebih baik menggunakan pohon Keputusan dan kasus lainnya KNN? Mengapa menggunakan salah satunya dalam kasus tertentu? Dan yang lainnya dalam kasus yang berbeda? (Dengan melihat fungsinya, bukan pada algoritma) Adakah yang punya penjelasan atau referensi tentang