Saya memiliki dataset dengan sekitar 2.000 variabel biner / 200.000 baris dan saya mencoba untuk memprediksi variabel dependen biner tunggal. Tujuan utama saya pada tahap ini bukan untuk mendapatkan akurasi prediksi, melainkan untuk mengidentifikasi variabel mana yang merupakan prediktor penting. Saya ingin menurunkan jumlah variabel dalam model akhir saya menjadi sekitar 100.
Apakah ada cara yang relatif cepat untuk mendapatkan variabel yang paling penting? randomForest sepertinya butuh waktu lama.
Saya tidak harus menggunakan semua 200.000 pengamatan, jadi pengambilan sampel adalah opsi di atas meja.
Jawaban:
Anda bisa mulai dengan filter Univariat sederhana, dan menggunakan validasi silang untuk memutuskan variabel mana yang akan disimpan. The
sbf
fungsi dalamcaret
paket untuk R benar-benar berguna. Anda dapat membaca lebih lanjut di sini , mulai halaman 19.sumber
Ini terdengar seperti masalah yang cocok untuk laso dan teman-teman yang melakukan penyusutan dan pemilihan variabel. Unsur-unsur Pembelajaran Statistik menggambarkan laso dan jaring elastis untuk regresi dan, apa yang lebih relevan untuk masalah ini, regresi logistik.
Para penulis buku telah membuat implementasi yang efisien dari laso dan jaring elastis tersedia sebagai paket R yang disebut glmnet . Saya sebelumnya telah menggunakan paket ini untuk analisis data biner dengan matriks data sekitar 250.000 baris, meskipun kolomnya lebih sedikit, tetapi sebenarnya menjalankan regresi semua kolom terhadap semua kolom lainnya. Jika matriks data juga jarang, implementasi dapat mengambil keuntungan dari itu juga, dan saya percaya metode ini benar-benar dapat bekerja untuk set data lengkap OPs. Berikut adalah beberapa komentar tentang laso:
Untuk Python ada implementasi dalam scikit-belajar metode seperti laso dan jaring elastis.
sumber
glmnet
dalam R). Pilihan lain adalah Thresholding the Lasso yang juga cukup sederhana untuk diterapkan. Lihat bagian 2.9 dari springer.com/gp/book/9783642201912 .Anda bisa melakukan regresi logistik / uji chi-square asosiasi untuk setiap variabel dan hanya mempertahankan mereka yang memiliki nilai p kurang dari beberapa nilai, katakanlah .2.
sumber