Saya mungkin berurusan dengan masalah yang mungkin telah dipecahkan seratus kali sebelumnya, tetapi saya tidak yakin di mana menemukan jawabannya.
Ketika menggunakan regresi logistik, diberikan banyak fitur dan mencoba memprediksi nilai kategorikal biner , saya tertarik untuk memilih subset dari fitur yang memprediksi baik. y y
Apakah ada prosedur yang mirip dengan laso yang dapat digunakan? (Saya hanya melihat laso yang digunakan untuk regresi linier.)
Apakah dengan melihat koefisien dari model yang dipasang mengindikasikan pentingnya fitur yang berbeda?
Sunting - Klarifikasi Setelah Melihat Beberapa Jawaban:
Ketika saya merujuk pada besarnya koefisien yang dipasang, maksud saya yang disesuaikan dengan fitur yang dinormalisasi (rata-rata 0 dan varian 1). Jika tidak, seperti yang ditunjukkan oleh @probabilityislogic, 1000x akan tampak kurang penting daripada x.
Saya tidak tertarik hanya menemukan k-subset terbaik (seperti yang ditawarkan @Davide), tetapi lebih mempertimbangkan pentingnya fitur yang berbeda relatif satu sama lain. Misalnya, satu fitur mungkin "usia", dan fitur lainnya "usia> 30". Pentingnya tambahan mereka mungkin sedikit, tetapi keduanya mungkin penting.
sumber
Jawaban untuk pertanyaan terakhir Anda adalah TIDAK datar. Besarnya koefisien sama sekali bukan ukuran kepentingan. Laso dapat digunakan untuk regresi logistik. Anda perlu mempelajari area ini dengan lebih tekun. Metode yang perlu Anda pelajari adalah metode yang melibatkan metode "dihukum". Jika Anda mencari metode deteksi yang mengungkap prediktor "teduh", sebuah istilah yang dapat didefinisikan di suatu tempat tetapi tidak digunakan secara umum, maka Anda perlu mencari metode yang memeriksa interaksi dan struktur non-linear dalam ruang prediktor dan keterkaitan hasil ke ruang itu. Ada sedikit diskusi tentang masalah dan metode ini dalam teks Frank Harrell "Strategi Pemodelan Regresi".
Strategi seleksi mundur akan gagal memberikan hasil yang valid (meskipun memberikan hasil). Jika Anda melihat 20 prediktor acak untuk 100 peristiwa, Anda mungkin akan menemukan 2 atau 3 yang akan dipilih dengan proses seleksi mundur. Prevalensi seleksi terbelakang di dunia nyata mencerminkan pemikiran statistik yang tidak hati-hati tetapi ketersediaannya yang mudah di SAS dan SPSS dan kurangnya kecanggihan basis pengguna produk-produk tersebut. Basis pengguna R memiliki waktu yang lebih sulit mengakses metode dan pengguna yang memposting permintaan pada milis dan SO mereka umumnya mendapat saran tentang masalah yang terlibat dengan metode seleksi mundur (atau maju).
sumber
Bahasa Inggris bukan bahasa ibu saya jadi saya mungkin belum mengerti apa masalah Anda, tetapi jika Anda perlu menemukan model terbaik Anda dapat mencoba menggunakan prosedur mundur (dan akhirnya menambahkan interations), dimulai dengan model dengan semua kovariat. Anda kemudian dapat melihat nilai residuals_vs_predicted dan grafik qq-plot untuk memeriksa apakah model tersebut menggambarkan fenomena Anda dengan baik.
sumber