Prosedur pemilihan variabel berbasis data umum (misalnya, maju, mundur, bertahap, semua himpunan bagian) cenderung menghasilkan model dengan sifat yang tidak diinginkan, termasuk:
- Koefisien yang bias jauh dari nol.
- Kesalahan standar yang terlalu kecil dan interval kepercayaan yang terlalu sempit.
- Uji statistik dan nilai-p yang tidak memiliki makna yang diiklankan.
- Perkiraan kecocokan model yang terlalu optimis.
- Termasuk istilah-istilah yang dapat menjadi tidak berarti (mis., Pengecualian dari syarat-syarat rendah).
Namun, prosedur pemilihan variabel tetap ada. Mengingat masalah dengan pemilihan variabel, mengapa prosedur ini diperlukan? Apa yang memotivasi penggunaannya?
Beberapa proposal untuk memulai diskusi ....
- Keinginan untuk koefisien regresi yang dapat ditafsirkan? (Salah arah dalam model dengan banyak infus?)
- Hilangkan varians yang diperkenalkan oleh variabel yang tidak relevan?
- Menghilangkan kovarians / redundansi yang tidak perlu di antara variabel independen?
- Mengurangi jumlah estimasi parameter (masalah daya, ukuran sampel)
Apakah ada yang lain? Apakah masalah ditangani oleh teknik pemilihan variabel lebih atau kurang penting daripada masalah prosedur pemilihan variabel diperkenalkan? Kapan mereka harus digunakan? Kapan mereka tidak digunakan?
modeling
feature-selection
Brett
sumber
sumber
Jawaban:
Pemilihan variabel (tanpa penalti) hanya memperburuk keadaan. Seleksi variabel hampir tidak memiliki peluang untuk menemukan variabel "benar", dan menghasilkan efek berlebihan dari variabel yang tersisa dan meremehkan kesalahan standar yang besar. Adalah suatu kesalahan untuk meyakini bahwa pemilihan variabel yang dilakukan dengan cara biasa membantu seseorang mengatasi masalah "besar p kecil n". Intinya adalah model terakhir menyesatkan dalam segala hal. Ini terkait dengan pernyataan mengejutkan yang saya baca di sebuah makalah epidemiologi: "Kami tidak memiliki ukuran sampel yang memadai untuk mengembangkan model multivariabel, jadi alih-alih kami melakukan semua tes yang mungkin untuk tabel 2x2."
Setiap saat dataset yang ada digunakan untuk menghilangkan variabel, sementara memanfaatkan Y untuk membuat keputusan, semua jumlah statistik akan terdistorsi. Pemilihan variabel yang khas adalah fatamorgana.
Edit : (Menyalin komentar dari bawah disembunyikan oleh flip)
sumber
Pertama-tama, kerugian yang Anda sebutkan adalah efek dari pemilihan fitur yang salah , yaitu overfitted, unfinished, atau overshoot.
Semua level yang relevan memberikan wawasan tentang apa yang sebenarnya mendorong proses yang diberikan, jadi miliki nilai penjelas. Level optimal minimal (sesuai desain) memberikan model non-overfitted yang bekerja pada data yang tidak berantakan sebanyak mungkin.
FS dunia nyata hanya ingin mencapai salah satu tujuan tersebut (biasanya yang terakhir).
sumber
Pemilihan variabel tentu karena sebagian besar model tidak berurusan dengan baik dengan sejumlah besar variabel yang tidak relevan. Variabel-variabel ini hanya akan memasukkan noise ke dalam model Anda, atau lebih buruk, menyebabkan Anda terlalu fit. Merupakan ide bagus untuk mengeluarkan variabel-variabel ini dari analisis.
Selain itu, Anda tidak dapat memasukkan semua variabel yang ada di setiap analisis, karena ada jumlah tak terbatas dari mereka di sana. Pada titik tertentu Anda harus menarik garis, dan ada baiknya melakukannya dengan cara yang ketat. Oleh karena itu semua diskusi tentang pemilihan variabel.
Sebagian besar masalah dengan pemilihan variabel dapat ditangani dengan validasi silang, atau dengan menggunakan model dengan hukuman bawaan dan pemilihan fitur (seperti jaring elastis untuk model linier).
Jika Anda tertarik pada beberapa hasil empiris yang terkait dengan beberapa variabel yang menyebabkan pemasangan berlebihan, periksa hasil kompetisi Don't Overfit di Kaggle.
sumber