Mengapa pemilihan variabel diperlukan?

31

Prosedur pemilihan variabel berbasis data umum (misalnya, maju, mundur, bertahap, semua himpunan bagian) cenderung menghasilkan model dengan sifat yang tidak diinginkan, termasuk:

  1. Koefisien yang bias jauh dari nol.
  2. Kesalahan standar yang terlalu kecil dan interval kepercayaan yang terlalu sempit.
  3. Uji statistik dan nilai-p yang tidak memiliki makna yang diiklankan.
  4. Perkiraan kecocokan model yang terlalu optimis.
  5. Termasuk istilah-istilah yang dapat menjadi tidak berarti (mis., Pengecualian dari syarat-syarat rendah).

Namun, prosedur pemilihan variabel tetap ada. Mengingat masalah dengan pemilihan variabel, mengapa prosedur ini diperlukan? Apa yang memotivasi penggunaannya?

Beberapa proposal untuk memulai diskusi ....

  • Keinginan untuk koefisien regresi yang dapat ditafsirkan? (Salah arah dalam model dengan banyak infus?)
  • Hilangkan varians yang diperkenalkan oleh variabel yang tidak relevan?
  • Menghilangkan kovarians / redundansi yang tidak perlu di antara variabel independen?
  • Mengurangi jumlah estimasi parameter (masalah daya, ukuran sampel)

Apakah ada yang lain? Apakah masalah ditangani oleh teknik pemilihan variabel lebih atau kurang penting daripada masalah prosedur pemilihan variabel diperkenalkan? Kapan mereka harus digunakan? Kapan mereka tidak digunakan?

Brett
sumber
Menurut pendapat saya, untuk membahas masalah dengan jelas, pertama-tama kita perlu menentukannya dengan cara yang baik dan kemudian merumuskannya dalam bentuk matematika yang sesuai sehingga kita dapat memiliki kerangka kerja di mana masalah tersebut dibahas dengan jelas. Untuk masalah pemilihan variabel, misalnya, model regresi linier. Tampaknya masuk akal untuk memperbaiki model terlebih dahulu, dan mempelajari (i) keuntungan / kerugian (misalnya, peningkatan / perburukan dalam estimasi atau prediksi) pemilihan variabel? (ii) keuntungan dari prosedur pemilihan variabel dibandingkan dengan estimasi LS?

Jawaban:

17

Pemilihan variabel (tanpa penalti) hanya memperburuk keadaan. Seleksi variabel hampir tidak memiliki peluang untuk menemukan variabel "benar", dan menghasilkan efek berlebihan dari variabel yang tersisa dan meremehkan kesalahan standar yang besar. Adalah suatu kesalahan untuk meyakini bahwa pemilihan variabel yang dilakukan dengan cara biasa membantu seseorang mengatasi masalah "besar p kecil n". Intinya adalah model terakhir menyesatkan dalam segala hal. Ini terkait dengan pernyataan mengejutkan yang saya baca di sebuah makalah epidemiologi: "Kami tidak memiliki ukuran sampel yang memadai untuk mengembangkan model multivariabel, jadi alih-alih kami melakukan semua tes yang mungkin untuk tabel 2x2."

Setiap saat dataset yang ada digunakan untuk menghilangkan variabel, sementara memanfaatkan Y untuk membuat keputusan, semua jumlah statistik akan terdistorsi. Pemilihan variabel yang khas adalah fatamorgana.

Edit : (Menyalin komentar dari bawah disembunyikan oleh flip)

L2L1L1L2Y

Frank Harrell
sumber
6
Saya pikir jawaban ini akan ditingkatkan dengan memberikan beberapa petunjuk tentang bagaimana untuk melanjutkan. Jawabannya membuat pernyataan yang sangat luas dan definitif (banyak yang saya umumnya setuju dengan) tanpa referensi ke sumber daya yang akan mendukung klaim. Tentu saja hukuman juga bukan obat mujarab, dan ada banyak pilihan yang harus dilakukan jika seseorang menempuh jalan itu.
kardinal
3
Silakan lihat di atas di mana saya memberikan informasi lebih lanjut. Cara paling singkat untuk menyatakan masalah adalah bahwa alasan utama bahwa suatu variabel "dipilih" adalah karena pengaruhnya terlalu tinggi.
Frank Harrell
2
L2L1L2
2
L2L2L1pn
2
L2
14

Pertama-tama, kerugian yang Anda sebutkan adalah efek dari pemilihan fitur yang salah , yaitu overfitted, unfinished, atau overshoot.

eYYYeY

Semua level yang relevan memberikan wawasan tentang apa yang sebenarnya mendorong proses yang diberikan, jadi miliki nilai penjelas. Level optimal minimal (sesuai desain) memberikan model non-overfitted yang bekerja pada data yang tidak berantakan sebanyak mungkin.

FS dunia nyata hanya ingin mencapai salah satu tujuan tersebut (biasanya yang terakhir).


sumber
4
Saya berasumsi Anda merujuk untuk menghapus variabel tanpa menggunakan data yang ada. Anda tidak dapat menggunakan dataset yang tersedia untuk melakukannya. Ini akan menjadi kesimpulan statistik yang tidak dapat diandalkan dan mendistorsi.
Frank Harrell
Seperti yang saya tulis, ini hanyalah landasan teoretis dari masalah (datang dari jaring Bayesian). Cara yang tepat untuk merealisasikan hal ini jelas tidak mungkin, dan saya tentu setuju bahwa pemodelan statistik telah banyak menderita dari penggunaan RFE dan hal-hal serupa tanpa berpikiran - namun pembelajaran mesin memiliki beberapa algoritma heuristik yang tentu saja tidak sia-sia (yaitu membuat pilihan dan model yang stabil yang terbukti tidak dilengkapi dalam tes yang adil).
Apa itu RFE ???????
kjetil b halvorsen
@kjetilbhalvorsen Penghapusan Fitur Rekursif
@mbq Terima kasih atas jawaban menarik Anda! Bisakah Anda memberikan referensi (buku, makalah, dll.)? Hargai balasan Anda!
Kare
10

Pemilihan variabel tentu karena sebagian besar model tidak berurusan dengan baik dengan sejumlah besar variabel yang tidak relevan. Variabel-variabel ini hanya akan memasukkan noise ke dalam model Anda, atau lebih buruk, menyebabkan Anda terlalu fit. Merupakan ide bagus untuk mengeluarkan variabel-variabel ini dari analisis.

Selain itu, Anda tidak dapat memasukkan semua variabel yang ada di setiap analisis, karena ada jumlah tak terbatas dari mereka di sana. Pada titik tertentu Anda harus menarik garis, dan ada baiknya melakukannya dengan cara yang ketat. Oleh karena itu semua diskusi tentang pemilihan variabel.

Sebagian besar masalah dengan pemilihan variabel dapat ditangani dengan validasi silang, atau dengan menggunakan model dengan hukuman bawaan dan pemilihan fitur (seperti jaring elastis untuk model linier).

Jika Anda tertarik pada beberapa hasil empiris yang terkait dengan beberapa variabel yang menyebabkan pemasangan berlebihan, periksa hasil kompetisi Don't Overfit di Kaggle.

Zach
sumber
1
Saya pikir paragraf pertama berisi kesalahpahaman yang signifikan tentang masalah tersebut. Pemilihan variabel tidak membantu masalah-masalah itu dengan cara apa pun, hanya menyembunyikannya. Seleksi variabel menghasilkan masalah overfitting yang luar biasa, meskipun seperti yang Anda sebutkan nanti ada beberapa cara untuk secara jujur ​​menghukum diri sendiri atas kerusakan yang disebabkan oleh pemilihan variabel.
Frank Harrell
3
@ Frank Harrell: bagaimana Anda memutuskan variabel mana yang akan dikecualikan dari model?
Zach
11
(1) Gunakan pengetahuan materi pelajaran sebelum melihat dataset; (2) Gunakan analisis redundansi / reduksi data yang dibutakan oleh Y; (3) Gunakan metode yang memberi penalti yang memadai untuk masalah perbandingan banyak yang disebabkan oleh pemilihan fitur (lihat di bagian lain halaman ini).
Frank Harrell