Saya telah menjadi semacam nihilis ketika datang ke peringkat tingkat kepentingan variabel (dalam konteks model multivarian dari semua jenis).
Seringkali dalam perjalanan pekerjaan saya, saya diminta untuk membantu tim lain menghasilkan peringkat kepentingan variabel, atau menghasilkan peringkat kepentingan variabel dari pekerjaan saya sendiri. Menanggapi permintaan ini, saya mengajukan pertanyaan berikut
Apa yang Anda inginkan dari peringkat kepentingan variabel ini? Apa yang ingin Anda pelajari darinya? Keputusan apa yang ingin Anda gunakan?
Jawaban yang saya terima hampir selalu termasuk dalam salah satu dari dua kategori
- Saya ingin mengetahui pentingnya berbagai variabel dalam model saya dalam memprediksi respons.
- Saya ingin menggunakannya untuk pemilihan fitur, dengan menghapus variabel penting rendah.
Tanggapan pertama adalah tautologis (saya ingin peringkat kepentingan variabel karena saya ingin peringkat kepentingan variabel). Saya harus berasumsi bahwa peringkat ini memenuhi kebutuhan psikologis ketika mengkonsumsi output dari model multivariat. Saya mengalami kesulitan memahami hal ini, karena memeringkat variabel "kepentingan" secara individual tampaknya secara implisit menolak sifat multi-dimensi dari model yang bersangkutan.
Respons kedua pada dasarnya mereduksi menjadi versi informal seleksi mundur , dosa-dosa statistik yang didokumentasikan dengan baik di bagian lain dari CrossValidated.
Saya juga berjuang dengan sifat peringkat kepentingan yang tidak jelas. Tampaknya ada sedikit kesepakatan tentang apa konsep dasar peringkat harus mengukur, memberi mereka rasa yang sangat ad hoc. Ada banyak cara untuk menetapkan skor atau peringkat penting, dan mereka umumnya menderita kekurangan dan peringatan:
- Mereka bisa sangat tergantung algoritma, seperti dalam peringkat pentingnya di hutan dan gbms acak.
- Mereka dapat memiliki varians yang sangat tinggi, berubah secara drastis dengan gangguan pada data yang mendasarinya.
- Mereka dapat sangat menderita dari korelasi dalam input prediksi.
Jadi, dengan semua yang dikatakan, pertanyaan saya adalah, apa saja yang menggunakan statistik peringkat kepentingan variabel valid, atau, apa argumen yang meyakinkan (baik untuk ahli statistik atau awam) untuk kesia-siaan keinginan seperti itu? Saya tertarik pada argumen teoretis umum dan studi kasus, mana yang lebih efektif dalam mengemukakan hal itu.
sumber
glmnet
tersedia?Jawaban:
Saya berpendapat bahwa kepentingan variabel adalah konsep yang licin , seperti yang diajukan pertanyaan ini. Jenis respons tautologis pertama yang Anda dapatkan untuk pertanyaan Anda dan harapan yang tidak realistis dari mereka yang akan menafsirkan hasil variabel-penting dalam hal kausalitas, seperti dicatat oleh @DexGroves, perlu sedikit elaborasi.
Namun adil bagi mereka yang akan menggunakan seleksi mundur, bahkan Frank Harrell mengizinkannya sebagai bagian dari strategi pemodelan. Dari halaman 97 dari Strategi Pemodelan Regresi- nya , edisi ke-2 (pernyataan serupa ada di halaman 131 dari catatan kursus terkait ):
Namun, potensi penggunaan terbatas seleksi mundur ini adalah langkah 13, langkah terakhir sebelum model akhir (langkah 14). Itu muncul setelah langkah-langkah penting pertama:
Dalam pengalaman saya, orang sering ingin melewati langkah 2, dan membiarkan beberapa prosedur otomatis menggantikan aplikasi cerdas pengetahuan materi pelajaran. Ini dapat menyebabkan beberapa penekanan ditempatkan pada kepentingan variabel.
Model lengkap dari langkah 14 Harrell diikuti oleh 5 langkah selanjutnya untuk validasi dan penyesuaian, dengan langkah terakhir:
Seperti jawaban lain telah dicatat, ada masalah aksi, biaya, dan kesederhanaan yang masuk ke dalam aplikasi praktis hasil pemodelan. Sebagai contoh, jika saya mengembangkan biomarker kanker baru yang meningkatkan prognostikasi tetapi biayanya $ 100.000 per tes, mungkin sulit untuk meyakinkan perusahaan asuransi atau pemerintah untuk membayar tes kecuali itu sangat berguna. Jadi tidak masuk akal bagi seseorang untuk ingin fokus pada variabel yang "paling penting," atau untuk menyederhanakan model yang akurat menjadi sesuatu yang agak kurang akurat tetapi lebih mudah atau lebih murah untuk diterapkan.
Tetapi pemilihan variabel dan penyederhanaan model ini harus untuk tujuan tertentu , dan saya pikir di situlah kesulitan muncul. Masalahnya serupa dengan menilai skema klasifikasi semata-mata berdasarkan pada persen kasus yang diklasifikasikan dengan benar. Sama seperti kesalahan klasifikasi yang berbeda dapat memiliki biaya yang berbeda, skema penyederhanaan model yang berbeda dapat memiliki biaya yang berbeda yang seimbang dengan manfaat yang diharapkan.
Jadi saya pikir masalah yang menjadi fokus analis adalah kemampuan memperkirakan dan mengilustrasikan biaya dan manfaat ini secara andal dengan prosedur pemodelan statistik, daripada terlalu mengkhawatirkan konsep abstrak validitas statistik per se. Sebagai contoh, halaman 157-8 dari catatan kelas Harrell yang ditautkan di atas memiliki contoh menggunakan bootstrap untuk menunjukkan keanehan prediktor peringkat dalam kuadrat terkecil; hasil serupa dapat ditemukan untuk set variabel yang dipilih oleh LASSO.
Jika jenis variabilitas dalam pemilihan variabel tidak menghalangi aplikasi praktis tertentu dari model itu OK. Tugasnya adalah memperkirakan berapa banyak dan jenis masalah yang akan menyebabkan penyederhanaan.
sumber
Ini sepenuhnya anekdotal, tetapi saya telah menemukan pentingnya variabel berguna dalam mengidentifikasi kesalahan atau kelemahan dalam GBM.
Variabel kepentingan memberi Anda gambaran cross-sectional besar model yang akan sulit untuk mendapatkan sebaliknya. Variabel yang lebih tinggi dalam daftar melihat lebih banyak aktivitas (apakah mereka lebih 'penting' atau tidak adalah pertanyaan lain). Seringkali prediktor yang berperilaku buruk (misalnya sesuatu yang berpandangan ke depan, atau faktor kardinalitas tinggi) akan meningkat ke puncak.
Jika ada perbedaan besar antara kepentingan variabel intuisi dan pentingnya variabel GBM, biasanya ada beberapa pengetahuan berharga yang bisa diperoleh atau kesalahan yang bisa ditemukan.
Saya akan menambahkan jawaban ketiga untuk "mengapa Anda meminta saya untuk ini?" pertanyaan, yaitu "karena saya ingin memahami apa yang menyebabkan respons saya". Eep.
sumber
Peringkat kepentingan variabel memiliki peran yang pasti dalam dunia bisnis terapan setiap kali ada kebutuhan untuk memprioritaskan jumlah input yang berpotensi besar untuk suatu proses, proses apa pun. Informasi ini memberikan arahan dalam hal strategi yang terfokus untuk menyerang suatu masalah, bekerja dari yang paling penting hingga yang paling tidak penting, misalnya, pengurangan biaya proses, mengingat bahwa variabel-variabel tersebut leveragable dan tidak tetap atau faktor struktural yang kebal terhadap manipulasi. Pada akhirnya, ini akan menghasilkan semacam tes A / B.
Namun, menurut Anda, Matt, dan seperti peringkat ordinal apa pun, nuansa minor atau perbedaan antara variabel dapat bersifat ambigu atau dikaburkan, melemahkan kegunaannya.
sumber
Saya sepenuhnya setuju dengan Anda dalam sudut pandang teoretis. Tetapi dalam sudut pandang praktis, kepentingan variabel sangat berguna.
Mari kita ambil contoh di mana perusahaan asuransi ingin mengurangi jumlah pertanyaan dalam kuesioner yang mengukur risiko klien mereka. Semakin rumit kuesioner, semakin kecil kemungkinan klien membeli produk mereka. Untuk alasan itu, mereka ingin mengurangi pertanyaan yang kurang berguna ketika mempertahankan tingkat kuantifikasi risiko. Solusinya adalah sering menggunakan variabel penting untuk menentukan pertanyaan mana yang dihapus dari kuesioner (dan memiliki "kurang lebih" prediksi yang sama tentang profil risiko prospek).
sumber