Untuk pemilihan prediktor dalam regresi linier multivariat dengan prediktor yang cocok, apa metode yang tersedia untuk menemukan 'optimal' subset dari prediktor tanpa secara eksplisit menguji semua 2 p subset? Dalam 'Analisis Kelangsungan Hidup Terapan,' Hosmer & Lemeshow membuat referensi ke metode Kuk, tetapi saya tidak dapat menemukan kertas aslinya. Adakah yang bisa menggambarkan metode ini, atau, bahkan lebih baik, teknik yang lebih modern? Seseorang dapat mengasumsikan kesalahan yang didistribusikan secara normal.
9
penalized
paket R), j.mp/cooIT3 . Mungkin yang ini juga, j.mp/bkDQUj . CheersJawaban:
Saya belum pernah mendengar metode Kuk, tapi topik hangat hari ini adalah minimisasi L1. Alasannya adalah bahwa jika Anda menggunakan istilah hukuman dari nilai absolut dari koefisien regresi, yang tidak penting harus menjadi nol.
Teknik-teknik ini memiliki beberapa nama lucu: Lasso, LARS, pemilih Dantzig. Anda dapat membaca makalah, tetapi tempat yang baik untuk memulai adalah dengan Elemen Pembelajaran Statistik , Bab 3.
sumber
Ini adalah topik besar. Seperti yang disebutkan sebelumnya, Hastie, Tibshirani, dan Friedman memberikan intro yang baik dalam Ch3 dari Elemen Pembelajaran Statistik.
Beberapa poin. 1) Apa yang Anda maksud dengan "terbaik" atau "optimal"? Apa yang terbaik di satu sisi mungkin tidak terbaik di yang lain. Dua kriteria umum adalah akurasi prediksi (memprediksi variabel hasil) dan menghasilkan penaksir yang tidak bias dari koefisien. Beberapa metode, seperti Lasso & Ridge Regression pasti menghasilkan estimasi estimator yang bias.
2) Ungkapan "himpunan bagian terbaik" itu sendiri dapat digunakan dalam dua pengertian yang terpisah. Secara umum merujuk pada subset terbaik di antara semua prediktor yang mengoptimalkan beberapa kriteria pembangunan model. Lebih khusus itu dapat merujuk pada algoritma efisien Furnival dan Wilson untuk menemukan bahwa subset di antara jumlah prediktor linier (~ 50) moderat (Regresi oleh Leaps dan Bound. Technometrics, Vol. 16, No. 4 (November, 1974), hlm. 499-51)
http://www.jstor.org/stable/1267601
sumber
Apa yang saya pelajari adalah yang pertama kali menggunakan Pendekatan Subsets Terbaik sebagai alat skrining, kemudian prosedur seleksi bertahap dapat membantu Anda akhirnya memutuskan model mana yang mungkin merupakan model subset terbaik (saat ini jumlah model tersebut cukup kecil untuk ditangani). Jika salah satu model memenuhi kondisi model, lakukan pekerjaan yang baik untuk merangkum tren dalam data, dan yang paling penting memungkinkan Anda untuk menjawab pertanyaan penelitian Anda, maka selamat pekerjaan Anda selesai.
sumber