Regresi bertahap telah digunakan secara berlebihan dalam banyak makalah biomedis di masa lalu tetapi ini tampaknya membaik dengan pendidikan yang lebih baik dari banyak masalah. Namun banyak pengulas yang lebih tua masih memintanya. Bagaimana keadaan di mana regresi bertahap memiliki peran dan harus digunakan, jika ada?
regression
multiple-regression
feature-selection
model-selection
stepwise-regression
bobmcpop
sumber
sumber
Jawaban:
Saya tidak mengetahui situasi, di mana regresi bertahap akan menjadi pendekatan yang disukai. Mungkin oke (terutama dalam versi step-down mulai dari model penuh) dengan bootstrap seluruh proses bertahap pada dataset yang sangat besar dengan . Di sini adalah jumlah pengamatan dalam hasil yang berkelanjutan (atau jumlah catatan dengan kejadian dalam analisis survival) adalah jumlah kandidat prediktor termasuk semua interaksi yang dipertimbangkan - yaitu ketika setiap efek kecil sekalipun menjadi sangat jelas dan tidak masalah jadi berapa banyak yang Anda lakukan, membangun model Anda (itu berarti akan jauh lebih besar dari daripada secara substansial lebih dari faktor yang dikutip kadang-kadang dari 20).n p n pn > > p n hal n hal
Tentu saja alasan kebanyakan orang tergoda untuk melakukan sesuatu seperti regresi bertahap adalah,
Yaitu metode seperti regresi bertahap (jika memiliki karakteristik operasi yang baik) sangat menarik dalam situasi tersebut, ketika tidak memiliki karakteristik operasi yang baik.
sumber
Dua kasus di mana saya tidak keberatan melihat regresi langkah-bijaksana adalah
Dalam kedua kasus penggunaan yang sangat penting ini, Anda tidak begitu peduli tentang inferensi statistik tradisional, sehingga fakta bahwa nilai-p, dll., Tidak lagi valid tidak menjadi masalah.
Sebagai contoh, jika sebuah makalah penelitian mengatakan "Dalam studi percontohan kami, kami menggunakan regresi bertahap untuk menemukan 3 variabel menarik dari 1000. Dalam penelitian lanjutan dengan data baru, kami menunjukkan 3 variabel menarik ini sangat berkorelasi dengan hasil yang menarik ", saya tidak akan memiliki masalah dengan penggunaan regresi bertahap. Demikian pula, "Kami menggunakan regresi langkah-bijaksana untuk membangun model prediktif. Model X out-preformed ini dalam set data hold-out kami mengenai MSE" juga benar-benar baik untuk saya.
Untuk lebih jelasnya, saya tidak mengatakan bahwa regresi bertahap adalah cara terbaik untuk mendekati masalah ini. Tapi itu mudah dan mungkin memberi Anda solusi yang memuaskan.
EDIT:
Dalam komentar, ada pertanyaan apakah AIC bertahap dapat benar-benar berguna untuk prediksi. Berikut ini adalah simulasi yang menunjukkan bahwa kinerjanya jauh lebih baik daripada regresi linier dengan semua kovariat, dan hampir juga jaring elastis dengan penalti yang dipilih melalui validasi silang.
Saya tidak akan mengambil simulasi ini sebagai akhir dari diskusi; tidak terlalu sulit untuk membuat skenario di mana AIC langkah-bijaksana akan terbentuk lebih buruk. Tapi itu benar-benar bukan skenario yang tidak masuk akal, dan persis jenis situasi yang dirancang untuk jaring elastis (korelasi tinggi kovariat dengan efek sangat sedikit)!
Catatan:
Saya benar-benar bukan penggemar regresi bertahap karena banyak alasan, jadi saya merasa agak canggung mengambil sikap ini untuk mempertahankannya. Tapi saya hanya berpikir penting untuk menjelaskan dengan tepat apa yang tidak saya sukai.
sumber