Apakah teknik regresi bertahap meningkatkan daya prediksi model?

8

Saya mengerti beberapa dari banyak masalah regresi bertahap. Namun, sebagai upaya akademis, anggap saya ingin menggunakan regresi bertahap untuk model prediksi, dan saya ingin lebih memahami dampak yang mungkin ditimbulkan terhadap kinerja.

Diberikan model linier, misalnya, apakah melakukan regresi bertahap pada model cenderung meningkatkan atau menurunkan daya prediksi model ketika disajikan dengan data baru?

Apakah ada dampak teoretis yang dimiliki regresi bertahap terhadap kemampuan prediktif?

Pengalaman praktis akan sangat membantu juga; mungkin situasi ketika regresi bertahap meningkatkan prediksi, dan ketika tidak.

Underminer
sumber
8
Saya tidak mengerti: Anda mulai dengan meminta kami mengabaikan masalah - yang mencakup masalah dengan kekuatan prediksi - dan kemudian Anda bertanya apakah ada masalah seperti itu! Mengapa tidak mencari jawaban di situs kami? Salah satu yang populer adalah di stats.stackexchange.com/questions/20836 .
whuber
3
Saya ingin fokus pada masalah seputar daya prediksi (bukan nilai-p, bias koefisien, dll.). Berdasarkan umpan balik Anda, saya akan membuat frasa pertanyaan saya kurang ambigu. Pencarian saya pada situs ini belum menghasilkan jawaban yang spesifik untuk kinerja prediktif model penuh, vs model yang dikurangi bertahap.
Underminer
1
Apakah "mengabaikan masalah ..." termasuk mengabaikan alternatif yang lebih baik, bahkan dalam fokus pada kekuatan prediksi?
Matthew Drury
@ MatthewDrury Saya terutama tertarik pada efek regresi bertahap. Yang sedang berkata, saya pasti akan tertarik pada hasil dari metode otomatis serupa.
Underminer
Dalam tiga paragraf terakhir, ada tiga hal yang berbeda? Apa masalah atau tujuan yang ingin Anda selesaikan?
Subhash C. Davar

Jawaban:

7

Ada berbagai masalah dengan pemilihan bertahap. Saya membahas secara bertahap dalam jawaban saya di sini: Algoritma untuk pemilihan model otomatis . Dalam jawaban itu, saya terutama tidak fokus pada masalah dengan inferensi, tetapi pada kenyataan bahwa koefisien bias (atlet yang mencoba analog dengan variabel). Karena koefisien bias jauh dari nilai sebenarnya, kesalahan prediksi sampel harus diperbesar, ceteris paribus.

Pertimbangkan gagasan trade-off bias-varians . Jika Anda menganggap keakuratan model Anda sebagai varian dari kesalahan prediksi (mis., MSE:1/n(yiy^i)2), kesalahan prediksi yang diharapkan adalah jumlah dari tiga sumber ragam yang berbeda: Ketiga istilah ini adalah varian dari estimasi fungsi Anda, kuadrat bias estimasi , dan kesalahan yang tidak dapat direduksi dalam proses pembuatan data, masing-masing. (Yang terakhir ada karena data tidak deterministik-Anda tidak akan pernah mendapatkan prediksi yang lebih dekat daripada rata-rata.) Yang dua berasal dari prosedur yang digunakan untuk memperkirakan model Anda. Secara default, kami mungkin berpikir OLS adalah prosedur yang digunakan untuk memperkirakan model, tetapi lebih tepat untuk mengatakan bahwa pemilihan bertahap atas perkiraan OLS

E[(yiy^i)2]=Var(f^)+[Bias(f^)]2+Var(ε)
adalah prosedurnya. Gagasan trade-off bias-varians adalah bahwa sementara model penjelas dengan tepat menekankan ketidakberpihakan, model prediktif dapat mengambil manfaat dari menggunakan prosedur bias jika varians cukup dikurangi (untuk penjelasan lebih lengkap, lihat: Masalah apa yang dilakukan metode penyusutan menyelesaikan ? ).

Dengan ide-ide itu dalam pikiran, inti dari jawaban saya yang terkait di atas adalah bahwa banyak bias diinduksi. Semua hal dianggap sama, yang akan membuat prediksi sampel menjadi lebih buruk. Sayangnya, pemilihan bertahap tidak mengurangi varian estimasi. Paling-paling, variansnya sama, tetapi kemungkinan besar akan membuat variansnya lebih buruk juga (misalnya, @Glen_b melaporkan hanya 15,5% dari waktu yang merupakan variabel yang tepat bahkan dipilih dalam studi simulasi yang dibahas di sini: Mengapa nilai-p menyesatkan setelah melakukan seleksi bertahap? ).

gung - Pasang kembali Monica
sumber
3
Saya benci menjadi orang yang membela regresi bertahap ... tapi saya tidak berpikir itu benar-benar universal kasus bahwa AIC bertahap akan menyebabkan prediksi yang lebih buruk daripada memasukkan semua kovariat tanpa penalti, terutama jika tidak ada . Lihat di sini untuk simulasi di mana stepAIC melakukan banyak hal, jauh lebih baik daripada menghubungkan semua kovariat. np
Cliff AB
2
Terima kasih, @CliffAB. Saya membenarkan hal itu sejak lama, tetapi saya telah melupakannya. Jawaban substantif Anda menunjukkan bahwa model EDA layak dianggap serius setelah replikasi pada sampel baru, & model prediksi Anda layak ditanggapi dengan serius setelah memvalidasinya terhadap data penahan. Saya setuju dengan keduanya. Saya akan mengakui bahwa stepwise bekerja lebih baik dalam simulasi Anda, tetapi saya yakin Anda setuju bahwa situasinya dibuat dengan sempit untuk mendukungnya.
gung - Reinstate Monica
0

Efek pastinya akan tergantung pada model dan "kebenaran" yang, tentu saja, kita tidak tahu. Anda dapat melihat efek langkah demi langkah dalam kasus tertentu dengan memvalidasi silang atau menggunakan pendekatan uji coba kereta sederhana.

Peter Flom
sumber