Saya mengerti beberapa dari banyak masalah regresi bertahap. Namun, sebagai upaya akademis, anggap saya ingin menggunakan regresi bertahap untuk model prediksi, dan saya ingin lebih memahami dampak yang mungkin ditimbulkan terhadap kinerja.
Diberikan model linier, misalnya, apakah melakukan regresi bertahap pada model cenderung meningkatkan atau menurunkan daya prediksi model ketika disajikan dengan data baru?
Apakah ada dampak teoretis yang dimiliki regresi bertahap terhadap kemampuan prediktif?
Pengalaman praktis akan sangat membantu juga; mungkin situasi ketika regresi bertahap meningkatkan prediksi, dan ketika tidak.
regression
predictive-models
stepwise-regression
Underminer
sumber
sumber
Jawaban:
Ada berbagai masalah dengan pemilihan bertahap. Saya membahas secara bertahap dalam jawaban saya di sini: Algoritma untuk pemilihan model otomatis . Dalam jawaban itu, saya terutama tidak fokus pada masalah dengan inferensi, tetapi pada kenyataan bahwa koefisien bias (atlet yang mencoba analog dengan variabel). Karena koefisien bias jauh dari nilai sebenarnya, kesalahan prediksi sampel harus diperbesar, ceteris paribus.
Pertimbangkan gagasan trade-off bias-varians . Jika Anda menganggap keakuratan model Anda sebagai varian dari kesalahan prediksi (mis., MSE:1/n∑(yi−y^i)2 ), kesalahan prediksi yang diharapkan adalah jumlah dari tiga sumber ragam yang berbeda:
Ketiga istilah ini adalah varian dari estimasi fungsi Anda, kuadrat bias estimasi , dan kesalahan yang tidak dapat direduksi dalam proses pembuatan data, masing-masing. (Yang terakhir ada karena data tidak deterministik-Anda tidak akan pernah mendapatkan prediksi yang lebih dekat daripada rata-rata.) Yang dua berasal dari prosedur yang digunakan untuk memperkirakan model Anda. Secara default, kami mungkin berpikir OLS adalah prosedur yang digunakan untuk memperkirakan model, tetapi lebih tepat untuk mengatakan bahwa pemilihan bertahap atas perkiraan OLS
Dengan ide-ide itu dalam pikiran, inti dari jawaban saya yang terkait di atas adalah bahwa banyak bias diinduksi. Semua hal dianggap sama, yang akan membuat prediksi sampel menjadi lebih buruk. Sayangnya, pemilihan bertahap tidak mengurangi varian estimasi. Paling-paling, variansnya sama, tetapi kemungkinan besar akan membuat variansnya lebih buruk juga (misalnya, @Glen_b melaporkan hanya 15,5% dari waktu yang merupakan variabel yang tepat bahkan dipilih dalam studi simulasi yang dibahas di sini: Mengapa nilai-p menyesatkan setelah melakukan seleksi bertahap? ).
sumber
Efek pastinya akan tergantung pada model dan "kebenaran" yang, tentu saja, kita tidak tahu. Anda dapat melihat efek langkah demi langkah dalam kasus tertentu dengan memvalidasi silang atau menggunakan pendekatan uji coba kereta sederhana.
sumber