Saya telah membaca posting yang tak terhitung jumlahnya di situs ini yang sangat menentang penggunaan seleksi bertahap variabel menggunakan segala jenis kriteria apakah itu berbasis p-nilai, AIC, BIC, dll.
Saya mengerti mengapa prosedur ini secara umum, sangat buruk untuk pemilihan variabel. Pos gung yang mungkin terkenal di sini dengan jelas menggambarkan alasannya; akhirnya kami memverifikasi hipotesis pada dataset yang sama yang kami gunakan untuk menghasilkan hipotesis, yang hanya pengerukan data. Selain itu, nilai-p dipengaruhi oleh jumlah seperti collinearity dan outlier, yang hasilnya sangat miring, dll.
Namun, saya telah mempelajari peramalan time series sedikit belakangan ini dan telah menemukan buku pelajaran Hyndman yang sangat dihormati di mana ia menyebutkan di sini penggunaan seleksi bertahap untuk menemukan urutan optimal model ARIMA pada khususnya. Bahkan, dalam forecast
paket di R algoritma terkenal yang dikenal sebagai auto.arima
default menggunakan seleksi bertahap (dengan AIC, bukan p-nilai). Dia juga mengkritik pemilihan fitur berdasarkan nilai-p yang selaras dengan banyak posting di situs web ini.
Pada akhirnya, kita harus selalu memvalidasi lintas dalam beberapa cara di akhir jika tujuannya adalah untuk mengembangkan model yang baik untuk perkiraan / prediksi. Namun, tentunya ini agak tidak setuju di sini ketika datang ke prosedur itu sendiri untuk metrik evaluasi selain dari p-nilai.
Apakah ada yang punya pendapat tentang penggunaan AIC bertahap dalam konteks ini, tetapi juga secara umum di luar konteks ini? Saya telah diajari untuk meyakini bahwa seleksi bertahap apa pun adalah buruk, tetapi jujur saja, auto.arima(stepwise = TRUE)
telah memberi saya hasil sampel yang lebih baik daripada auto.arima(stepwise = FALSE)
tetapi mungkin ini hanya kebetulan.
Jawaban:
Ada beberapa masalah berbeda di sini.
Intinya: untuk data berukuran sedang dengan rasio signal-to-noise yang masuk akal, seleksi bertahap berbasis AIC memang dapat menghasilkan model prediksi yang dapat dipertahankan ; lihat Murtaugh (2009) untuk contoh.
Murtaugh, Paul A. "Kinerja beberapa metode pemilihan variabel diterapkan pada data ekologis nyata." Surat ekologi 12, no. 10 (2009): 1061-1068.
sumber