Setelah membaca Galit Shmueli "To Explain or to Predict" (2010) saya bingung dengan kontradiksi yang nyata. Ada tiga tempat,
- Pilihan model berbasis AIC- dibandingkan BIC (akhir hal. 300 - awal hal. 301): sederhananya, AIC harus digunakan untuk memilih model yang dimaksudkan untuk prediksi sedangkan BIC harus digunakan untuk memilih model untuk penjelasan . Selain itu (tidak dalam makalah di atas), kita tahu bahwa dalam beberapa kondisi BIC memilih model sebenarnya di antara set model kandidat; model yang sebenarnya adalah apa yang kita cari dalam pemodelan penjelasan (akhir dari hal. 293).
- Aritmatika sederhana: AIC akan memilih model yang lebih besar daripada BIC untuk sampel berukuran 8 atau lebih besar (memuaskan karena penalti kompleksitas yang berbeda dalam AIC versus BIC).
- Model "benar" (yaitu model dengan regresi yang benar dan bentuk fungsional yang tepat tetapi koefisien estimasi tidak sempurna) mungkin bukan model terbaik untuk prediksi (hal. 307): model regresi dengan prediktor yang hilang mungkin merupakan model peramalan yang lebih baik - pengenalan bias karena prediktor yang hilang dapat dikalahkan oleh pengurangan varian karena estimasi yang tidak tepat.
Poin 1. dan 2. menunjukkan bahwa model yang lebih besar mungkin lebih baik untuk prediksi daripada model yang lebih pelit. Sementara itu, poin 3. memberikan contoh yang berlawanan di mana model yang lebih pelit lebih baik untuk prediksi daripada model yang lebih besar. Saya menemukan ini membingungkan.
Pertanyaan:
- Bagaimana kontradiksi yang tampak antara poin {1. dan 2.} dan 3. dijelaskan / diselesaikan?
- Dalam terang poin 3., dapatkah Anda memberikan penjelasan intuitif mengapa dan bagaimana model yang lebih besar yang dipilih oleh AIC sebenarnya lebih baik untuk prediksi daripada model yang lebih pelit yang dipilih oleh BIC?
forecasting
model-selection
feature-selection
aic
bic
Richard Hardy
sumber
sumber
Jawaban:
Mereka tidak boleh diambil dalam konteks yang sama; poin 1 dan 2 memiliki konteks yang berbeda. Untuk AIC dan BIC yang pertama mengeksplorasi kombinasi parameter di mana nomor menghasilkan indeks terbaik (Beberapa penulis memiliki kecocokan epilepsi ketika saya menggunakan kata indekspada konteks ini. Abaikan mereka, atau cari indeks dalam kamus.) Dalam poin 2, AIC adalah model yang lebih kaya, di mana lebih kaya berarti memilih model dengan lebih banyak parameter, hanya kadang-kadang, karena sering model AIC yang optimal adalah jumlah parameter yang sama dengan model BIC. pilihan. Artinya, jika AIC dan BIC memilih model yang memiliki jumlah parameter SAMA maka klaimnya adalah bahwa AIC akan lebih baik untuk prediksi daripada BIC. Namun, kebalikannya dapat terjadi jika BIC memaksimalkan dengan model parameter yang lebih sedikit dipilih (tetapi tidak ada jaminan). Sober (2002) menyimpulkan bahwa AIC mengukur akurasi prediksi sementara BIC mengukur goodness of fit, di mana akurasi prediksi dapat berarti memprediksi y di luar kisaran nilai ekstrim x. Ketika di luar, sering AIC yang kurang optimal memiliki parameter prediksi lemah turun akan lebih baik memprediksi nilai ekstrapolasi dari indeks AIC optimal dari lebih banyak parameter dalam model yang dipilih. Saya perhatikan secara sepintas bahwa AIC dan ML tidak meniadakan kebutuhan untuk pengujian kesalahan ekstrapolasi, yang merupakan tes terpisah untuk model. Ini dapat dilakukan dengan menahan nilai-nilai ekstrem dari set "pelatihan" dan menghitung kesalahan antara model "pasca-pelatihan" yang diekstrapolasi dan data yang ditahan.
Poin 3 adalah pernyataan terkadang dalam beberapa kondisi
ketika prediktor sangat berkorelasi; dan
ketika ukuran sampel kecil atau kisaran variabel kiri kecil.
Saya akan segera menunjukkan bahwa pernyataan ini optimis. Biasanya, model salah, dan seringkali model yang lebih baik akan menegakkan norma yang tidak dapat digunakan dengan AIC atau BIC, atau struktur residu yang salah diasumsikan untuk penerapannya, dan diperlukan langkah-langkah alternatif. Dalam pekerjaan saya, ini selalu terjadi.
sumber