Paradoks dalam pemilihan model (AIC, BIC, untuk menjelaskan atau memprediksi?)

Setelah membaca Galit Shmueli "To Explain or to Predict" (2010) saya bingung dengan kontradiksi yang nyata. Ada tiga tempat,

Pilihan model berbasis AIC- dibandingkan BIC (akhir hal. 300 - awal hal. 301): sederhananya, AIC harus digunakan untuk memilih model yang dimaksudkan untuk prediksi sedangkan BIC harus digunakan untuk memilih model untuk penjelasan . Selain itu (tidak dalam makalah di atas), kita tahu bahwa dalam beberapa kondisi BIC memilih model sebenarnya di antara set model kandidat; model yang sebenarnya adalah apa yang kita cari dalam pemodelan penjelasan (akhir dari hal. 293).
Aritmatika sederhana: AIC akan memilih model yang lebih besar daripada BIC untuk sampel berukuran 8 atau lebih besar (memuaskan $\text{ln}(n)>2$ karena penalti kompleksitas yang berbeda dalam AIC versus BIC).
Model "benar" (yaitu model dengan regresi yang benar dan bentuk fungsional yang tepat tetapi koefisien estimasi tidak sempurna) mungkin bukan model terbaik untuk prediksi (hal. 307): model regresi dengan prediktor yang hilang mungkin merupakan model peramalan yang lebih baik - pengenalan bias karena prediktor yang hilang dapat dikalahkan oleh pengurangan varian karena estimasi yang tidak tepat.

Poin 1. dan 2. menunjukkan bahwa model yang lebih besar mungkin lebih baik untuk prediksi daripada model yang lebih pelit. Sementara itu, poin 3. memberikan contoh yang berlawanan di mana model yang lebih pelit lebih baik untuk prediksi daripada model yang lebih besar. Saya menemukan ini membingungkan.

Pertanyaan:

Bagaimana kontradiksi yang tampak antara poin {1. dan 2.} dan 3. dijelaskan / diselesaikan?
Dalam terang poin 3., dapatkah Anda memberikan penjelasan intuitif mengapa dan bagaimana model yang lebih besar yang dipilih oleh AIC sebenarnya lebih baik untuk prediksi daripada model yang lebih pelit yang dipilih oleh BIC?

forecasting model-selection feature-selection aic bic Richard Hardy
sumber

Saya tidak mendapatkan paradoks / kontradiksi. AIC efisien (asimtotik meminimalkan kesalahan prediksi yang diharapkan) dan BIC konsisten (asimtotik memilih urutan sebenarnya). Butir 3) mengatakan bahwa bias mungkin dikalahkan oleh varian. Jelas tidak ada jaminan bahwa yang satu lebih baik daripada yang lain dalam sampel tertentu. Jadi "paradoks" Anda tampaknya adalah bahwa untuk sampel yang diberikan, AIC mungkin bukan yang terbaik untuk prediksi, yang tidak mengejutkan. Untuk Q2 Anda: jika peningkatan bias yang disebabkan oleh model BIC yang lebih kecil lebih besar daripada peningkatan varians dalam AIC yang lebih besar, AIC lebih baik.

hejseb

Saya menyarankan agar Anda melihat bab-bab pertama dalam "Pemilihan Model dan Model Averaging" oleh Nils Hjort dan Gerda Claeskens, mungkin itu akan menjelaskan semuanya.

hejseb

Mereka tidak boleh diambil dalam konteks yang sama; poin 1 dan 2 memiliki konteks yang berbeda. Untuk AIC dan BIC yang pertama mengeksplorasi kombinasi parameter di mana nomor menghasilkan indeks terbaik (Beberapa penulis memiliki kecocokan epilepsi ketika saya menggunakan kata indekspada konteks ini. Abaikan mereka, atau cari indeks dalam kamus.) Dalam poin 2, AIC adalah model yang lebih kaya, di mana lebih kaya berarti memilih model dengan lebih banyak parameter, hanya kadang-kadang, karena sering model AIC yang optimal adalah jumlah parameter yang sama dengan model BIC. pilihan. Artinya, jika AIC dan BIC memilih model yang memiliki jumlah parameter SAMA maka klaimnya adalah bahwa AIC akan lebih baik untuk prediksi daripada BIC. Namun, kebalikannya dapat terjadi jika BIC memaksimalkan dengan model parameter yang lebih sedikit dipilih (tetapi tidak ada jaminan). Sober (2002) menyimpulkan bahwa AIC mengukur akurasi prediksi sementara BIC mengukur goodness of fit, di mana akurasi prediksi dapat berarti memprediksi y di luar kisaran nilai ekstrim x. Ketika di luar, sering AIC yang kurang optimal memiliki parameter prediksi lemah turun akan lebih baik memprediksi nilai ekstrapolasi dari indeks AIC optimal dari lebih banyak parameter dalam model yang dipilih. Saya perhatikan secara sepintas bahwa AIC dan ML tidak meniadakan kebutuhan untuk pengujian kesalahan ekstrapolasi, yang merupakan tes terpisah untuk model. Ini dapat dilakukan dengan menahan nilai-nilai ekstrem dari set "pelatihan" dan menghitung kesalahan antara model "pasca-pelatihan" yang diekstrapolasi dan data yang ditahan.

$f(x)-y$ residu (pikirkan residu lebih negatif di satu sisi dan residu lebih positif di sisi lain) sehingga mengurangi kesalahan total. Jadi dalam hal ini kami meminta nilai y terbaik diberikan nilai x, dan untuk AIC kami lebih dekat meminta hubungan fungsional terbaik antara x dan y. Salah satu perbedaan antara ini adalah, misalnya, bahwa BIC, pilihan parameter lainnya sama, akan memiliki koefisien korelasi yang lebih baik antara model dan data, dan AIC akan memiliki kesalahan ekstrapolasi yang lebih baik diukur sebagai kesalahan nilai-y untuk nilai x ekstrapolasi yang diberikan.

Poin 3 adalah pernyataan terkadang dalam beberapa kondisi

$σ$
$β_2$
ketika prediktor sangat berkorelasi; dan
ketika ukuran sampel kecil atau kisaran variabel kiri kecil.

$^2$ $^2$ $^2$ $^2$

Saya akan segera menunjukkan bahwa pernyataan ini optimis. Biasanya, model salah, dan seringkali model yang lebih baik akan menegakkan norma yang tidak dapat digunakan dengan AIC atau BIC, atau struktur residu yang salah diasumsikan untuk penerapannya, dan diperlukan langkah-langkah alternatif. Dalam pekerjaan saya, ini selalu terjadi.

Carl
sumber

Saya tidak yakin Anda menjawab pertanyaan. Saya menyadari keterbatasan umum kriteria informasi, tetapi bukan itu yang saya tanyakan. Selain itu, saya tidak mengerti maksud Anda jika AIC dan BIC memiliki jumlah parameter SAMA maka klaimnya adalah bahwa AIC akan lebih baik untuk prediksi daripada BIC . Ketika model alternatif memiliki jumlah parameter yang sama, perbandingan AIC dan BIC bermuara pada untuk membandingkan kemungkinan, dan AIC dan BIC akan memilih alternatif yang sama. Bisakah Anda juga menguraikan apa yang Anda maksudkan dengan model yang lebih baik akan menegakkan norma yang tidak dapat digunakan dengan AIC atau BIC ?

Richard Hardy

Lanjutan: Selama kita memiliki kemungkinan dan tingkat kebebasan, kita dapat menghitung AIC dan BIC.

Richard Hardy

@RichardHardy Benar: Selama kita memiliki kemungkinan dan derajat kebebasan, kita dapat menghitung AIC dan BIC. Namun, perhitungan akan menjadi kurang optimal dan menyesatkan jika residu adalah Student's-T dan kami belum menggunakan AIC dan BIC untuk Student's-T. Tidak seperti Student's-T, ada distribusi residu yang MLnya mungkin tidak dipublikasikan, misalnya Gamma, Beta, dll.

Carl

Terimakasih atas klarifikasinya! Saya percaya seharusnya ada jawaban untuk pertanyaan di atas yang cukup sederhana dan umum. Lebih khusus, saya tidak berpikir itu perlu melibatkan "jelek" kasus dan kegagalan AIC dan BIC. Sebaliknya, saya merasa harus ada kasus yang agak mendasar yang dapat menggambarkan mengapa paradoks hanya terlihat daripada nyata. Pada saat yang sama, paragraf kedua Anda tampaknya berlawanan arah. Bukannya itu tidak akan berharga dalam dirinya sendiri, tetapi saya khawatir itu bisa mengalihkan kita dari pertanyaan mendasar yang ada di sini.

Richard Hardy

@RichardHardy Seringkali pertanyaan praktis tidak dapat diterapkan pada AIC. Sebagai contoh, perbandingan model yang sama atau berbeda dengan norma yang berbeda dan / atau transformasi data atau analisis norma yang rumit, misalnya, kesalahan mengurangi regularisasi Tikhonov dari parameter yang diturunkan, invers umum dll. Ini perlu disebutkan juga agar seseorang tidak menggunakan AIC , BIC salah.

Carl

Paradoks dalam pemilihan model (AIC, BIC, untuk menjelaskan atau memprediksi?)

Jawaban: