Kami memiliki dua model yang menggunakan metode yang sama untuk menghitung kemungkinan log dan AIC untuk satu lebih rendah dari yang lain. Namun, yang dengan AIC lebih rendah jauh lebih sulit untuk ditafsirkan.
Kami mengalami masalah dalam memutuskan apakah layak untuk memperkenalkan kesulitan dan kami menilai ini menggunakan perbedaan persentase dalam AIC. Kami menemukan bahwa perbedaan antara kedua AIC hanya 0,7%, dengan model yang lebih rumit memiliki AIC 0,7% lebih rendah.
Apakah perbedaan persentase yang rendah antara keduanya merupakan alasan yang baik untuk menghindari penggunaan model dengan AIC yang lebih rendah?
Apakah persentase perbedaan menjelaskan bahwa 0,7% lebih banyak informasi hilang dalam model yang kurang rumit?
Bisakah kedua model memiliki hasil yang sangat berbeda?
sumber
Jawaban:
Seseorang tidak membandingkan nilai absolut dari dua AIC (yang bisa seperti tetapi juga ), tetapi mempertimbangkan perbedaannya : mana adalah AIC dari -th model, dan adalah AIC terendah yang diperoleh di antara set model yang diperiksa (yaitu, model yang disukai). Aturan praktis, diuraikan misalnya dalam Burnham & Anderson 2004 , adalah:∼ 1000000 Δ i = A I C i - A I C m i n , A I C i I A I C m i n∼ 100 ∼ 1000000
Sekarang, mengenai 0,7% yang disebutkan dalam pertanyaan, pertimbangkan dua situasi:
Oleh karena itu, mengatakan bahwa perbedaan antara AIC adalah 0,7% tidak memberikan informasi apa pun .
Nilai AIC berisi konstanta penskalaan yang berasal dari log-likelihood , dan karenanya bebas dari konstanta tersebut. Orang mungkin menganggap transformasi pengubahan ukuran yang memaksa model terbaik untuk memiliki .Δ i Δ i = A I C i - A I C m i n A I CL Δi Δi=AICi−AICmin AICmin:=0
Formulasi AIC menghukum penggunaan jumlah parameter yang berlebihan, sehingga mencegah overfitting. Ini lebih suka model dengan parameter lebih sedikit, selama yang lain tidak memberikan kesesuaian yang jauh lebih baik. AIC mencoba memilih model (di antara yang diperiksa) yang paling memadai menggambarkan kenyataan (dalam bentuk data yang sedang diperiksa). Ini berarti bahwa sebenarnya model yang merupakan deskripsi nyata dari data tidak pernah dipertimbangkan. Perhatikan bahwa AIC memberi Anda informasi model mana yang menggambarkan data lebih baik, itu tidak memberikan interpretasi apa pun .
Secara pribadi , saya akan mengatakan bahwa jika Anda memiliki model sederhana dan rumit yang memiliki AIC jauh lebih rendah, maka model sederhana tidak cukup baik. Jika model yang lebih kompleks benar-benar jauh lebih rumit tetapi tidak besar (mungkin , mungkin - tergantung pada situasi tertentu) Saya akan tetap menggunakan model yang lebih sederhana jika benar-benar lebih mudah untuk bekerja dengan .Δi Δi<2 Δi<5
Selanjutnya, Anda dapat menganggap probabilitas untuk model ke- viai
yang memberikan probabilitas relatif (dibandingkan dengan ) bahwa model ke- meminimalkan AIC. Misalnya, sesuai dengan (cukup tinggi), dan sesuai dengan (cukup rendah). Kasus pertama berarti bahwa ada kemungkinan 47% bahwa model ke- mungkin sebenarnya merupakan deskripsi yang lebih baik daripada model yang menghasilkan , dan dalam kasus kedua probabilitas ini hanya 0,05%. i Δ i = 1.5 p i = 0.47 Δ i = 15 p i = 0.0005 i A I C m i nAICmin i Δi=1.5 pi=0.47 Δi=15 pi=0.0005 i AICmin
Akhirnya, mengenai formula untuk AIC:
Penting untuk dicatat bahwa ketika dua model dengan yang sama dipertimbangkan, hanya bergantung pada jumlah parameter karena istilah . Oleh karena itu, ketika , peningkatan relatif adalah karena peningkatan kecocokan yang sebenarnya, bukan karena meningkatkan jumlah parameter saja.Δ i 2 k Δ iL Δi 2k Δi2Δk<1
TL; DR
sumber