Kapan tepat untuk memilih model dengan meminimalkan AIC?

12

Sudah mapan, setidaknya di antara ahli statistik dari beberapa kaliber lebih tinggi, bahwa model dengan nilai-nilai statistik AIC dalam batas tertentu dari nilai minimum harus dianggap sesuai dengan model meminimalkan statistik AIC. Sebagai contoh, dalam [1, hal.221] kita temukan

Maka model dengan GCV kecil atau AIC akan dianggap yang terbaik. Tentu saja seseorang seharusnya tidak hanya secara buta meminimalkan GCV atau AIC. Sebaliknya, semua model dengan nilai GCV atau AIC yang cukup kecil harus dianggap berpotensi sesuai dan dievaluasi sesuai dengan kesederhanaan dan relevansi ilmiahnya.

Demikian pula, dalam [2, hal.144] yang kita miliki

Telah dikemukakan (Duong, 1984) bahwa model dengan nilai AIC dalam c dari nilai minimum harus dianggap kompetitif (dengan c = 2 sebagai nilai khas). Seleksi dari antara model kompetitif kemudian dapat didasarkan pada faktor-faktor seperti keputihan residu (Bagian 5.3) dan kesederhanaan model.

Referensi:

  1. Ruppert, D .; Tongkat, MP & Carrol, Regresi RJ Semiparametric , Cambridge University Press, 2003
  2. Brockwell, PJ & Davis, RA Pengantar deret waktu dan peramalan , John Wiley & Sons, 1996

Jadi mengingat hal di atas, yang mana dari dua model di bawah ini yang lebih disukai?

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

Lebih umum, kapan tepat untuk memilih model dengan meminimalkan secara buta AIC atau statistik terkait?

Hibernasi
sumber
Anda belum memberikan AIC untuk model mana pun.
Peter Flom - Reinstate Monica
Saya telah menunjukkan bagaimana cara mendapatkannya dengan R.
Hibernasi
1
+1 masalah dalam model ARIMA yang dicatat di bawah ini. Tetapi sebaliknya: "Menyederhanakan model prognostik: studi simulasi berdasarkan data klinis." Ambler 2002 adalah referensi yang paling banyak dikutip tentang ini.
charles

Jawaban:

4

Mengutip dari kuliah Cosma Shalizi mencatat tentang kebenaran tentang Regresi Linier , Anda tidak akan pernah memilih model hanya karena kebetulan meminimalkan statistik seperti AIC , karena

Every time someone solely uses an AIC statistic for model selection, an angel loses its
wings. Every time someone thoughtlessly minimises it, an angel not only loses its wings,
but is cast out of Heaven and falls in most extreme agony into the everlasting fire.
penyamun
sumber
1
Seperti yang dikatakan seorang Yahudi terkenal: "Imajinasi lebih baik daripada pengetahuan" :)
Hibernating
Dan, seperti yang dikatakan oleh seorang non-Yahudi terkenal "Kamu bisa melihat banyak dengan melihat" (Yogi Berra).
Peter Flom - Reinstate Monica
Dan apa yang kita lihat, tentu saja, terutama tergantung pada apa yang kita cari. --John Lubbock
Hibernasi
12

Saya akan mengatakan itu sering tepat untuk menggunakan AIC dalam pemilihan model, tetapi jarang tepat untuk menggunakannya sebagai dasar tunggal untuk pemilihan model. Kita juga harus menggunakan pengetahuan substantif.

Dalam kasus khusus Anda, Anda membandingkan model dengan AR orde 3 vs. satu dengan AR orde 1. Selain AIC (atau yang serupa) saya akan melihat plot autokorelasi dan autokorelasi parsial. Saya juga akan mempertimbangkan apa artinya model urutan ke-3 . Apakah masuk akal? Apakah itu menambah pengetahuan substantif? (Atau, jika Anda hanya tertarik pada prediksi, apakah itu membantu memprediksi?)

Lebih umum, kadang-kadang kasus yang menemukan ukuran efek yang sangat kecil menarik.

Peter Flom - Pasang kembali Monica
sumber
Apakah Anda baru saja mengatakan bahwa algoritma yang baik untuk memilih model arima tidak boleh hanya didasarkan pada kriteria AIC (atau sejenisnya)?
Hibernasi
Ya saya memang mengatakan itu.
Peter Flom - Reinstate Monica
Dan pada akhirnya saya mendengarnya sebagai selamat jalan auto.arima. Preferensi saya adalah mengikuti pendekatan yang diuraikan dalam bab 6 dari Bisgaard, S. & Kulahci, M. Analisis dan peramalan seri waktu dengan contoh John Wiley & Sons, Inc., 2011, bahkan lebih tepatnya di bagian 6.5 FUNGSI TANGGAPAN TANGGUNG JAWAB IMPULSE UNTUK BELAJAR PERBEDAAN DALAM MODEL
Hibernasi
1
@ Hibernating: Para penulis auto.arima, Hyndman & Khandakar (2008) , mengatakan: - "Perkiraan otomatis dari sejumlah besar rangkaian waktu univariat sering diperlukan dalam bisnis. Adalah umum untuk memiliki lebih dari seribu lini produk yang memerlukan perkiraan setidaknya setiap bulan. Bahkan ketika sejumlah kecil prakiraan diperlukan, mungkin tidak ada seorang pun yang terlatih dalam penggunaan model deret waktu untuk memproduksinya. Dalam keadaan ini, algoritme peramalan otomatis adalah alat yang penting. " Perhatikan keadaan ini .
Scortchi
2
Terima kasih tetapi saya telah membaca itu sebelumnya. Bahkan jika kita mengabaikan masalah yang jelas dengan bagian "auto" untuk saat ini, ada masalah dengan bagian "arima", terutama ketika diperluas untuk memasukkan model musiman. Model-model ARIMA musiman telah banyak dikritik oleh PJ Harrison, C Chatfield dan beberapa kepribadian lain yang kebetulan saya suka pelajari. Saya tidak menentang peramalan otomatis ketika itu adalah saya) sangat diperlukan dan ii) berdasarkan algoritma saya dapat menemukan suara - jika tidak saya mengikuti saran DR Cox dalam komentarnya pada makalah "dua budaya" Leo Breiman dalam Stat Science beberapa tahun yang lalu.
Hibernasi
8

PP

Frank Harrell
sumber
2
Kalimat terakhir Anda menarik. Saya ingat pernah membaca bahwa menambahkan bahkan prediktor yang tidak signifikan ke dalam regresi dapat dibenarkan jika tujuan akhirnya adalah prediksi. Saya tidak terlalu memperhatikannya pada saat itu tetapi sekarang saya akan mencoba dan menemukan referensi itu.
Hibernasi
3
Alih-alih menambahkan saya akan mengatakan hindari menghapus . Dan itu bukan hanya prediksi, tetapi menggunakan penilaian asosiasi statistik untuk memandu pemilihan variabel menyebabkan bias dan kesalahan standar dan batas kepercayaan.
Frank Harrell