Prasyarat untuk perbandingan model AIC

26

Apa saja prasyarat yang harus dipenuhi untuk perbandingan model AIC agar bekerja?

Saya baru saja menjawab pertanyaan ini ketika melakukan perbandingan seperti ini:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

Dengan cara ini saya membenarkan logtransformasi variabel usili. Tapi saya tidak tahu apakah saya bisa membandingkan model AIC ketika misalnya variabel dependen berbeda?

Jawaban ideal akan mencakup daftar prasyarat (asumsi matematika).

Ingin tahu
sumber

Jawaban:

29

Anda tidak dapat membandingkan kedua model karena mereka tidak memodelkan variabel yang sama (karena Anda mengenali diri Anda dengan benar). Namun demikian, AIC harus bekerja ketika membandingkan model bersarang dan tidak bersarang.

Hanya pengingat sebelum kita melanjutkan: kemungkinan log Gaussian diberikan oleh

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

K menjadi struktur kovarians model Anda,jumlah poin dalam set data Anda, respons rata-rata dan variabel dependen Anda.μ x|D|μx

Lebih khusus AIC dihitung sama dengan , di mana adalah jumlah efek tetap dalam model Anda dan fungsi kemungkinan Anda [1]. Secara praktis membandingkan trade-off antara varians ( ) dan bias ( ) dalam asumsi pemodelan Anda. Dengan demikian dalam kasus Anda akan membandingkan dua struktur kemungkinan log yang berbeda ketika datang ke istilah bias. Itu karena ketika Anda menghitung kemungkinan log Anda secara praktis Anda melihat dua istilah: istilah yang cocok, dilambangkan dengan , dan istilah hukuman kompleksitas, dilambangkan dengank L 2 k 2 log ( L ) - 12k2log(L)kL2k2log(L)-112(xμ)TK1(xμ)12log(|K|). Karena itu Anda melihat bahwa istilah fit Anda benar-benar berbeda antara kedua model; dalam kasus pertama Anda membandingkan residu dari data mentah dan dalam kasus lain residu dari data yang dicatat.

Selain Wikipedia, AIC juga didefinisikan untuk menyamakan: [3]; bentuk ini membuatnya semakin jelas mengapa model yang berbeda dengan variabel dependen yang berbeda tidak dapat dibandingkan. RSS adalah dua kasus yang tidak ada bandingannya.|D|log(RSS|D|)+2k

Kertas asli Akaike [4] sebenarnya cukup sulit untuk dipahami (saya pikir). Ini didasarkan pada perbedaan KL (perbedaan antara dua distribusi secara kasar) dan berupaya membuktikan bagaimana Anda dapat memperkirakan distribusi sebenarnya yang tidak diketahui dari data Anda dan membandingkannya dengan distribusi data yang diasumsikan oleh model Anda. Itu sebabnya "skor AIC yang lebih kecil lebih baik" ; Anda lebih dekat dengan perkiraan sebenarnya distribusi data Anda.

Jadi untuk menyatukan semuanya hal-hal yang perlu diingat ketika menggunakan AIC adalah tiga [2,5]:

  1. Anda tidak dapat menggunakannya untuk membandingkan model set data yang berbeda.

  2. Anda harus menggunakan variabel respons yang sama untuk semua model kandidat.

  3. Anda harus memiliki , karena jika tidak, Anda tidak mendapatkan konsistensi asimptotik yang baik.|D|>>k

Maaf untuk menyampaikan kabar buruk kepada Anda tetapi menggunakan AIC untuk menunjukkan Anda memilih satu variabel dependen daripada variabel lain bukanlah hal yang baik secara statistik untuk dilakukan. Periksa distribusi residu Anda di kedua model, jika case data yang tercatat memiliki residu terdistribusi normal dan case data mentah tidak, Anda memiliki semua justifikasi yang mungkin Anda butuhkan. Anda mungkin juga ingin memeriksa apakah data mentah Anda sesuai dengan lognormal, itu mungkin cukup pembenaran juga.

Untuk asumsi matematika yang ketat, permainan ini adalah KL divergence dan teori informasi ...

Ah, dan beberapa referensi:

  1. http://en.wikipedia.org/wiki/Akaike_information_criterion
  2. Kriteria Informasi Akaike, Shuhua Hu, (Presentasi hal.17-18)
  3. Analisis Statistik Multivariat Terapan, Johnson & Wichern, Ed ke-6. (hal. 386-387)
  4. Pandangan baru pada identifikasi model statistik, H. Akaike, Transaksi IEEE pada Kontrol Otomatis 19 (6): 716-723 (1974)
  5. Tutorial Pemilihan Model # 1: Kriteria Informasi Akaike, D. Schmidt dan E. Makalic, (Presentasi hal.39)
usεr11852 kata Reinstate Monic
sumber
Terima kasih! Saya tidak mengerti matematika tetapi saya mendapatkan inti dari pesan itu. Namun, dapatkah Anda mendaftar semua prasyarat yang diperlukan untuk perbandingan model AIC? Hanya untuk memastikan saya tidak akan membuat kesalahan lain kali. Saya akan pergi dan memeriksanya satu per satu.
Penasaran
1
Saya khawatir saya tidak memiliki "daftar periksa". Pustaka [2] memiliki daftar yang cukup lengkap jika Anda tertarik. Hal-hal utama yang perlu diingat adalah bahwa: 1. karena AIC adalah kriteria pemilihan model asimptotik yang efisien yang Anda butuhkanuntuk secara signifikan lebih besar dari dan 2. Anda dapat menggunakannya hanya untuk membandingkan model dari data dependen yang sama. Secara matematis Anda ingin dua kali dapat dibedakan, setiap model kandidat akan dipetakan unik dan perkiraan ML Anda konsisten, tetapi saya pikir asumsi ini adalah kerja keras untuk ditunjukkan di sebuah makalah ...p L ( θ ) θ p ( x | θ )|D|pL(θ)θp(x|θ)
usεr11852 mengatakan Reinstate Monic
1
terima kasih telah menambahkan daftar 3 asumsi tersebut ke jawabannya! Itu yang saya butuhkan.
Penasaran
1
Melihat jawaban Anda lagi: poin Anda 1. "Anda tidak dapat menggunakannya untuk membandingkan model set data yang berbeda" . Apa yang Anda maksud dengan "kumpulan data"? Bagaimana jika saya mengubah set variabel dependen? Saya kira dalam hal itu AIC harus tetap sebanding? Bisakah Anda memperbarui jawaban Anda untuk memperjelas ini?
Penasaran
1
(Maaf untuk jawaban yang sangat terlambat!) Saya pikir Anda ingin mengatakan variabel independen ... Jika Anda mengubah variabel dependen Anda sekali lagi mengacaukan Anda karena "model cocok" (secara kasar, ) tidak dibandingkan dengan sama . (Luangkan waktu Anda menjawab @Curious, saya tidak akan mengharapkan apa pun sebelum pertengahan Juli!: D)μ xRSSμx
usεr11852 mengatakan Reinstate Monic
11

Anda harus dapat membandingkan menggunakan AIC pada prinsipnya, hanya saja angka yang disebut "AIC" bukan angka yang Anda butuhkan. Anda membandingkan distribusi normal vs log-normal. Sekarang AIC dari model uu0pada dasarnya hanya melewatkan "jacobian" dari transformasi log. Untuk model log normal, ini cukup . Untuk mengonversikan ini ke AIC, Anda harus mengambil log negatif dua kali dari istilah ini, yang berarti Anda perlu menambahkan ke nomor AIC untuk . Jadi, Anda harus dibandingkan dengan 2 i log ( y i )iyi12ilog(yi)uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)

probabilityislogic
sumber
Saya tidak mengerti apa yang Anda ikuti dengan upaya Anda untuk "memperbaiki" AIC entah bagaimana dan apa yang sebenarnya Anda dapatkan darinya (bagaimana menafsirkan hasil Anda). Pokoknya, jangan gali ini, tidak masalah karena pertanyaan saya adalah tentang sesuatu yang sama sekali berbeda: apa prasyarat umum untuk AIC (aktual, tidak dikoreksi) agar dapat dibandingkan secara masuk akal. Jangan fokus pada contoh khusus ini, itu hanya contoh dari hal umum.
Penasaran
1
@Curious - maksud saya adalah bahwa "AIC yang dikoreksi" adalah AIC yang sebenarnya, dan hal yang Anda dapatkan dari fungsi AIC salah ketika Anda membandingkan transformasi "variabel dependen". Intinya adalah berubah di bawah transformasi, (untuk misalnya, ). Anda harus memperhitungkan jacobian perubahan ini saat menggunakan AIC. The fungsi yang Anda gunakan tidak memperhitungkan ini. x = g ( y ) x = l o g ( y )2log(p(y|θ))x=g(y)x=log(y)AIC()
probabilityislogic
@probabilityislogic: Apakah Anda memiliki referensi akademis untuk saran Anda (AIC (uu0) + 2 * jumlah (log (usili))) sehingga saya dapat mengutipnya dalam tulisan akademis? Terima kasih.
KuJ
3

Diambil dari Akaike 1978

Kutipan dari Akaike 1978 ini menyediakan kutipan dalam mendukung solusi oleh @probabilityislogic.

Akaike, H. 1978. Tentang Kemungkinan Model Rangkaian Waktu. Jurnal Masyarakat Statistik Kerajaan. Seri D (Ahli Statistik) 27: 217-235.

bjd
sumber
1
maaf saya tidak mengerti, apa itu "transformasi variabel" dan bagaimana hubungannya dengan pertanyaan saya. Tolong jelaskan, terima kasih
Penasaran