Apa yang dimaksud skor Akaike Information Criterion (AIC) dari suatu model?

34

Saya telah melihat beberapa pertanyaan di sini tentang apa artinya dalam istilah awam, tetapi ini terlalu awam untuk tujuan saya di sini. Saya mencoba memahami secara matematis apa arti skor AIC.

Tetapi pada saat yang sama, saya tidak ingin bukti yang kuat yang akan membuat saya tidak melihat poin yang lebih penting. Sebagai contoh, jika ini adalah kalkulus, saya akan senang dengan sangat kecil, dan jika ini adalah teori probabilitas, saya akan senang tanpa teori ukuran.

Usaha saya

dengan membaca di sini , dan beberapa notasi gula saya sendiri, adalah kriteria AIC dari model pada dataset sebagai berikut: di mana adalah jumlah parameter model , dan adalah nilai fungsi maksimum kemungkinan model yang pada dataset .AICm,DmD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

Inilah pemahaman saya tentang apa yang tersirat di atas:

m=arg maxθPr(D|θ)

Cara ini:

  • km adalah jumlah parameter m .
  • Lm,D=Pr(D|m)=L(m|D) .

Sekarang mari kita menulis ulang AIC:

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

Jelas, Pr(D|m) adalah probabilitas mengamati dataset D bawah model m . Jadi semakin baik model m cocok dengan dataset D , semakin besar Pr(D|m) menjadi, dan dengan demikian semakin kecil istilah 2loge(Pr(D|m)) menjadi.

Jadi jelas AIC memberikan penghargaan pada model yang sesuai dengan dataset mereka (karena AICm,D yang lebih kecil lebih baik).

Di sisi lain, istilah 2km jelas menghukum model dengan lebih banyak parameter dengan membuat AICm,D lebih besar.

Dengan kata lain, AIC tampaknya menjadi ukuran yang:

  • Hadiah model yang akurat (yang cocok D lebih baik) secara logaritma. Misalnya itu penghargaan peningkatan kebugaran dari acara 0.4 ke 0.5 lebih dari itu memberikan penghargaan peningkatan kebugaran dari acara 0.8 ke 0.9 . Ini ditunjukkan pada gambar di bawah ini.
  • Pengurangan hadiah dalam parameter secara linear. Jadi penurunan parameter dari ke dihargai sebanyak penghargaan itu penurunan dari ke .9821

masukkan deskripsi gambar di sini

Dengan kata lain (sekali lagi), AIC mendefinisikan trade-off antara pentingnya kesederhanaan dan pentingnya kebugaran .

Dengan kata lain (sekali lagi), AIC tampaknya menyarankan bahwa:

  • Pentingnya kebugaran berkurang.
  • Tetapi pentingnya kesederhanaan tidak pernah berkurang tetapi selalu selalu penting.

T1: Tapi pertanyaannya adalah: mengapa kita harus peduli dengan pertukaran kesederhanaan kebugaran-kesederhanaan ini?

T2: Mengapa dan mengapa ? Mengapa tidak adil: yaitu harus dalam tampilan y menjadi sama berguna untuk dan harus dapat melayani untuk relatif membandingkan model yang berbeda (hanya saja tidak diskalakan oleh ; apakah kita memerlukan ini?).2k2loge()

AICm,D=2km2ln(Lm,D)=2(kmln(Lm,D))AICm,D2=kmln(Lm,D)AICm,D,SIMPLE=kmln(Lm,D)
AICm,D,SIMPLEAICm,D2

T3: Bagaimana hubungannya dengan teori informasi? Bisakah seseorang memperoleh ini dari awal informasi teoretis?

manusia gua
sumber
2
Apa arti notasi Anda dalam ? Apakah Anda menyiratkan sesuatu tentang pilihan model di sana? Apa yang Anda miliki di atas tidak benar-benar menyiratkan bahwa AIC mengharuskan Anda untuk memilih model. Q2, seperti yang Anda katakan, adalah sesuatu yang cukup sewenang-wenang dalam beberapa hal, tetapi berasal dari membuat AIC perkiraan untuk perbedaan Kullback-Leibler, yang juga berkaitan dengan jawaban untuk Q1 dan memberikan beberapa makna pada kuantitas seperti . m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
Bjorn
arg maxθPr(D|θ) berarti terus mencari banyak s sampai Anda menemukan yang meminimalkan probabilitas . Setiap yaitu tupel / vektor parameter yang mendefinisikan model kami yang mencoba untuk menjelaskan dataset . Jadi pada dasarnya dikatakan: kita memiliki dataset , berapakah probabilitas bahwa itu dihasilkan oleh model yang ditentukan oleh ? Model kami dasarnya yang memecahkan masalah maksimalisasi ini. θPr(D|θ)θDDθmθ
manusia gua
3
Maaf, tetapi apakah Anda sedang melihat banyak model (karena Anda menulis ), atau Anda berbicara tentang perkiraan kemungkinan maksimum ? Perhatikan juga adalah probabilitas dari surga data yang muncul di bawah model yang diberikan dan untuk parameter yang diberikan, bukan probabilitas bahwa data dihasilkan oleh model tersebut yang diparameterisasi oleh . m=θ^:=argmaxθPgiven model(D|θ)Pgiven model(D|θ)θ
Björn
MLE adalah apa yang saya maksud. Tetapi saya hanya mencoba mengatakan bahwa parameter tuple sangat komprehensif sehingga juga mendefinisikan model. Saya juga dapat memiliki beberapa model, misalnya masing-masing dengan skor AIC yang berbeda . Saya hanya membuat notasi ini karena saya pikir ini lebih sederhana. Apakah saya sangat salah, atau tidak perlu membingungkan ini? (dan terima kasih telah mengoreksi saya tentang apa arti MLE)θm1,m2AIC1,AIC2
manusia gua
3
Derivasi AIC sebagai perkiraan hilangnya informasi KL yang diharapkan diberikan dalam Pawitan (2001), Dalam Semua Kemungkinan , Bab 13.
Scortchi - Reinstate Monica

Jawaban:

13

Pertanyaan oleh manusia gua ini populer, tetapi tidak ada jawaban selama berbulan-bulan sampai saya yang kontroversial . Bisa jadi jawaban aktual di bawah ini tidak, dalam dirinya sendiri, kontroversial, hanya bahwa pertanyaan-pertanyaan itu adalah pertanyaan "dimuat", karena bidang tersebut tampaknya (bagi saya, setidaknya) diisi oleh para pembantu dari AIC dan BIC yang lebih suka menggunakan OLS daripada metode masing-masing. Silakan lihat semua asumsi yang tercantum, dan pembatasan yang dilakukan pada tipe data dan metode analisis, dan berikan komentar; perbaiki ini, berkontribusi. Sejauh ini, beberapa orang yang sangat pintar telah berkontribusi, sehingga kemajuan yang lambat sedang dibuat. Saya mengakui kontribusi oleh Richard Hardy dan GeoMatt22, kata-kata baik dari Antoni Parellada, dan upaya berani oleh Cagdas Ozgenc dan Ben Ogorek untuk menghubungkan perbedaan KL dengan perbedaan yang sebenarnya.

Sebelum kita mulai, mari kita tinjau apa itu AIC, dan satu sumber untuk ini adalah Prasyarat untuk perbandingan model AIC dan yang lain dari Rob J Hyndman . Secara khusus, AIC dihitung sama dengan

2k2log(L(θ)),

di mana adalah jumlah parameter dalam model dan fungsi kemungkinan. AIC membandingkan trade-off antara varians ( ) dan bias ( ) dari asumsi pemodelan. Dari Fakta dan kekeliruan AIC , poin 3 "AIC tidak menganggap residu adalah Gaussian. Hanya saja kemungkinan Gaussian paling sering digunakan. Tetapi jika Anda ingin menggunakan distribusi lain, silakan." AIC adalah kemungkinan hukuman, yang mana kemungkinan yang Anda pilih untuk digunakan. Misalnya, untuk menyelesaikan AIC untuk residu terdistribusi Student-t, kita bisa menggunakan solusi kemungkinan-maksimum untuk Student's-t . ItukL(θ)2k2log(L(θ))log-likelihood yang biasanya diterapkan untuk AIC berasal dari Gaussian log-likelihood dan diberikan oleh

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

K menjadi struktur kovarians model,ukuran sampel; jumlah pengamatan dalam dataset, respon rata-rata dan variabel dependen. Perhatikan bahwa, secara tegas, tidak perlu bagi AIC untuk mengoreksi ukuran sampel, karena AIC tidak digunakan untuk membandingkan dataset, hanya model yang menggunakan dataset yang sama. Dengan demikian, kita tidak perlu menyelidiki apakah koreksi ukuran sampel dilakukan dengan benar atau tidak, tetapi kita harus khawatir tentang ini jika kita dapat menggeneralisasi AIC agar berguna di antara kumpulan data. Demikian pula, banyak yang dibuat tentang untuk memastikan efisiensi asimptotik. Pandangan minimalis mungkin menganggap AIC hanya sebagai "indeks," membuat|D|μxK>>|D|>2K>|D|relevan dantidak relevan. Namun, beberapa perhatian telah diberikan untuk ini dalam bentuk pengajuan AIC yang diubah untuk tidak jauh lebih besar daridisebut AIC lihat paragraf kedua jawaban untuk Q2 di bawah ini. Proliferasi "tindakan" ini hanya memperkuat anggapan bahwa AIC adalah indeks. Namun, kehati-hatian disarankan ketika menggunakan kata "i" karena beberapa advokat AIC menyamakan penggunaan kata "indeks" dengan kesukaan yang sama seperti yang dilampirkan untuk merujuk pada ontogeni mereka sebagai di luar nikah.K>>|D|K|D|c

T1: Tapi pertanyaannya adalah: mengapa kita harus peduli dengan pertukaran kesederhanaan kesesuaian kebugaran ini?

Jawab dalam dua bagian. Pertama, pertanyaan spesifik. Anda seharusnya hanya peduli karena itulah yang didefinisikan. Jika Anda lebih suka tidak ada alasan untuk tidak mendefinisikan CIC; kriteria informasi manusia gua, itu tidak akan menjadi AIC, tetapi CIC akan menghasilkan jawaban yang sama seperti AIC, itu tidak mempengaruhi tradeoff antara good-of-fit dan menempatkan kesederhanaan. Konstanta apa pun yang dapat digunakan sebagai pengganda AIC, termasuk satu kali, harus dipilih dan dipatuhi, karena tidak ada standar referensi untuk menegakkan skala absolut. Namun, mengikuti definisi standar tidak sewenang-wenang dalam arti bahwa ada ruang untuk satu dan hanya satu definisi, atau "konvensi," untuk kuantitas, seperti AIC, yang didefinisikan hanya pada skala relatif. Lihat juga asumsi AIC # 3, di bawah ini.

Jawaban kedua untuk pertanyaan ini berkaitan dengan spesifik tradeoff AIC antara good-of-fit dan menempatkan kesederhanaan terlepas dari bagaimana pengganda konstannya akan dipilih. Artinya, apa yang sebenarnya mempengaruhi "tradeoff"? Salah satu hal yang mempengaruhi ini, adalah tingkat kebebasan menyesuaikan kembali untuk jumlah parameter dalam model, ini menyebabkan mendefinisikan AIC "baru" yang disebut AIC sebagai berikut:c

AICc=AIC+2k(k+1)nk1=2knnk12ln(L),

di mana adalah ukuran sampel. Karena bobot sekarang sedikit berbeda ketika membandingkan model yang memiliki jumlah parameter yang berbeda, AIC memilih model berbeda dari AIC itu sendiri, dan identik dengan AIC ketika kedua model berbeda tetapi memiliki jumlah parameter yang sama. Metode lain juga akan memilih model yang berbeda, misalnya, "BIC [sic, kriteria informasi Bayesian ] umumnya menghukum parameter bebas lebih kuat daripada kriteria informasi Akaike, meskipun itu tergantung ..." ANOVA juga akan menghukum parameter supernumerary menggunakan probabilitas parsial dari ketidaktergantungan nilai parameter secara berbeda, dan dalam beberapa keadaan akan lebih baik daripada penggunaan AICnc. Secara umum, setiap metode penilaian kesesuaian model akan memiliki kelebihan dan kekurangan. Saran saya adalah untuk menguji kinerja metode pemilihan model apa pun untuk penerapannya pada metodologi regresi data lebih keras daripada menguji model itu sendiri. Ada alasan untuk ragu? Yup, kehati-hatian harus diambil ketika membangun atau memilih uji model apa pun untuk memilih metode yang sesuai secara metodologi. AIC berguna untuk subset evaluasi model, untuk itu lihat Q3, selanjutnya. Misalnya, mengekstraksi informasi dengan model A mungkin paling baik dilakukan dengan metode regresi 1, dan untuk model B dengan metode regresi 2, di mana model B dan metode 2 kadang-kadang menghasilkan jawaban non-fisik, dan di mana tidak ada metode regresi MLR,

Q3 Bagaimana hubungannya dengan teori informasi :

Asumsi MLR # 1. AIC didasarkan pada asumsi penerapan kemungkinan maksimum (MLR) untuk masalah regresi. Hanya ada satu keadaan di mana regresi kuadrat biasa dan regresi kemungkinan maksimum telah ditunjukkan kepada saya sebagai sama. Itu akan terjadi ketika residu dari regresi linier biasa kuadrat (OLS) normal didistribusikan, dan MLR memiliki fungsi kerugian Gaussian. Dalam kasus lain dari regresi linier OLS, untuk regresi OLS nonlinear, dan fungsi kerugian non-Gaussian, MLR dan OLS mungkin berbeda. Ada banyak target regresi lain selain OLS atau MLR atau bahkan goodness of fit dan seringkali jawaban yang baik tidak ada hubungannya dengan salah satu, misalnya, untuk sebagian besar masalah terbalik. Ada banyak upaya yang dikutip (misalnya, 1100 kali) untuk menggunakan generalisasi AIC untuk kemungkinan semu sehingga ketergantungan pada regresi kemungkinan maksimum berkurang untuk mengakui fungsi kerugian yang lebih umum . Selain itu, MLR untuk Student's-t, meskipun tidak dalam bentuk tertutup, sangat konvergen . Karena distribusi residu Student-t lebih umum dan lebih umum daripada, serta inklusif dari, kondisi Gaussian, saya tidak melihat alasan khusus untuk menggunakan asumsi Gaussian untuk AIC.

Asumsi MLR # 2. MLR adalah upaya untuk mengukur kebaikan yang sesuai. Kadang-kadang diterapkan ketika tidak tepat. Misalnya, untuk data rentang yang dipangkas, ketika model yang digunakan tidak dipangkas. Good-of-fit semuanya baik dan bagus jika kita memiliki cakupan informasi yang lengkap. Dalam rangkaian waktu, kita biasanya tidak memiliki informasi yang cukup cepat untuk memahami sepenuhnya peristiwa fisik apa yang terjadi pada awalnya atau model kita mungkin tidak cukup lengkap untuk memeriksa data yang sangat awal. Yang lebih meresahkan lagi adalah sering kali seseorang tidak dapat menguji kualitasnya pada saat-saat yang sangat terlambat, karena kurangnya data. Dengan demikian, good-of-fit hanya dapat memodelkan 30% dari area yang sesuai di bawah kurva, dan dalam hal ini, kami menilai model yang diekstrapolasi berdasarkan di mana data berada, dan kami tidak memeriksa apa artinya. Untuk memperkirakan, kita perlu melihat tidak hanya pada kebaikan dari 'jumlah' tetapi juga turunan dari jumlah-jumlah yang gagal yang kita tidak memiliki "kebaikan" dari ekstrapolasi. Dengan demikian, teknik fit seperti B-splines dapat digunakan karena mereka dapat dengan lebih mudah memprediksi data apa yang digunakan ketika turunannya cocok, atau sebagai alternatif inversi perawatan masalah, misalnya, perlakuan integral yang ditempatkan pada seluruh rentang model, seperti propagasi kesalahan adaptif Tikhonov regularisasi.

Masalah rumit lainnya, data dapat memberi tahu kita apa yang harus kita lakukan dengannya. Apa yang kita butuhkan untuk kebaikan (jika perlu), adalah memiliki residu yang berjarak dalam arti bahwa standar deviasi adalah jarak. Artinya, good-of-fit tidak akan masuk akal jika residu yang dua kali lebih lama dari standar deviasi tunggal juga tidak memiliki panjang dua standar deviasi. Pemilihan transformasi data harus diselidiki sebelum menerapkan pemilihan model / metode regresi. Jika data memiliki kesalahan tipe proporsional, biasanya mengambil logaritma sebelum memilih regresi tidak tepat, karena kemudian mengubah standar deviasi menjadi jarak. Atau, kita dapat mengubah norma yang akan diminimalkan untuk mengakomodasi data proporsional yang sesuai. Hal yang sama berlaku untuk struktur kesalahan Poisson, kita bisa mengambil akar kuadrat dari data untuk menormalkan kesalahan, atau mengubah norma kita untuk pemasangan. Ada masalah yang jauh lebih rumit atau bahkan tidak dapat dipecahkan jika kita tidak dapat mengubah norma untuk pemasangan, misalnya, Poisson menghitung statistik dari peluruhan nuklir ketika peluruhan radionuklida memperkenalkan hubungan berbasis waktu eksponensial antara data penghitungan dan massa aktual yang akan memiliki telah memunculkan hitungan-hitungan itu jika tidak ada pembusukan. Mengapa? Jika kita meluruskan kembali tingkat perhitungan, kita tidak lagi memiliki statistik Poisson, dan residu (atau kesalahan) dari akar kuadrat dari jumlah yang dikoreksi tidak lagi jarak. Jika kemudian kita ingin melakukan uji good-of-fit data peluruhan terkoreksi (misalnya, AIC), kita harus melakukannya dengan cara yang tidak diketahui oleh diri saya yang rendah hati. Buka pertanyaan kepada pembaca, jika kami bersikeras menggunakan MLR, dapatkah kita mengubah normanya menjadi tipe kesalahan data (diinginkan), atau haruskah kita selalu mengubah data agar penggunaan MLR (tidak berguna)? Catatan, AIC tidak membandingkan metode regresi untuk model tunggal, ini membandingkan model yang berbeda untuk metode regresi yang sama.

Asumsi AIC # 1. Tampaknya MLR tidak terbatas pada residu normal, misalnya, lihat pertanyaan ini tentang MLR dan Student's-t . Selanjutnya, mari kita asumsikan bahwa MLR sesuai dengan masalah kita sehingga kita melacak penggunaannya untuk membandingkan nilai-nilai AIC dalam teori. Berikutnya kita berasumsi bahwa memiliki 1) informasi yang lengkap, 2) jenis yang sama distribusi residual (misalnya, baik normal, baik Student's- t ) selama minimal 2 model. Artinya, kita mengalami kecelakaan bahwa dua model sekarang harus memiliki jenis distribusi residu. Bisakah itu terjadi? Ya, mungkin, tetapi tentu saja tidak selalu.

Asumsi AIC # 2. AIC menghubungkan logaritma negatif kuantitas (jumlah parameter dalam model dibagi dengan perbedaan Kullback-Leibler ). Apakah asumsi ini perlu? Dalam fungsi kerugian umum kertas "perbedaan" yang berbeda digunakan. Ini membawa kita pada pertanyaan apakah ukuran lain itu lebih umum daripada divergensi KL, mengapa kita tidak menggunakannya untuk AIC juga?

Informasi yang tidak cocok untuk AIC dari divergensi Kullback-Leibler adalah "Meskipun ... sering diintuisi sebagai cara untuk mengukur jarak antara distribusi probabilitas, perbedaan Kullback-Leibler bukanlah metrik yang benar." Kita akan melihat mengapa segera.

Argumen KL sampai pada titik di mana perbedaan antara dua hal model (P) dan data (Q) adalah

DKL(PQ)=Xlog(dPdQ)dPdQdQ,

yang kami kenali sebagai entropi dari '' P 'relatif terhadap' 'Q' '.

Asumsi AIC # 3. Sebagian besar rumus yang melibatkan divergensi Kullback-Leibler berlaku terlepas dari dasar logaritma. Pengganda konstan mungkin memiliki makna lebih jika AIC menghubungkan lebih dari satu data pada saat bersamaan. Seperti berdiri ketika membandingkan metode, jika maka setiap kali bilangan positif yang masih akan menjadi . Karena arbitrer, menetapkan konstanta ke nilai tertentu sebagai masalah definisi juga tidak tepat.AICdata,model1<AICdata,model2<

Asumsi AIC # 4. Itu berarti AIC mengukur entropi Shannon atau informasi diri . "Apa yang perlu kita ketahui adalah" Apakah entropi yang kita butuhkan untuk metrik informasi? "

Untuk memahami apa "informasi diri" itu, kita harus menormalkan informasi dalam konteks fisik, siapa pun akan melakukannya. Ya, saya ingin ukuran informasi memiliki properti yang bersifat fisik. Jadi apa yang akan terlihat dalam konteks yang lebih umum?

Persamaan energi bebas Gibbs (ΔG=ΔHTΔS) menghubungkan perubahan energi dengan perubahan entalpi dikurangi suhu absolut kali perubahan entropi. Suhu adalah contoh dari jenis konten informasi yang berhasil dinormalisasi, karena jika satu bata panas dan dingin ditempatkan saling bersentuhan di lingkungan yang tertutup secara termal, maka panas akan mengalir di antara keduanya. Sekarang, jika kita melompat pada ini tanpa berpikir terlalu keras, kita mengatakan bahwa panas adalah informasinya. Tetapi apakah itu informasi relatif yang memprediksi perilaku suatu sistem. Informasi mengalir sampai kesetimbangan tercapai, tetapi keseimbangan apa? Suhu, itulah yang, bukan panas seperti dalam kecepatan partikel dari massa partikel tertentu, saya tidak berbicara tentang suhu molekul, saya berbicara tentang suhu kotor dari dua batu bata yang mungkin memiliki massa yang berbeda, terbuat dari bahan yang berbeda, memiliki kepadatan yang berbeda dll, dan tidak ada yang harus saya ketahui, yang perlu saya ketahui adalah bahwa suhu kotor adalah yang setimbang. Jadi jika satu bata lebih panas, maka ia memiliki lebih banyak konten informasi relatif, dan ketika lebih dingin, lebih sedikit.

Sekarang, jika saya diberitahu bahwa satu bata memiliki lebih banyak entropi daripada yang lainnya, lalu apa? Itu, dengan sendirinya, tidak akan memprediksi apakah akan mendapatkan atau kehilangan entropi ketika ditempatkan di kontak dengan batu bata lain. Jadi, apakah entropi saja ukuran informasi yang berguna? Ya, tetapi hanya jika kita membandingkan batu bata yang sama dengan dirinya sendiri maka istilah "informasi diri."

Dari situlah batasan terakhir: Untuk menggunakan divergence KL semua bata harus identik. Dengan demikian, apa yang membuat AIC indeks atipikal adalah bahwa itu tidak portabel antara set data (misalnya, batu bata yang berbeda), yang bukan properti yang sangat diinginkan yang mungkin ditangani dengan menormalkan konten informasi. Apakah KL divergensi linier? Mungkin ya mungkin tidak. Namun, itu tidak masalah, kita tidak perlu mengasumsikan linieritas untuk menggunakan AIC, dan, misalnya, entropi itu sendiri saya tidak berpikir terkait secara linear dengan suhu. Dengan kata lain, kita tidak perlu metrik linier untuk menggunakan perhitungan entropi.

Salah satu sumber informasi yang baik tentang AIC ada dalam tesis ini . Di sisi pesimistis ini mengatakan, "Dalam dirinya sendiri, nilai AIC untuk kumpulan data yang diberikan tidak memiliki arti." Di sisi optimis ini mengatakan, bahwa model yang memiliki hasil dekat dapat dibedakan dengan perataan untuk membangun interval kepercayaan, dan banyak lagi.

Carl
sumber
1
Bisakah Anda menunjukkan perbedaan utama antara jawaban baru dan jawaban lama yang dihapus? Tampaknya ada beberapa tumpang tindih.
Richard Hardy
2
Saya sedang mengedit jawaban saya selama beberapa jam ketika jawaban itu dihapus. Ada banyak perubahan dibandingkan ketika saya mulai karena itu adalah pekerjaan yang sedang berjalan, banyak membaca dan berpikir, dan rekan-rekan saya di situs ini sepertinya tidak peduli, tetapi tidak membantu menjawab apa pun. AIC sepertinya terlalu bagus untuk review kritis, beraninya aku? Saya menyelesaikan edit saya dan mempostingnya kembali. Saya ingin tahu apa yang salah tentang jawaban saya. Saya bekerja keras untuk itu, dan berusaha untuk jujur, dan, tidak ada orang lain yang peduli.
Carl
4
Jangan marah. Pengalaman pertama saya di sini juga membuat frustrasi, tetapi kemudian saya belajar untuk mengajukan pertanyaan dengan cara yang tepat. Menjaga nada netral dan menghindari pendapat kuat yang tidak didasarkan pada fakta sulit akan menjadi langkah pertama yang baik, IMHO. (Ngomong-ngomong, saya telah mengangkat pertanyaan Anda, tetapi masih ragu tentang jawabannya.)
Richard Hardy
3
+1 Hanya untuk pembukaan Anda. Sekarang saya akan terus membaca jawabannya.
Antoni Parellada
2
@AntoniParellada Anda telah membantu hanya dengan menjaga pertanyaan agar tidak dihapus, yang saya hargai. Bekerja melalui AIC memang sulit, dan saya memang butuh bantuan untuk itu. Tentu beberapa wawasan saya bagus, tetapi saya juga memiliki kuku dalam penyakit mulut, yang lebih mudah ditangkap oleh orang lain daripada saya.
Carl
5

AIC adalah perkiraan dua kali istilah aditif yang digerakkan oleh model terhadap divergensi Kullback-Leibler yang diharapkan antara distribusi sebenarnya dan model parametrik yang mendekati .fg

Divergensi KL adalah topik dalam teori informasi dan bekerja secara intuitif (meskipun tidak ketat) sebagai ukuran jarak antara dua distribusi probabilitas. Dalam penjelasan saya di bawah ini, saya mereferensikan slide ini dari Shuhua Hu. Jawaban ini masih membutuhkan kutipan untuk "hasil utama."

Divergensi KL antara model benar dan model perkiraan adalah fgθ

d(f,gθ)=f(x)log(f(x))dxf(x)log(gθ(x))dx

Karena kebenaran tidak diketahui, data dihasilkan dari dan estimasi kemungkinan maksimum menghasilkan estimator . Mengganti dengan dalam persamaan di atas berarti bahwa kedua suku kedua dalam rumus divergensi KL dan juga divergensi KL itu sendiri sekarang merupakan variabel acak. "Hasil utama" dalam slide adalah bahwa rata-rata dari istilah aditif kedua sehubungan dengan dapat diperkirakan dengan fungsi sederhana dari fungsi kemungkinan (dievaluasi pada MLE), dan , dimensi : yfθ^(y)θθ^(y)yLkθ

Ey[f(x)log(gθ^(y)(x))dx]log(L(θ^(y)))+k.

AIC didefinisikan sebagai dua kali ekspektasi di atas (HT @Carl), dan nilai-nilai yang lebih kecil (lebih negatif) sesuai dengan estimasi divergensi KL yang lebih kecil antara distribusi benar dan distribusi model .fgθ^(y)

Ben Ogorek
sumber
Seperti yang Anda ketahui, istilah penyimpangan ketika diterapkan pada log-likelihood adalah jargon dan tidak tepat. Saya menghilangkan diskusi ini karena hanya monotonisitas diperlukan untuk perbedaan AIC untuk memiliki nilai komparatif bukan linearitas. Jadi, saya gagal melihat relevansi berusaha terlalu keras untuk "memvisualisasikan" sesuatu yang mungkin tidak ada, dan tidak diperlukan pula.
Carl
2
Saya mengerti maksud Anda bahwa paragraf terakhir menambahkan herring merah, dan saya menyadari bahwa tidak ada yang perlu diyakinkan bahwa 2 * x memiliki peringkat yang sama dengan x. Apakah jika adil untuk mengatakan bahwa kuantitas dikalikan dengan 2 "oleh konvensi"?
Ben Ogorek
2
Sesuatu seperti itu. Secara pribadi, saya akan memilih "didefinisikan sebagai," karena pada awalnya dipilih seperti itu. Atau untuk menempatkan ini dalam perspektif temporal, konstanta apa pun yang dapat digunakan, termasuk satu kali, harus dipilih dan dipatuhi, karena tidak ada standar referensi untuk menegakkan skala.
Carl
4

Pandangan sederhana untuk dua pertanyaan pertama Anda adalah bahwa AIC terkait dengan tingkat kesalahan out-of-sample yang diharapkan dari model kemungkinan maksimum. Kriteria AIC didasarkan pada hubungan (Elemen persamaan Pembelajaran Statistik 7.27) di mana, mengikuti notasi Anda, adalah jumlah parameter dalam model yang nilai kemungkinan maksimumnya adalah .

2E[lnPr(D|θ)]2NE[lnLm,D]+2kmN=1NE[AICm,D]
kmmLm,D

Istilah di sebelah kiri adalah tingkat "kesalahan" out-of-sample yang diharapkan dari model kemungkinan maksimum , menggunakan log probabilitas sebagai metrik kesalahan. Faktor -2 adalah koreksi tradisional yang digunakan untuk membangun penyimpangan (berguna karena dalam situasi tertentu itu mengikuti distribusi chi-square).m={θ}

Tangan kanan terdiri dari tingkat "kesalahan" dalam sampel yang diperkirakan dari kemungkinan log yang dimaksimalkan, ditambah dengan istilah mengoreksi optimisme kemungkinan log yang dimaksimalkan, yang memiliki kebebasan untuk menyesuaikan sedikit data.2km/N

Dengan demikian, AIC adalah perkiraan out-of-sample "error" tingkat (penyimpangan) kali .N

jwimberley
sumber