Apakah ada alasan untuk lebih menyukai AIC atau BIC daripada yang lain?

222

AIC dan BIC adalah kedua metode menilai model yang dikenakan sanksi untuk jumlah parameter yang diestimasi. Seperti yang saya pahami, BIC menghukum model lebih banyak untuk parameter gratis daripada AIC. Di luar preferensi berdasarkan ketatnya kriteria, apakah ada alasan lain untuk memilih AIC daripada BIC atau sebaliknya?

russellpierce
sumber
1
Saya pikir lebih tepat untuk menyebut diskusi ini sebagai pilihan "fitur" atau "kovariat". Bagi saya, pemilihan model jauh lebih luas yang melibatkan spesifikasi distribusi kesalahan, bentuk fungsi tautan, dan bentuk kovariat. Ketika kita berbicara tentang AIC / BIC, kita biasanya dalam situasi di mana semua aspek pembangunan model diperbaiki, kecuali pemilihan kovariat.
6
Memutuskan kovariat tertentu untuk dimasukkan ke dalam model biasanya mengikuti istilah pemilihan model dan ada sejumlah buku dengan pemilihan model dalam judul yang terutama memutuskan kovariat model / parameter apa yang akan dimasukkan ke dalam model.
Michael Chernick
Saya tidak tahu apakah pertanyaan Anda berlaku khusus untuk filogeni (bioinformatika), tetapi jika demikian, penelitian ini dapat memberikan beberapa pemikiran tentang aspek ini: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin
Pertanyaan yang digabungkan juga menanyakan tentang KIC , harap perbarui teks pertanyaan dan sebutkan definisi KIC, lebih dulu dengan tautan.
smci
1
@smci Saya telah menambahkan stats.stackexchange.com/questions/383923/... untuk memungkinkan orang menggali pertanyaan terkait KIC jika tertarik.
russellpierce

Jawaban:

179

Pertanyaan Anda menyiratkan bahwa AIC dan BIC mencoba menjawab pertanyaan yang sama, yang tidak benar. AIC mencoba memilih model yang paling tepat menggambarkan realitas dimensi yang tidak diketahui. Ini berarti bahwa kenyataan tidak pernah ada dalam model kandidat yang sedang dipertimbangkan. Sebaliknya, BIC mencoba menemukan model TRUE di antara sekumpulan kandidat. Saya merasa agak aneh dengan asumsi bahwa realitas dipakai dalam salah satu model yang dibangun para peneliti di sepanjang jalan. Ini adalah masalah nyata bagi BIC.

Namun demikian, ada banyak peneliti yang mengatakan BIC lebih baik daripada AIC, menggunakan simulasi pemulihan model sebagai argumen. Simulasi ini terdiri dari menghasilkan data dari model A dan B, dan kemudian menyesuaikan kedua set data dengan dua model. Overfitting terjadi ketika model yang salah cocok dengan data lebih baik daripada menghasilkan. Inti dari simulasi ini adalah untuk melihat seberapa baik AIC dan BIC memperbaiki overfits ini. Biasanya, hasil menunjukkan fakta bahwa AIC terlalu liberal dan masih sering lebih suka model yang lebih kompleks, salah daripada model yang lebih sederhana dan benar. Sekilas simulasi ini tampaknya argumen yang benar-benar bagus, tetapi masalahnya adalah bahwa itu tidak ada artinya bagi AIC. Seperti yang saya katakan sebelumnya, AIC tidak menganggap bahwa salah satu model kandidat yang diuji adalah benar. Menurut AIC, semua model adalah perkiraan terhadap kenyataan, dan kenyataan seharusnya tidak pernah memiliki dimensi rendah. Setidaknya lebih rendah dari beberapa model kandidat.

Rekomendasi saya adalah menggunakan AIC dan BIC. Sebagian besar waktu mereka akan menyetujui model yang disukai, ketika mereka tidak, laporkan saja.

Jika Anda tidak puas dengan AIC dan BIC dan memiliki waktu luang untuk berinvestasi, lihat Minimum Deskripsi Panjang (MDL), pendekatan yang sama sekali berbeda yang mengatasi keterbatasan AIC dan BIC. Ada beberapa langkah yang berasal dari MDL, seperti kemungkinan maksimum yang dinormalisasi atau perkiraan Informasi Fisher. Masalah dengan MDL adalah bahwa secara matematis menuntut dan / atau intensif secara komputasi.

Namun, jika Anda ingin tetap berpegang pada solusi sederhana, cara yang bagus untuk menilai fleksibilitas model (terutama ketika jumlah parameternya sama, menjadikan AIC dan BIC tidak berguna) sedang melakukan Parametric Bootstrap, yang cukup mudah untuk diterapkan. Berikut ini tautan ke kertas di atasnya.

Beberapa orang di sini menganjurkan penggunaan validasi silang. Saya pribadi telah menggunakannya dan tidak menentangnya, tetapi masalahnya adalah bahwa pilihan di antara aturan pemotongan sampel (biarkan-keluar-satu, K-lipat, dll) adalah yang tidak berprinsip.

Dave Kellen
sumber
7
Perbedaan dapat dilihat murni dari sudut pandang matematis - BIC diturunkan sebagai perluasan asimtotik dari log P (data) di mana parameter model yang sebenarnya diambil sampel berdasarkan arbitrary tempat menghilang sebelumnya, AIC juga diturunkan dengan parameter yang benar dipegang tetap
Yaroslav Bulatov
4
Anda mengatakan bahwa "ada banyak peneliti yang mengatakan BIC lebih baik daripada AIC, menggunakan simulasi pemulihan model sebagai argumen. Simulasi ini terdiri dari menghasilkan data dari model A dan B, dan kemudian menyesuaikan kedua set data dengan dua model." Apakah Anda akan berbaik hati untuk menunjuk beberapa referensi. Saya ingin tahu tentang mereka! :)
deps_stats
2
Saya tidak percaya pernyataan di posting ini.
user9352
16
(-1) Penjelasan bagus, tapi saya ingin menantang pernyataan. @ Dave Kellen Bisakah Anda memberikan referensi ke mana gagasan bahwa model TRUE harus ditetapkan untuk BIC? Saya ingin menyelidiki hal ini, karena dalam buku ini penulis memberikan bukti yang meyakinkan bahwa ini bukan masalahnya.
gui11aume
2
Jawaban yang bagus tetapi saya sangat tidak setuju dengan pernyataan "kenyataan seharusnya tidak memiliki dimensi rendah". Ini tergantung pada "sains" apa yang Anda terapkan pada model-model yoru
David
76

Meskipun AIC dan BIC keduanya merupakan estimasi Kemungkinan Maksimum yang didorong dan menghukum parameter gratis dalam upaya untuk memerangi overfitting, mereka melakukannya dengan cara yang menghasilkan perilaku yang sangat berbeda. Mari kita lihat satu versi metode yang disajikan secara umum (yang hasilnya berupa kesalahan yang terdistribusi normal dan asumsi berperilaku baik lainnya):

  • AIC = -2 * ln (kemungkinan) + 2 * k,

dan

  • BIC = -2 * ln (kemungkinan) + ln (N) * k,

dimana:

  • k = model derajat kebebasan
  • N = jumlah pengamatan

Model terbaik dalam kelompok dibandingkan adalah model yang meminimalkan skor ini, dalam kedua kasus. Jelas, AIC tidak bergantung langsung pada ukuran sampel. Terlebih lagi, secara umum, AIC menghadirkan bahaya yang mungkin berlebihan, sedangkan BIC menyajikan bahaya yang mungkin tidak pantas, hanya berdasarkan bagaimana mereka menghukum parameter bebas (2 * k dalam AIC; ln (N) * k dalam BIC). Secara diakronik, ketika data diperkenalkan dan skor dihitung ulang, pada N yang relatif rendah (7 dan kurang) BIC lebih toleran terhadap parameter bebas daripada AIC, tetapi kurang toleran pada N yang lebih tinggi (karena log natural N mengatasi 2).

Selain itu, AIC bertujuan untuk menemukan model perkiraan terbaik untuk proses pembuatan data yang tidak diketahui (melalui meminimalkan perkiraan perbedaan KL ). Dengan demikian, ia gagal untuk konvergen dalam probabilitas ke model yang benar (dengan asumsi satu hadir dalam kelompok yang dievaluasi), sedangkan BIC memang konvergen karena N cenderung tak hingga.

Jadi, seperti dalam banyak pertanyaan metodologis, yang lebih disukai tergantung pada apa yang Anda coba lakukan, metode lain apa yang tersedia, dan apakah ada atau tidak fitur yang diuraikan (konvergensi, toleransi relatif untuk parameter bebas, meminimalkan perbedaan KL yang diharapkan ), bicaralah dengan tujuan Anda.

John L. Taylor
sumber
8
|t|>2|t|>log(n)
2
Jawaban yang bagus, +1. Saya terutama suka peringatan tentang apakah model yang sebenarnya benar-benar hadir dalam kelompok yang dievaluasi. Saya berpendapat bahwa "model sejati" tidak pernah ada. (Box & Draper mengatakan bahwa "semua model itu salah, tetapi ada pula yang berguna", dan Burnham & Anderson menyebutnya "ukuran efek meruncing".) Itulah sebabnya saya tidak terkesan dengan konvergensi BIC di bawah asumsi yang tidak realistis dan lebih lagi dengan tujuan AIC pada pendekatan terbaik di antara model-model yang sebenarnya kita lihat.
Stephan Kolassa
68

Penjelasan cepat saya adalah

  • AIC adalah yang terbaik untuk prediksi karena sama asymptotnya dengan cross-validation.
  • BIC terbaik untuk penjelasan karena memungkinkan estimasi yang konsisten dari proses pembuatan data yang mendasarinya.
Rob Hyndman
sumber
AIC setara dengan validasi silang K-fold, BIC setara dengan validasi silang leve-one-out. Meski demikian, kedua teorema hanya berlaku dalam kasus regresi linier.
5
mbq, ini AIC / LOO (bukan LKO atau K-fold) dan saya tidak berpikir buktinya di Stone 1977 mengandalkan model linier. Saya tidak tahu detail hasil BIC.
ars
11
ars benar. Ini AIC = LOO dan BIC = K-lipat di mana K adalah fungsi rumit dari ukuran sampel.
Rob Hyndman
Selamat, Anda mendapatkan saya; Saya sedang terburu-buru menulis itu dan jadi saya membuat kesalahan ini, jelas bagaimana Rob menulisnya. Neverthelss itu dari Shao 1995, di mana ada asumsi bahwa model itu linier. Saya akan menganalisis Stone, tetap saya pikir Anda, ars, mungkin benar karena LOO di bidang saya memiliki reputasi yang sama buruknya dengan berbagai IC.
Deskripsi di Wikipedia ( en.wikipedia.org/wiki/... ) membuatnya tampak seperti validasi silang K-fold adalah semacam simulasi berulang untuk memperkirakan stabilitas parameter. Saya dapat melihat mengapa AIC diharapkan stabil dengan LOO (karena LOO dapat dilakukan secara mendalam), tetapi saya tidak mengerti mengapa BIC stabil dengan K-fold kecuali K juga lengkap. Apakah rumus kompleks yang mendasari nilai untuk K membuatnya lengkap? Atau ada hal lain yang terjadi?
russellpierce
16

Dalam pengalaman saya, BIC menghasilkan underfitting yang serius dan AIC biasanya berkinerja baik, ketika tujuannya adalah untuk memaksimalkan diskriminasi prediksi.

Frank Harrell
sumber
1
Super tertunda, tetapi karena ini masih berperingkat tinggi di Google, apakah Anda keberatan merinci bidang apa yang Anda kerjakan? Saya hanya ingin tahu apakah ada efek domain yang harus kita perhatikan.
verybadatthis
@verybadatthis: biostatistik klinis (hanya google "Frank Harrell", ia memiliki keberadaan web)
Ben Bolker
13

"Derivasi" informatif dan dapat diakses dari AIC dan BIC oleh Brian Ripley dapat ditemukan di sini: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley memberikan beberapa komentar tentang asumsi di balik hasil matematika. Berlawanan dengan apa yang ditunjukkan oleh beberapa jawaban lainnya, Ripley menekankan bahwa AIC didasarkan pada asumsi bahwa model itu benar. Jika model tidak benar, perhitungan umum akan mengungkapkan bahwa "jumlah parameter" harus diganti dengan kuantitas yang lebih rumit. Beberapa referensi diberikan dalam slide Ripleys. Namun, perlu diketahui bahwa untuk regresi linier (secara tegas berbicara dengan varian yang diketahui), secara umum, kuantitas yang lebih rumit disederhanakan agar sama dengan jumlah parameter.

NRH
sumber
3
(+1) Namun, Ripley salah pada titik di mana ia mengatakan bahwa model harus bersarang. Tidak ada batasan seperti itu pada derivasi asli Akaike, atau, untuk lebih jelas, pada derivasi menggunakan AIC sebagai estimator dari divergensi Kullback-Leibler. Bahkan, dalam makalah yang saya kerjakan, saya menunjukkan agak "secara empiris" bahwa AIC bahkan dapat digunakan untuk pemilihan model struktur kovarians (jumlah parameter yang berbeda, model yang jelas bukan bersarang). Dari ribuan simulasi deret waktu yang saya jalankan dengan struktur kovarians yang berbeda, tidak satupun dari mereka AIC yang salah ...
Néstor
... jika model "yang benar" sebenarnya ada di set model (ini, bagaimanapun, juga menyiratkan bahwa untuk model yang saya kerjakan, varians dari estimator sangat kecil ... tapi itu hanya teknis detail).
Néstor
1
@ Néstor, saya setuju. Poin tentang model yang disarangkan adalah aneh.
NRH
3
Saat memilih struktur kovarians untuk data longitudinal (model efek campuran atau kuadrat terkecil umum) AIC dapat dengan mudah menemukan struktur yang salah jika ada lebih dari 3 struktur kandidat. Jika jika ada lebih dari 3 Anda harus menggunakan bootstrap atau cara lain untuk menyesuaikan ketidakpastian model yang disebabkan oleh menggunakan AIC untuk memilih struktur.
Frank Harrell
8

Memang satu-satunya perbedaan adalah bahwa BIC AIC diperluas untuk mempertimbangkan jumlah objek (sampel). Saya akan mengatakan bahwa meskipun keduanya cukup lemah (dibandingkan dengan misalnya cross-validation) lebih baik menggunakan AIC, daripada lebih banyak orang akan terbiasa dengan singkatan - memang saya belum pernah melihat kertas atau program di mana BIC akan digunakan (masih saya akui bahwa saya bias terhadap masalah di mana kriteria seperti itu tidak berfungsi).

Sunting: AIC dan BIC setara dengan validasi silang dengan menyediakan dua asumsi penting - ketika asumsi itu ditetapkan, jadi ketika model tersebut merupakan kemungkinan maksimum dan ketika Anda hanya tertarik dengan kinerja model pada data pelatihan. Dalam hal menciutkan beberapa data menjadi semacam konsensus, mereka sangat oke.
Jika membuat mesin prediksi untuk beberapa masalah di dunia nyata, yang pertama salah, karena set pelatihan Anda hanya mewakili secuil informasi tentang masalah yang Anda hadapi, sehingga Anda tidak dapat mengoptimalkan model Anda; yang kedua salah, karena Anda berharap bahwa model Anda akan menangani data baru yang Anda bahkan tidak bisa berharap bahwa set pelatihan akan representatif. Dan untuk tujuan ini CV diciptakan; untuk mensimulasikan perilaku model ketika dihadapkan dengan data independen. Dalam hal pemilihan model, CV tidak hanya memberi Anda perkiraan kualitas, tetapi juga distribusi perkiraan kualitas, sehingga memiliki keuntungan besar sehingga bisa dikatakan "Saya tidak tahu, apa pun data baru yang akan datang, salah satu dari mereka dapat lebih baik."

Scortchi
sumber
Apakah itu berarti bahwa untuk ukuran sampel tertentu BIC mungkin kurang ketat dari AIC?
russellpierce
1
Ketat bukan kata yang terbaik di sini, melainkan lebih toleran terhadap parameter; masih, ya, untuk definisi umum (dengan log natural) itu terjadi selama 7 dan kurang objek.
AIC secara asimtotik sama dengan cross-validation.
Rob Hyndman
5
@ mbq - Saya tidak melihat bagaimana validasi silang mengatasi masalah "tidak representatif". Jika data pelatihan Anda tidak mewakili data yang akan Anda terima di masa mendatang, Anda dapat memvalidasi silang semua yang Anda inginkan, tetapi itu tidak mewakili "kesalahan generalisasi" yang sebenarnya akan Anda hadapi (seperti " true "data baru tidak diwakili oleh bagian yang tidak dimodelkan dari data pelatihan). Mendapatkan kumpulan data yang representatif sangat penting jika Anda ingin membuat prediksi yang baik.
probabilityislogic
1
@ MBQ - maksud saya adalah bahwa Anda tampaknya "dengan lembut menolak" seleksi berbasis IC berdasarkan alternatif yang tidak memperbaiki masalah. Validasi silang itu baik (walaupun perhitungannya layak?), Tetapi data yang tidak representatif tidak dapat ditangani dengan menggunakan proses yang didorong oleh data. Setidaknya tidak andal. Anda perlu memiliki informasi sebelumnya yang memberitahu Anda bagaimana itu tidak representatif (atau lebih umum, koneksi logis apa yang dimiliki data "tidak representatif" dengan data aktual di masa depan yang akan Anda amati).
probabilityislogic
5

Seperti yang Anda sebutkan, AIC dan BIC adalah metode untuk menghukum model karena memiliki lebih banyak variabel regressor. Fungsi penalti digunakan dalam metode ini, yang merupakan fungsi dari jumlah parameter dalam model.

  • Saat menerapkan AIC, fungsi penalti adalah z (p) = 2 p .

  • Ketika menerapkan BIC, fungsi penalti adalah z (p) = p ln ( n ), yang didasarkan pada menafsirkan penalti sebagai yang berasal dari informasi sebelumnya (maka nama Bayesian Information Criterion).

Ketika n besar, kedua model akan menghasilkan hasil yang sangat berbeda. Kemudian BIC menerapkan penalti yang jauh lebih besar untuk model yang kompleks, dan karenanya akan mengarah pada model yang lebih sederhana daripada AIC. Namun, seperti yang dinyatakan dalam Wikipedia di BIC :

Perlu dicatat bahwa dalam banyak aplikasi ..., BIC hanya mengurangi ke pemilihan kemungkinan maksimum karena jumlah parameter sama untuk model yang diminati.

Amanda
sumber
4
perhatikan bahwa AIC juga setara dengan ML ketika dimensi tidak berubah. Jawaban Anda membuatnya sepertinya ini hanya untuk BIC.
probabilityislogic
5

Dari apa yang saya tahu, tidak ada banyak perbedaan antara AIC dan BIC. Keduanya merupakan pendekatan matematis yang nyaman yang dapat dilakukan untuk membandingkan model secara efisien. Jika mereka memberikan Anda model "terbaik" yang berbeda, itu mungkin berarti Anda memiliki ketidakpastian model tinggi, yang lebih penting untuk dikhawatirkan daripada apakah Anda harus menggunakan AIC atau BIC. Saya pribadi menyukai BIC lebih baik karena ia meminta lebih banyak (lebih sedikit) dari suatu model jika memiliki lebih banyak (lebih sedikit) data yang sesuai dengan parameternya - seperti guru yang meminta standar kinerja yang lebih tinggi (lebih rendah) jika siswa mereka memiliki lebih banyak (lebih sedikit) ) waktu untuk belajar tentang subjek. Bagi saya ini sepertinya hal yang intuitif untuk dilakukan. Tapi kemudian saya yakin ada juga argumen yang sama intuitif dan menarik untuk AIC juga, mengingat bentuknya yang sederhana.

Sekarang setiap kali Anda membuat perkiraan, pasti akan ada beberapa kondisi ketika perkiraan tersebut adalah sampah. Ini dapat dilihat tentunya untuk AIC, di mana terdapat banyak "penyesuaian" (AICc) untuk memperhitungkan kondisi tertentu yang membuat perkiraan awal menjadi buruk. Ini juga hadir untuk BIC, karena ada berbagai metode lain yang lebih tepat (tetapi masih efisien) ada, seperti Fully Laplace Approximations untuk campuran g-priors Zellner (BIC adalah pendekatan untuk metode pendekatan Laplace untuk integral).

Satu tempat di mana keduanya adalah omong kosong adalah ketika Anda memiliki informasi penting sebelumnya tentang parameter dalam setiap model yang diberikan. AIC dan BIC tidak perlu menghukum model di mana parameter diketahui sebagian dibandingkan dengan model yang memerlukan parameter untuk diperkirakan dari data.

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

Dan kemudian terus menetapkan model probabilitas yang sama (parameter yang sama, data yang sama, perkiraan yang sama, dll.), Saya akan mendapatkan set nilai BIC yang sama. Hanya dengan melampirkan semacam makna unik pada huruf logis "M" seseorang dapat ditarik ke dalam pertanyaan-pertanyaan yang tidak relevan tentang "model yang benar" (gema dari "agama yang benar"). Satu-satunya hal yang "mendefinisikan" M adalah persamaan matematika yang menggunakannya dalam perhitungan mereka - dan ini hampir tidak pernah memilih satu dan hanya satu definisi. Saya bisa memasukkan proposisi prediksi tentang M ("model ke-i akan memberikan prediksi terbaik"). Saya pribadi tidak bisa melihat bagaimana ini akan mengubah salah satu kemungkinan, dan karenanya seberapa baik atau buruk BIC (AIC dalam hal ini juga - walaupun AIC didasarkan pada derivasi yang berbeda)

Dan selain itu, apa yang salah dengan pernyataan Jika model yang benar adalah di set saya mempertimbangkan, maka ada 57% kemungkinan bahwa itu adalah model B . Tampak cukup masuk akal bagi saya, atau Anda bisa menggunakan versi yang lebih "lunak" ada kemungkinan 57% bahwa model B adalah yang terbaik di luar rangkaian yang sedang dipertimbangkan

Satu komentar terakhir: Saya pikir Anda akan menemukan banyak pendapat tentang AIC / BIC karena ada orang yang tahu tentang mereka.

probabilityislogic
sumber
4

AIC jarang digunakan, karena hanya benar-benar valid tanpa gejala. Hampir selalu lebih baik untuk menggunakan AICc (AIC dengan c orrection untuk ukuran sampel yang terbatas). AIC cenderung overparameterize: masalah itu sangat berkurang dengan AICc. Pengecualian utama untuk menggunakan AICc adalah ketika distribusi yang mendasarinya sangat leptokurtik. Untuk lebih lanjut tentang ini, lihat buku Model Selection oleh Burnham & Anderson.

pengguna2875
sumber
1
Jadi, apa yang Anda katakan adalah bahwa AIC tidak cukup menghukum model untuk parameter sehingga menggunakannya sebagai kriteria dapat menyebabkan overparametrization. Anda merekomendasikan penggunaan AICc sebagai gantinya. Untuk mengembalikan ini dalam konteks pertanyaan awal saya, karena BIC sudah lebih ketat dari AIC apakah ada alasan untuk menggunakan AICc di atas BIC?
russellpierce
1
Apa yang Anda maksud dengan AIC valid secara asimptotik. Seperti yang ditunjukkan oleh John Taylor AIC tidak konsisten. Saya pikir produknya yang kontras dengan AIC dengan BIC adalah yang terbaik. Saya tidak melihat keduanya sama dengan cross-validation. Mereka semua memiliki properti bagus yang biasanya memuncak pada model dengan jumlah variabel kurang dari maksimum. Tetapi mereka semua dapat memilih model yang berbeda.
Michael Chernick
4

AIC dan BIC adalah kriteria informasi untuk membandingkan model. Masing-masing mencoba menyeimbangkan fit model dan kekikiran dan masing-masing menghukum berbeda untuk jumlah parameter.

AIC=2k2ln(L)
kL2ln(L)2k

BIC=kln(n)2ln(L)

Saya belum pernah mendengar tentang KIC.

Peter Flom
sumber
belum pernah mendengar tentang KIC, tetapi untuk AIC dan BIC lihat pertanyaan terkait, atau cari AIC. stats.stackexchange.com/q/577/442
Henrik
1
(Jawaban ini digabungkan dari pertanyaan rangkap yang juga meminta interpretasi "KIC".)
whuber
3
Model tidak perlu disarangkan untuk dibandingkan dengan AIC atau BIC.
Makro
1

Sangat singkat:

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=ukuran sampel (Shao 1997). Ada banyak versi BIC yang berbeda yang turun untuk membuat perkiraan yang berbeda dari kemungkinan marginal atau dengan asumsi prior yang berbeda. Misalnya, alih-alih menggunakan seragam sebelumnya dari semua model yang mungkin seperti dalam BIC asli, EBIC menggunakan seragam sebelumnya dari model ukuran tetap ( Chen & Chen 2008 ) sedangkan BICq menggunakan distribusi Bernouilli yang menentukan probabilitas sebelumnya untuk setiap parameter yang akan dimasukkan .

lambda=2lambda=log(n), di mana mengoptimalkan satu tujuan (LASSO atau regresi net elastis) diikuti oleh penyetelan parameter regularisasi (s) berdasarkan beberapa tujuan lain (yang misalnya meminimalkan kesalahan prediksi validasi silang, AIC atau BIC).

n1n

Perhatikan bahwa kesalahan LOOCV juga dapat dihitung secara analitis dari residual dan diagonal dari matriks topi , tanpa harus benar-benar melakukan validasi silang apa pun. Ini akan selalu menjadi alternatif untuk AIC sebagai perkiraan asimptotik dari kesalahan LOOCV.

Referensi

Stone M. (1977) Kesetaraan asimtotik pilihan model dengan cross-validation dan kriteria Akaike. Jurnal Royal Statistical Society Seri B. 39, 44–7.

Shao J. (1997) Teori asimptotik untuk pemilihan model linier. Statistica Sinica 7, 221-242.

Tom Wenseleers
sumber