Arti 'jumlah parameter' dalam AIC

21

Saat menghitung AIC,

AIC=2k2lnL

k berarti 'jumlah parameter'. Tapi apa yang dianggap sebagai parameter? Jadi misalnya dalam model

y=ax+b

Apakah a dan b selalu dihitung sebagai parameter? Bagaimana jika saya tidak peduli dengan nilai intersep, dapatkah saya mengabaikannya atau masih menghitungnya?

Bagaimana jika

y=af(c,x)+b

di mana f adalah fungsi dari c dan x, apakah sekarang saya menghitung 3 parameter?

Tontonan Bob
sumber
9
Ini adalah pertanyaan yang bagus, karena ada kehalusan: adalah jumlah parameter yang dapat diidentifikasi untuk diperkirakan. Misalnya, meskipun dalam model regresi Y N ( β 0 + β 1 X 1 + β 2 X 2 + β 3 ( X 1 + X 2 ) , σ 2 ) lima parameter ditulis, namun k = 4 . (Model ini setara dengan Y N (kYN(β0+β1X1+β2X2+β3(X1+X2),σ2) k=4 dengan α 1 = β 1 + β 3 dan α 2 = β 2 + β 3 , yang secara eksplisit hanya membutuhkan empat parameter.)YN(β0+α1X1+α2X2,σ2)α1=β1+β3α2=β2+β3
whuber
3
Secara ketat, Anda menghitung semua parameter bebas yang dapat diidentifikasi - parameter rata-rata, parameter bentuk dan skala, apa pun (dan itu penting untuk AIC C ), tetapi untuk AIC tidak ada konsekuensinya jika Anda menghilangkan parameter yang umum untuk model yang dibandingkan. Jadi misalnya, dalam regresi, Anda harus menghitung parameter varians. Oleh karena itu, menurut perhitungan saya, semua parameter Anda diperhitungkan dalam pertanyaan Anda pendek - tetapi jika ada persis satu di semua model, tidak ada salahnya untuk menjatuhkannya untuk AIC. R secara eksplisit menghitung parameter varians ketika menghitung AIC dalam model regresi. C
Glen_b -Reinstate Monica
@whuber Mengapa komentar yang luar biasa ini tidak diposting sebagai jawaban? :)
Alexis
Terima kasih, @Alexis. Saya memposting pemikiran ini sebagai komentar karena ide tersebut cukup tercakup dalam jawaban P Schnell: Saya hanya ingin menekankannya sedikit lagi.
whuber

Jawaban:

17

Seperti yang disebutkan mugen, mewakili jumlah parameter yang diestimasi . Dengan kata lain, ini adalah jumlah jumlah tambahan yang perlu Anda ketahui untuk menentukan model secara penuh. Dalam model regresi linier sederhana y = a x + b, Anda dapat memperkirakank

y=ax+b
, b , atau keduanya. Jumlah berapa pun yang tidak Anda perkirakan harus Anda perbaiki. Tidak ada "mengabaikan" parameter dalam arti bahwa Anda tidak mengetahuinya dan tidak peduli. Model paling umum yang tidak memperkirakan a dan b adalah model no-intercept, di mana kami memperbaiki b = 0ababb=0. Ini akan memiliki 1 parameter. Anda dapat dengan mudah memperbaiki atau b = 1 jika Anda memiliki alasan untuk percaya bahwa itu mencerminkan kenyataan. (Titik halus: σ juga merupakan parameter dalam regresi linier sederhana, tetapi karena ada di setiap model Anda dapat menjatuhkannya tanpa mempengaruhi perbandingan AIC.)a=2b=1σ

Jika model Anda adalah jumlah parameter tergantung pada apakah Anda memperbaiki salah satu dari nilai-nilai ini, dan pada bentuk f . Sebagai contoh, jika kita ingin memperkirakan a , b , c dan tahu bahwa f ( c , x ) = x c

y=af(c,x)+b
fa,b,cf(c,x)=xc , maka ketika kita menuliskan model kita memiliki dengan tiga parameter yang tidak diketahui. Namun, jika f ( c ,
y=axc+b
, maka kita memiliki model y = a c x + b yang benar-benar hanya memiliki dua parameter: a c dan b .f(c,x)=cx
y=acx+b
acb

Sangat penting bahwa adalah keluarga fungsi yang diindeks oleh c . Jika yang Anda tahu adalah bahwa f ( c , x ) kontinu dan itu tergantung pada c dan x , maka Anda kurang beruntung karena ada banyak fungsi kontinu yang tak terhitung jumlahnya.f(c,x)cf(c,x)cx

P Schnell
sumber
2
(+1) Mungkin perlu disebutkan bahwa di seluruh "taksiran" berarti "taksir dengan kemungkinan maksimum".
Scortchi
Apakah itu penting? Pada kenyataannya, adalah simulasi yang sangat besar, tidak mungkin untuk dipisahkan secara analitis, dan membutuhkan waktu berjam-jam untuk dihitung. Saya mencobanya dengan sekitar 20 nilai c yang berbeda karena hanya itu yang kami punya waktu, dan saya tetap dengan nilai c yang memberikan r 2 terbaik di akhir hari. Jadi dengan cara berbicara saya memperkirakan cf(c,x)ccr2c sebaik mungkin, meskipun tidak seperti yang Anda lakukan dalam regresi. Tentunya itu masih dianggap sebagai parameter untuk AIC?
Tontonan Bob
2
@SontonBob: Ya - ketika Anda membandingkan dua model perbedaan dalam kemungkinan log yang dimaksimalkan adalah penaksir yang bias dari perbedaan dalam kehilangan informasi Kullback-Leibler yang diharapkan & ketentuan hukuman dalam AIC kira-kira mengoreksi bias itu.
Scortchi
1
@SontonBob: Saya harus menyebutkan ada modifikasi AIC untuk persamaan estimasi umum & sejenisnya - mereka menggunakan kuasi-kemungkinan dimaksimalkan & istilah hukuman yang agak lebih kompleks.
Scortchi
4

Untuk model statistik apa pun, nilai AIC adalah mana k adalah jumlah parameter dalam model, dan L adalah nilai maksimal dari fungsi kemungkinan untuk model.AIC=2k2ln(L)

(lihat disini )

Seperti yang Anda lihat, mewakili jumlah parameter yang diestimasi dalam setiap model. Jika model Anda menyertakan intersep (yaitu, jika Anda menghitung estimasi titik, varians, dan interval kepercayaan untuk intersep) maka dihitung sebagai parameter. Di sisi lain, jika Anda menghitung model tanpa intersep, itu tidak masuk hitungan.k

Ingatlah bahwa AIC tidak hanya merangkum goodness of fit tetapi juga mempertimbangkan kompleksitas model. Itu sebabnya ada, untuk menghukum model dengan lebih banyak parameter.k

Saya tidak merasa cukup berpengetahuan untuk menjawab pertanyaan kedua Anda, saya akan meninggalkannya untuk anggota lain dari komunitas.

mugen
sumber
1
Apakah itu berarti jika saya Box-Cox mentransformasikan baik x dan y, maka dari masing-masing transformasi juga dihitung sebagai parameter? λ
Tontonan Bob
1
Ya tentu.
PA6OTA
1

Pertama, bagi mereka yang mungkin tidak terbiasa dengan AIC: Akaike Information Criterion (AIC) adalah metrik sederhana yang dirancang untuk membandingkan "kebaikan" model.

Menurut AIC, ketika mencoba untuk memilih antara dua model berbeda yang menerapkan input dan variabel respon yang sama , yaitu model yang dirancang untuk memecahkan masalah yang sama, model dengan AIC yang lebih rendah dianggap "lebih baik".

k

cf(c,x)k

diri sendiri
sumber