Rumus AIC dalam Pengantar Pembelajaran Statistik

9

Saya sedikit bingung dengan formula yang disajikan dalam "Pengantar Pembelajaran Statistik" Hastie. Dalam Bab 6, halaman 212 (pencetakan keenam, tersedia di sini ), dinyatakan bahwa:

AIC=RSSnσ^2+2dn

Untuk model linier dengan noise Gaussian, d menjadi jumlah prediktor dan σ^menjadi estimasi varians kesalahan. Namun,

σ^2=RSS(n2)

Yang dinyatakan dalam Bab 3, halaman 66.

Yang akan menyiratkan:

AIC=(n2)n+2dn

Itu tidak benar. Bisakah seseorang menunjukkan apa yang saya lakukan salah?

Sue Doh Nimh
sumber
Kecuali saya melewatkan sesuatu, saya pikir buku itu tidak benar.
Glen_b -Reinstate Monica

Jawaban:

3

Saya pikir Anda membingungkan dua residu jumlah kuadrat yang Anda miliki. Anda memiliki satu RSS untuk memperkirakanσ^2 dalam rumus, RSS ini dalam beberapa hal tidak tergantung pada jumlah parameter, p. Iniσ^2harus diperkirakan menggunakan semua kovariat Anda, memberi Anda unit kesalahan awal . Anda harus memanggil RSS dalam rumus untuk AIC :RSSpi, artinya sesuai dengan model i dengan pparameter, ( Mungkin ada banyak model denganpparameter ). Jadi RSS dalam rumus dihitung untuk model tertentu, sedangkan RSS untukσ^2 adalah untuk model lengkap.

Ini juga dicatat di halaman sebelumnya, di mana σ^2 diperkenalkan untuk Cp.

Jadi RSS untuk formula dalam AIC tidak tergantung p, dihitung untuk model yang diberikan. Memperkenalkanσ^2untuk semua ini hanya memiliki unit dasar untuk kesalahan, sehingga ada perbandingan "adil" antara jumlah parameter dan pengurangan kesalahan. Anda perlu membandingkan jumlah parameter dengan sesuatu yang diskalakan dengan besarnya kesalahan.

Jika Anda tidak akan menskala RSS dengan kesalahan baseline, mungkin RSSnya menurun lebih banyak daripada jumlah variabel yang diperkenalkan dan karenanya Anda menjadi lebih rakus dalam menambahkan lebih banyak variabel. Jika Anda menskalakannya ke beberapa unit, perbandingan jumlah parameter tidak tergantung dari besarnya kesalahan baseline.

Ini bukan cara umum untuk menghitung AIC, tetapi pada dasarnya bermuara pada sesuatu yang mirip dengan ini dalam kasus di mana dimungkinkan untuk mendapatkan versi yang lebih sederhana dari formula.

Gumeo
sumber
Apakah Anda dapat memberikan beberapa referensi di mana saya dapat membaca lebih lanjut tentang alasan di balik estimasi varians kesalahan dalam model-model ini dengan sekumpulan prediktor yang tersedia sebagai lawan dari RSS dari beberapa subset? Saya melihat bagaimana jawaban Anda menjawab pertanyaan ini, tetapi saya tidak yakin mengapa itu sah untuk dilakukan.
Sue Doh Nimh
@SueDohNimh Slide ini memberikan awal yang baik. Perhatikan bahwa estimasi terbaik untukσ2 menggunakan model lengkap, diperkenalkan untuk Cp. AIC yang Anda miliki, adalah di manaσ2diketahui, tetapi Anda hanya menggunakan perkiraan terbaik yang bisa Anda dapatkan. Memperkirakanσ2bisa sangat sulit. Diskusi ini juga relevan. Ini juga relevan .
Gumeo
2
Anda juga harus membaca makalah asli Akaike, saya pikir itu adalah sumber terbaik, ia memiliki lebih dari 15 ribu kutipan seperti sekarang. Ini dia , Anda harus dapat menemukannya di suatu tempat online atau mengaksesnya dari universitas.
Gumeo
5

Sayangnya ini akan menjadi jawaban yang agak tidak memuaskan ...

Pertama-tama biasanya untuk perhitungan AIC Anda akan menggunakan estimasi Kemungkinan maksimum σ2yang akan bias. Jadi itu akan berkurang menjadiσ2=RSSn dan akhirnya perhitungan yang Anda lakukan akan dikurangi menjadi 1+2dn. Kedua, saya akan merujuk Anda ke artikel Wikipedia tentang AIC khususnya di bagian kasus penyetaraan . Seperti yang Anda lihat di sana jelas bahwa sebagian besar derivasi menghilangkan konstantaC. Konstanta ini tidak relevan untuk tujuan perbandingan model sehingga dihilangkan. Agak umum untuk melihat derivasi kontradiktif AIC karena masalah itu. Misalnya Analisis Statistik Multivariat Terapan Johnson & Wichern , edisi ke-6 memberikan AIC sebagai:nlog(RSSN)+2d(Bab 7.6), yang jelas tidak menyamakan definisi James et al. Anda menggunakan. Buku tidak salah per se . Hanya orang yang menggunakan konstanta berbeda. Dalam kasus James et al. buku sepertinya mereka tidak menyinggung poin ini. Dalam buku-buku lain misalnya. Ravishanker dan Dey's A First Course dalam Linear Model Theory ini bahkan lebih mendalam ketika penulis menulis:

SEBUAHsayaC(hal)=-2l(y;X,β^M.L.,σ^M.L.2)+2hal=-Ncatatan(σ^M.L.2)/2-N/2+2hal(7.5.10)

yang menariknya juga tidak bisa secara bersamaan benar. Seperti yang ditulis oleh Burnham & Anderson (1998) Bab 2.2 : " Dalam estimasi kasus kuadrat terkecil (LS) dengan kesalahan yang terdistribusi normal, dan selain dari konstanta aditif yang berubah-ubah, AIC dapat dinyatakan sebagai fungsi sederhana dari jumlah kuadrat kuadrat yang tersisa. . "; B&A menyarankan varian AIC yang sama yang digunakan J&W. Yang mengacaukan Anda adalah konstanta tertentu (dan fakta bahwa Anda tidak menggunakan estimasi ML untuk residu.) Melihat Pengenalan Pola M. Bishop dan Pembelajaran Mesin (2006) Saya menemukan definisi yang bahkan lebih kontradiktif sebagai:

SEBUAHsayaC=l(D|wM.L.)-M.(1.73)

yang lucu karena tidak hanya menghilangkan pengali dari kertas asli tetapi juga pergi ke depan untuk meruntuhkan tanda-tanda sehingga dapat menggunakan seleksi berbasis AIC sebagai masalah maksimalisasi ...

Saya akan merekomendasikan tetap dengan definisi kuno -2catatan(L.)+2haljika Anda ingin melakukan derivasi teoritis. Ini yang dinyatakan Akaike di koran aslinya. Semua formula antara lainnya cenderung berantakan dan / atau membuat beberapa asumsi implisit. Jika ada penghiburan, Anda "tidak melakukan kesalahan".

usεr11852
sumber
Ah! Yah itu memang agak antiklimaks tapi terima kasih. Namun dengan implikasi AIC Hastie keduanya meningkat secara linear dalam d dan bukan fungsi dari jumlah residu kuadrat sama sekali! Definisi lain yang Anda berikan paling tidak bervariasi dengan kesalahan set pelatihan, sedangkan AIC Hastie akan menyiratkan bahwa model optimal hanya akan menjadi satu dengan 0 prediktor. Apakah ada cara untuk menikahi itu?
Sue Doh Nimh
1
Maaf saya tidak tahu mengapa mereka memberikan formula itu. Biasanya ada alogterlibat di suatu tempat. Dalam teks mereka tidak banyak bekerja di sekitar AIC dan mereka fokus pada MallowCpjadi saya tidak akan terkejut jika mereka membuat beberapa asumsi sederhana. Secara umum bab itu tampaknya menggunakan konvensi yang agak aneh. Menikahinya tampaknya sama dengan menjatuhkan logaritma kurang lebih. Mereka juga tampaknya mendukung1Npengganda; Saya menduga ini dilakukan untuk membuat hal lebih miripCp. BTW, ini buku James . Hastie adalah akademisi yang luar biasa tetapi dia adalah penulis ke-3.
usεr11852
Saya sampai pada kesimpulan yang sama seperti Anda, membaca buku Hastie / Tibshirani yang terkenal "Unsur-unsur pembelajaran statistik" (hal.230-233), di mana definisi AIC / BIC sangat mirip dengan definisi mereka yang diberikan dalam "Pengantar statistik belajar di R ". Jadi, Hastie luar biasa akademis, tetapi dia tidak begitu baik dalam mendefinisikan AIC / BIC =).
Rodvi