Rumus AIC dalam Pengantar Pembelajaran Statistik

9

Saya sedikit bingung dengan formula yang disajikan dalam "Pengantar Pembelajaran Statistik" Hastie. Dalam Bab 6, halaman 212 (pencetakan keenam, tersedia di sini ), dinyatakan bahwa:

$AIC = \frac{RSS}{n\hat\sigma^2} + \frac{2d}{n}$

Untuk model linier dengan noise Gaussian, $d$ menjadi jumlah prediktor dan $\hat\sigma$ menjadi estimasi varians kesalahan. Namun,

$\hat\sigma^2 = \frac{RSS}{(n-2)}$

Yang dinyatakan dalam Bab 3, halaman 66.

Yang akan menyiratkan:

$AIC = \frac{(n-2)}{n} + \frac{2d}{n}$

Itu tidak benar. Bisakah seseorang menunjukkan apa yang saya lakukan salah?

regression machine-learning aic Sue Doh Nimh
sumber

Kecuali saya melewatkan sesuatu, saya pikir buku itu tidak benar.

Glen_b -Reinstate Monica

3

Saya pikir Anda membingungkan dua residu jumlah kuadrat yang Anda miliki. Anda memiliki satu RSS untuk memperkirakan $\hat{\sigma}^2$ dalam rumus, RSS ini dalam beberapa hal tidak tergantung pada jumlah parameter, $p$ . Ini $\hat{\sigma}^2$ harus diperkirakan menggunakan semua kovariat Anda, memberi Anda unit kesalahan awal . Anda harus memanggil RSS dalam rumus untuk AIC : $\text{RSS}_{p_i}$ , artinya sesuai dengan model $i$ dengan $p$ parameter, ( Mungkin ada banyak model dengan $p$ parameter ). Jadi RSS dalam rumus dihitung untuk model tertentu, sedangkan RSS untuk $\hat{\sigma}^2$ adalah untuk model lengkap.

Ini juga dicatat di halaman sebelumnya, di mana $\hat{\sigma}^2$ diperkenalkan untuk $C_p$ .

Jadi RSS untuk formula dalam AIC tidak tergantung $p$ , dihitung untuk model yang diberikan. Memperkenalkan $\hat{\sigma}^2$ untuk semua ini hanya memiliki unit dasar untuk kesalahan, sehingga ada perbandingan "adil" antara jumlah parameter dan pengurangan kesalahan. Anda perlu membandingkan jumlah parameter dengan sesuatu yang diskalakan dengan besarnya kesalahan.

Jika Anda tidak akan menskala RSS dengan kesalahan baseline, mungkin RSSnya menurun lebih banyak daripada jumlah variabel yang diperkenalkan dan karenanya Anda menjadi lebih rakus dalam menambahkan lebih banyak variabel. Jika Anda menskalakannya ke beberapa unit, perbandingan jumlah parameter tidak tergantung dari besarnya kesalahan baseline.

Ini bukan cara umum untuk menghitung AIC, tetapi pada dasarnya bermuara pada sesuatu yang mirip dengan ini dalam kasus di mana dimungkinkan untuk mendapatkan versi yang lebih sederhana dari formula.

Gumeo
sumber

Apakah Anda dapat memberikan beberapa referensi di mana saya dapat membaca lebih lanjut tentang alasan di balik estimasi varians kesalahan dalam model-model ini dengan sekumpulan prediktor yang tersedia sebagai lawan dari RSS dari beberapa subset? Saya melihat bagaimana jawaban Anda menjawab pertanyaan ini, tetapi saya tidak yakin mengapa itu sah untuk dilakukan.

Sue Doh Nimh

@SueDohNimh Slide ini memberikan awal yang baik. Perhatikan bahwa estimasi terbaik untuk

σ^{2}

$\sigma^2$ menggunakan model lengkap, diperkenalkan untuk

C_{p}

$C_p$ . AIC yang Anda miliki, adalah di mana

σ^{2}

$\sigma^2$ diketahui, tetapi Anda hanya menggunakan perkiraan terbaik yang bisa Anda dapatkan. Memperkirakan

σ^{2}

$\sigma^2$ bisa sangat sulit. Diskusi ini juga relevan. Ini juga relevan .

Gumeo

2

Anda juga harus membaca makalah asli Akaike, saya pikir itu adalah sumber terbaik, ia memiliki lebih dari 15 ribu kutipan seperti sekarang. Ini dia , Anda harus dapat menemukannya di suatu tempat online atau mengaksesnya dari universitas.

Gumeo

5

Sayangnya ini akan menjadi jawaban yang agak tidak memuaskan ...

Pertama-tama biasanya untuk perhitungan AIC Anda akan menggunakan estimasi Kemungkinan maksimum $\sigma^2$ yang akan bias. Jadi itu akan berkurang menjadi $\sigma^2 = \frac{RSS}{n}$ dan akhirnya perhitungan yang Anda lakukan akan dikurangi menjadi $1+2\frac{d}{n}$ . Kedua, saya akan merujuk Anda ke artikel Wikipedia tentang AIC khususnya di bagian kasus penyetaraan . Seperti yang Anda lihat di sana jelas bahwa sebagian besar derivasi menghilangkan konstanta $C$ . Konstanta ini tidak relevan untuk tujuan perbandingan model sehingga dihilangkan. Agak umum untuk melihat derivasi kontradiktif AIC karena masalah itu. Misalnya Analisis Statistik Multivariat Terapan Johnson & Wichern , edisi ke-6 memberikan AIC sebagai: $n \log(\frac{RSS}{N}) + 2d$ (Bab 7.6), yang jelas tidak menyamakan definisi James et al. Anda menggunakan. Buku tidak salah per se . Hanya orang yang menggunakan konstanta berbeda. Dalam kasus James et al. buku sepertinya mereka tidak menyinggung poin ini. Dalam buku-buku lain misalnya. Ravishanker dan Dey's A First Course dalam Linear Model Theory ini bahkan lebih mendalam ketika penulis menulis:

\begin{aligned} SEBUAH saya C (hal) & = - 2 l (y; X, {\hat{β}}_{M. L.}, {\hat{σ}}_{M. L.}^{2}) + 2 hal \\ = - N catatan ({\hat{σ}}_{M. L.}^{2}) / 2 - N / 2 + 2 hal (7.5.10) \end{aligned}

$\begin{align} AIC(p) &= -2l(y; X, \hat{\beta}_{ML}, \hat{\sigma}_{ML}^2) + 2p \\ &= -N \log(\hat{\sigma}_{ML}^2)/2 - N/2 + 2p \qquad (7.5.10) \end{align}$

yang menariknya juga tidak bisa secara bersamaan benar. Seperti yang ditulis oleh Burnham & Anderson (1998) Bab 2.2 : " Dalam estimasi kasus kuadrat terkecil (LS) dengan kesalahan yang terdistribusi normal, dan selain dari konstanta aditif yang berubah-ubah, AIC dapat dinyatakan sebagai fungsi sederhana dari jumlah kuadrat kuadrat yang tersisa. . "; B&A menyarankan varian AIC yang sama yang digunakan J&W. Yang mengacaukan Anda adalah konstanta tertentu (dan fakta bahwa Anda tidak menggunakan estimasi ML untuk residu.) Melihat Pengenalan Pola M. Bishop dan Pembelajaran Mesin (2006) Saya menemukan definisi yang bahkan lebih kontradiktif sebagai:

\begin{aligned} SEBUAH saya C & = l (D | w_{M. L.}) - M. (1.73) \end{aligned}

$\begin{align} AIC &= l(D|w_{ML}) - M \qquad (1.73) \end{align}$

yang lucu karena tidak hanya menghilangkan pengali dari kertas asli tetapi juga pergi ke depan untuk meruntuhkan tanda-tanda sehingga dapat menggunakan seleksi berbasis AIC sebagai masalah maksimalisasi ...

Saya akan merekomendasikan tetap dengan definisi kuno $−2\log(L)+2p$ jika Anda ingin melakukan derivasi teoritis. Ini yang dinyatakan Akaike di koran aslinya. Semua formula antara lainnya cenderung berantakan dan / atau membuat beberapa asumsi implisit. Jika ada penghiburan, Anda "tidak melakukan kesalahan".

usεr11852
sumber

Ah! Yah itu memang agak antiklimaks tapi terima kasih. Namun dengan implikasi AIC Hastie keduanya meningkat secara linear dalam d dan bukan fungsi dari jumlah residu kuadrat sama sekali! Definisi lain yang Anda berikan paling tidak bervariasi dengan kesalahan set pelatihan, sedangkan AIC Hastie akan menyiratkan bahwa model optimal hanya akan menjadi satu dengan 0 prediktor. Apakah ada cara untuk menikahi itu?

Sue Doh Nimh

1

Maaf saya tidak tahu mengapa mereka memberikan formula itu. Biasanya ada a

\log

$\log$ terlibat di suatu tempat. Dalam teks mereka tidak banyak bekerja di sekitar AIC dan mereka fokus pada Mallow

C_{p}

$C_p$ jadi saya tidak akan terkejut jika mereka membuat beberapa asumsi sederhana. Secara umum bab itu tampaknya menggunakan konvensi yang agak aneh. Menikahinya tampaknya sama dengan menjatuhkan logaritma kurang lebih. Mereka juga tampaknya mendukung

\frac{1}{N}

$\frac{1}{N}$ pengganda; Saya menduga ini dilakukan untuk membuat hal lebih mirip

C_{p}

$C_p$ . BTW, ini buku James . Hastie adalah akademisi yang luar biasa tetapi dia adalah penulis ke-3.

usεr11852

Saya sampai pada kesimpulan yang sama seperti Anda, membaca buku Hastie / Tibshirani yang terkenal "Unsur-unsur pembelajaran statistik" (hal.230-233), di mana definisi AIC / BIC sangat mirip dengan definisi mereka yang diberikan dalam "Pengantar statistik belajar di R ". Jadi, Hastie luar biasa akademis, tetapi dia tidak begitu baik dalam mendefinisikan AIC / BIC =).

Rodvi

Rumus AIC dalam Pengantar Pembelajaran Statistik

Jawaban: