Saya sedikit bingung dengan formula yang disajikan dalam "Pengantar Pembelajaran Statistik" Hastie. Dalam Bab 6, halaman 212 (pencetakan keenam, tersedia di sini ), dinyatakan bahwa:
Untuk model linier dengan noise Gaussian, menjadi jumlah prediktor dan menjadi estimasi varians kesalahan. Namun,
Yang dinyatakan dalam Bab 3, halaman 66.
Yang akan menyiratkan:
Itu tidak benar. Bisakah seseorang menunjukkan apa yang saya lakukan salah?
regression
machine-learning
aic
Sue Doh Nimh
sumber
sumber
Jawaban:
Saya pikir Anda membingungkan dua residu jumlah kuadrat yang Anda miliki. Anda memiliki satu RSS untuk memperkirakanσ^2 dalam rumus, RSS ini dalam beberapa hal tidak tergantung pada jumlah parameter, p . Iniσ^2 harus diperkirakan menggunakan semua kovariat Anda, memberi Anda unit kesalahan awal . Anda harus memanggil RSS dalam rumus untuk AIC :RSSpi , artinya sesuai dengan model i dengan p parameter, ( Mungkin ada banyak model denganp parameter ). Jadi RSS dalam rumus dihitung untuk model tertentu, sedangkan RSS untukσ^2 adalah untuk model lengkap.
Ini juga dicatat di halaman sebelumnya, di manaσ^2 diperkenalkan untuk Cp .
Jadi RSS untuk formula dalam AIC tidak tergantungp , dihitung untuk model yang diberikan. Memperkenalkanσ^2 untuk semua ini hanya memiliki unit dasar untuk kesalahan, sehingga ada perbandingan "adil" antara jumlah parameter dan pengurangan kesalahan. Anda perlu membandingkan jumlah parameter dengan sesuatu yang diskalakan dengan besarnya kesalahan.
Jika Anda tidak akan menskala RSS dengan kesalahan baseline, mungkin RSSnya menurun lebih banyak daripada jumlah variabel yang diperkenalkan dan karenanya Anda menjadi lebih rakus dalam menambahkan lebih banyak variabel. Jika Anda menskalakannya ke beberapa unit, perbandingan jumlah parameter tidak tergantung dari besarnya kesalahan baseline.
Ini bukan cara umum untuk menghitung AIC, tetapi pada dasarnya bermuara pada sesuatu yang mirip dengan ini dalam kasus di mana dimungkinkan untuk mendapatkan versi yang lebih sederhana dari formula.
sumber
Sayangnya ini akan menjadi jawaban yang agak tidak memuaskan ...
Pertama-tama biasanya untuk perhitungan AIC Anda akan menggunakan estimasi Kemungkinan maksimumσ2 yang akan bias. Jadi itu akan berkurang menjadiσ2=RSSn dan akhirnya perhitungan yang Anda lakukan akan dikurangi menjadi 1+2dn . Kedua, saya akan merujuk Anda ke artikel Wikipedia tentang AIC khususnya di bagian kasus penyetaraan . Seperti yang Anda lihat di sana jelas bahwa sebagian besar derivasi menghilangkan konstantaC . Konstanta ini tidak relevan untuk tujuan perbandingan model sehingga dihilangkan. Agak umum untuk melihat derivasi kontradiktif AIC karena masalah itu. Misalnya Analisis Statistik Multivariat Terapan Johnson & Wichern , edisi ke-6 memberikan AIC sebagai:nlog(RSSN)+2d (Bab 7.6), yang jelas tidak menyamakan definisi James et al. Anda menggunakan. Buku tidak salah per se . Hanya orang yang menggunakan konstanta berbeda. Dalam kasus James et al. buku sepertinya mereka tidak menyinggung poin ini. Dalam buku-buku lain misalnya. Ravishanker dan Dey's A First Course dalam Linear Model Theory ini bahkan lebih mendalam ketika penulis menulis:
yang menariknya juga tidak bisa secara bersamaan benar. Seperti yang ditulis oleh Burnham & Anderson (1998) Bab 2.2 : " Dalam estimasi kasus kuadrat terkecil (LS) dengan kesalahan yang terdistribusi normal, dan selain dari konstanta aditif yang berubah-ubah, AIC dapat dinyatakan sebagai fungsi sederhana dari jumlah kuadrat kuadrat yang tersisa. . "; B&A menyarankan varian AIC yang sama yang digunakan J&W. Yang mengacaukan Anda adalah konstanta tertentu (dan fakta bahwa Anda tidak menggunakan estimasi ML untuk residu.) Melihat Pengenalan Pola M. Bishop dan Pembelajaran Mesin (2006) Saya menemukan definisi yang bahkan lebih kontradiktif sebagai:
yang lucu karena tidak hanya menghilangkan pengali dari kertas asli tetapi juga pergi ke depan untuk meruntuhkan tanda-tanda sehingga dapat menggunakan seleksi berbasis AIC sebagai masalah maksimalisasi ...
Saya akan merekomendasikan tetap dengan definisi kuno- 2 log( L ) + 2 p jika Anda ingin melakukan derivasi teoritis. Ini yang dinyatakan Akaike di koran aslinya. Semua formula antara lainnya cenderung berantakan dan / atau membuat beberapa asumsi implisit. Jika ada penghiburan, Anda "tidak melakukan kesalahan".
sumber