Misalkan kita memiliki variabel acak . Jika adalah parameter sebenarnya, fungsi kemungkinan harus dimaksimalkan dan turunannya sama dengan nol. Ini adalah prinsip dasar di balik estimator kemungkinan maksimum.
Seperti yang saya pahami, informasi Fisher didefinisikan sebagai
Jadi, jika adalah parameter sebenarnya, . Tetapi jika bukan parameter sebenarnya, maka kita akan memiliki jumlah informasi Fisher yang lebih besar.
pertanyaan saya
- Apakah informasi Fisher mengukur "kesalahan" MLE yang diberikan? Dengan kata lain, bukankah keberadaan informasi Fisher positif menyiratkan MLE saya tidak ideal?
- Bagaimana definisi "informasi" ini berbeda dari yang digunakan oleh Shannon? Mengapa kami menyebutnya informasi?
bayesian
maximum-likelihood
likelihood
intuition
fisher-information
Stan Shunpike
sumber
sumber
Jawaban:
Mencoba melengkapi jawaban lain ... Informasi apa yang dimaksud dengan informasi Fisher? Mulai dengan fungsi kemungkinan log sebagai fungsi θ untuk θ ∈ Θ , ruang parameter. Dengan asumsi beberapa kondisi keteraturan yang tidak kita diskusikan di sini, kita memiliki E ∂
Juga, contoh ini menggambarkan bahwa kita benar-benar membutuhkan beberapa teori untuk membantu kita dalam cara membangun keluarga model.
sumber
Pertimbangkan bahwa Anda memiliki model besar dengan jutaan parameter. Dan Anda memiliki thumb drive kecil untuk menyimpan model Anda. Bagaimana Anda memprioritaskan berapa banyak bit dari setiap parameter yang akan disimpan? Jawaban yang tepat adalah mengalokasikan bit sesuai dengan informasi Fisher (Rissanen menulis tentang ini). Jika informasi Fisher parameter adalah nol, parameter itu tidak masalah.
Kami menyebutnya "informasi" karena informasi Fisher mengukur seberapa banyak parameter ini memberi tahu kami tentang data.
Cara sehari-hari untuk memikirkannya adalah ini: Misalkan parameter mengendarai mobil, dan data di kursi belakang mengoreksi pengemudi. Yang mengganggu dari data adalah informasi Fisher. Jika data memungkinkan pengemudi mengemudi, informasi Fisher adalah nol; jika data terus-menerus melakukan koreksi, itu besar. Dalam hal ini, informasi Fisher adalah jumlah informasi yang mengalir dari data ke parameter.
Pertimbangkan apa yang terjadi jika Anda membuat kemudi lebih sensitif. Ini setara dengan reparametrization. Dalam hal ini, data tidak ingin terlalu keras karena takut oversteering mobil. Reparametrization semacam ini mengurangi informasi Fisher.
sumber
Tambahan untuk jawaban bagus @ NeilG (+1) dan untuk menjawab pertanyaan spesifik Anda:
Kebalikan dari informasi Fisher adalah varians minimum dari estimator yang tidak bias ( terikat Cramér-Rao ). Dalam pengertian itu, matriks informasi menunjukkan seberapa banyak informasi tentang koefisien yang diperkirakan terdapat dalam data. Sebaliknya entropi Shannon diambil dari termodinamika. Ini menghubungkan konten informasi dari nilai tertentu dari variabel sebagai mana adalah probabilitas variabel mengambil nilai. Keduanya merupakan pengukuran seberapa "informatif" suatu variabel. Dalam kasus pertama Anda menilai informasi ini dalam hal ketepatan sedangkan dalam kasus kedua dalam hal gangguan; sisi yang berbeda, koin yang sama! : Dp–p⋅log2(p) p
Untuk rekap: Kebalikan dari matriks informasi Fisher dievaluasi pada nilai estimator ML adalah matriks kovarians asimptotik atau perkiraan. Karena nilai estimator ML ini ditemukan dalam minimum lokal secara grafis, informasi Fisher menunjukkan seberapa dalam minimum itu dan siapa ruang gerak yang Anda miliki di sekitarnya. Saya menemukan makalah ini oleh Lutwak et al. tentang Perluasan informasi Fisher dan ketimpangan Stam merupakan bacaan informatif tentang masalah ini. Artikel Wikipedia tentang Metrik Informasi Fisher dan perbedaan Jensen-Shannon juga baik untuk Anda mulai.I
sumber