Penjelasan intuitif tentang Informasi Fisher dan Cramer-Rao terikat

59

Saya tidak nyaman dengan informasi Fisher, apa yang diukur dan bagaimana itu membantu. Juga hubungannya dengan Cramer-Rao terikat tidak jelas bagi saya.

Bisakah seseorang tolong berikan penjelasan intuitif tentang konsep-konsep ini?

Infinity
sumber
1
Apakah ada sesuatu di artikel Wikipedia yang menyebabkan masalah? Ini mengukur jumlah informasi yang dibawa oleh variabel acak teramati tentang parameter yang tidak diketahui di mana probabilitas bergantung, dan kebalikannya adalah Cramer-Rao yang terikat lebih rendah pada varian dari estimator yang tidak bias dari . XθXθ
Henry
2
Saya mengerti itu tetapi saya tidak begitu nyaman dengannya. Seperti, apa sebenarnya arti "jumlah informasi" di sini. Mengapa ekspektasi negatif kuadrat turunan parsial dari kepadatan mengukur informasi ini? Dari mana ungkapan itu berasal, dll. Karena itulah saya berharap mendapatkan intuisi tentang hal itu.
Infinity
@Infinity: Skor adalah tingkat perubahan proporsional dalam kemungkinan data yang diamati sebagai perubahan parameter, dan sangat berguna untuk inferensi. The Fisher memberikan informasi varian dari skor (mean-nol). Jadi secara matematis itu adalah ekspektasi kuadrat dari turunan parsial pertama dari logaritma densitas dan demikian juga negatif dari ekspektasi turunan parsial kedua dari logaritma densitas.
Henry

Jawaban:

32

Di sini saya menjelaskan mengapa varians asimptotik dari penduga kemungkinan maksimum adalah batas bawah Cramer-Rao. Semoga ini akan memberikan beberapa wawasan tentang relevansi informasi Fisher.

Inferensi statistik dimulai dengan penggunaan fungsi kemungkinan yang Anda buat dari data. Estimasi titik adalah nilai yang memaksimalkan . Estimator adalah variabel acak, tetapi membantu untuk menyadari bahwa fungsi kemungkinan adalah "kurva acak".θ L ( θ ) θ L ( θ )L(θ)θ^L(θ)θ^ L(θ)

Di sini kita mengasumsikan data awal diambil dari distribusi , dan kami mendefinisikan kemungkinan L ( θ ) = 1f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

Parameter memiliki properti yang memaksimalkan nilai kemungkinan "benar", . Namun, fungsi kemungkinan "teramati" yang dikonstruksikan dari data sedikit "mati" dari kemungkinan yang sebenarnya. Namun seperti yang dapat Anda bayangkan, ketika ukuran sampel meningkat, kemungkinan "teramati" menyatu dengan bentuk kurva kemungkinan yang sebenarnya. Hal yang sama berlaku untuk turunan dari kemungkinan berkenaan dengan parameter, fungsi skor . (Singkat cerita, informasi Fisher menentukan seberapa cepat fungsi skor yang diamati menyatu dengan bentuk fungsi skor sebenarnya.E L ( θ ) L ( θ ) L /θθEL(θ)L(θ) L/θ

Pada ukuran sampel yang besar, kami mengasumsikan bahwa estimasi kemungkinan maksimum kami sangat dekat dengan . Kami memperbesar ke lingkungan kecil di sekitar dan sehingga fungsi kemungkinannya adalah "kuadrat lokal". qq qθ^θθθ^

Di sana, adalah titik di mana fungsi skor memotong titik asal. Di wilayah kecil ini, kami memperlakukan fungsi skor sebagai garis , satu dengan kemiringan dan mencegat acak pada . Kami tahu dari persamaan untuk garis ituθ^ L/θabθ

a(θ^θ)+b=0

atau

θ^=θb/a.

Dari konsistensi penaksir MLE, kita tahu itu

E(θ^)=θ

dalam batas.

Karena itu, asimptotik

nVar(θ^)=nVar(b/a)

Ternyata kemiringan bervariasi jauh lebih sedikit daripada intersep, dan tanpa gejala, kita dapat memperlakukan fungsi skor sebagai memiliki kemiringan konstan di lingkungan kecil sekitar . Jadi kita bisa menulisθ

nVar(θ^)=1a2nVar(b)

Jadi, apa nilai-nilai dan ? Ternyata karena kebetulan matematika yang luar biasa, mereka adalah kuantitas yang sama (modulo tanda minus), informasi Fisher.anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

Jadi,

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
asimtotik : batas bawah Cramer-Rao. (Menunjukkan bahwa adalah batas bawah pada varians dari estimator yang tidak bias adalah masalah lain.)1/I(θ)
charles.y.zheng
sumber
2
Apakah ada representasi grafis dari bagian di mana Anda menyebutkan bahwa fungsi kemungkinan adalah kuadratik lokal?
quirik
@quirik, pertimbangkan untuk menggunakan ekspansi urutan kedua Taylor sekitar theta_hat.
idnavid
@ charles.y.zheng Ini adalah salah satu penjelasan adegan yang paling menarik.
idnavid
13

Salah satu cara saya memahami informasi nelayan adalah dengan definisi berikut:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

Informasi Fisher dapat ditulis dengan cara ini setiap kali kepadatan dua kali dapat dibedakan. Jika ruang sampel tidak bergantung pada parameter , maka kita dapat menggunakan rumus integral Leibniz untuk menunjukkan bahwa istilah pertama adalah nol (bedakan kedua sisi dua kali dan Anda mendapatkan nol), dan istilah kedua adalah definisi "standar". Saya akan mengambil kasus ketika istilah pertama adalah nol. Kasus-kasus ketika bukan nol tidak banyak digunakan untuk memahami Informasi Fisher.f(x|θ)XθXf(x|θ)dx=1

Sekarang ketika Anda melakukan estimasi kemungkinan maksimum (masukkan "kondisi keteraturan" di sini) yang Anda tetapkan

θlog[f(x|θ)]=0

Dan pecahkan . Jadi turunan kedua mengatakan seberapa cepat gradien berubah, dan dalam arti "seberapa jauh" dapat berangkat dari MLE tanpa membuat perubahan yang berarti di sisi kanan persamaan di atas. Cara lain yang dapat Anda pikirkan adalah membayangkan "gunung" yang tergambar di atas kertas - ini adalah fungsi kemungkinan log. Memecahkan persamaan MLE di atas memberi tahu Anda di mana puncak gunung ini terletak sebagai fungsi dari variabel acak . Turunan kedua memberi tahu Anda seberapa curam gunung itu - yang dalam arti tertentu memberi tahu Anda betapa mudahnya menemukan puncak gunung. Informasi Fisher berasal dari mengambil curamnya puncak yang diharapkan, dan karena itu memiliki sedikit interpretasi "pra-data".θθx

Satu hal yang saya masih ingin tahu adalah bahwa seberapa curam log-kemungkinan dan bukan seberapa curam beberapa fungsi monoton lainnya kemungkinan (mungkin terkait dengan fungsi penilaian "tepat" dalam teori keputusan? Atau mungkin dengan aksioma konsistensi entropi). ?).

Informasi Fisher juga "muncul" dalam banyak analisis asimptotik karena apa yang dikenal sebagai pendekatan Laplace. Hal ini pada dasarnya disebabkan oleh fakta bahwa setiap fungsi dengan kenaikan maksimum tunggal "lengkap" ke daya yang lebih tinggi dan lebih tinggi masuk ke fungsi Gaussian (mirip dengan Central Limit Theorem, tetapi sedikit lebih umum). Jadi, ketika Anda memiliki sampel besar, Anda secara efektif berada di posisi ini dan Anda dapat menulis:exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

Dan ketika Anda akan memperluas kemungkinan log tentang MLE:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)
dan turunan kedua dari log-likelihood muncul (tetapi dalam bentuk "mengobservasi" alih-alih bentuk "yang diharapkan"). Apa yang biasanya dilakukan di sini adalah membuat perkiraan lebih lanjut:

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

Yang berjumlah perkiraan yang biasanya baik untuk mengganti jumlah dengan integral, tetapi ini mengharuskan data menjadi independen. Jadi untuk sampel independen besar (diberikan ) Anda dapat melihat bahwa informasi Fisher adalah bagaimana variabel MLE, untuk berbagai nilai MLE.θ

probabilityislogic
sumber
1
"Satu hal yang masih membuat saya penasaran adalah seberapa curam log-kemungkinannya dan bukan seberapa curam beberapa fungsi monotonik lainnya dari kemungkinan." Saya yakin Anda dapat memperoleh analog untuk informasi Fisher dalam hal transformasi kemungkinan lainnya, tetapi kemudian Anda tidak akan mendapatkan ekspresi yang rapi untuk batas bawah Cramer-Rao.
charles.y.zheng
2

Ini adalah artikel paling intuitif yang saya lihat sejauh ini:

The Cramér-Rao Menurunkan Batas pada Varians: "Prinsip Ketidakpastian" Adam dan Hawa oleh Michael R. Powers, Jurnal Risiko Keuangan, Vol. 7, No. 3, 2006

Batas dijelaskan oleh analogi Adam dan Hawa di Taman Eden melemparkan koin untuk melihat siapa yang memakan buah dan mereka kemudian bertanya pada diri sendiri seberapa besar sampel diperlukan untuk mencapai tingkat akurasi tertentu dalam perkiraan mereka, dan mereka kemudian menemukan ikatan ini ...

Kisah yang indah dengan pesan mendalam tentang kenyataan memang.

vonjd
sumber
6
Terima kasih telah mengirimkan referensi ini. Namun pada akhirnya saya kecewa, ternyata tidak menjelaskan CRLB. Ini hanya menyatakannya, tanpa memberikan wawasan mengapa itu benar, dan hanya menyediakan beberapa bahasa yang menggugah tetapi pada akhirnya tidak berarti, seperti "memeras informasi," dalam upaya untuk menjelaskannya.
whuber
@whuber: Cukup adil, saya setuju bahwa itu bisa menyelam lebih dalam dan akhirnya sedikit mendadak. Namun apa yang saya sukai dari artikel ini adalah bahwa sangat wajar bahwa ada hubungan antara ukuran sampel, rata-rata sampel, hukum jumlah besar dan varians sampel hanya dapat dikurangi hingga titik tertentu (yaitu harus ada beberapa terikat , yang kebetulan menjadi yang disebutkan di atas). Ini juga membuat jelas bahwa ini bukan hasil matematika yang sulit dipahami tetapi benar-benar pernyataan tentang batas-batas mendapatkan pengetahuan tentang realitas.
vonjd
2

Meskipun penjelasan yang diberikan di atas sangat menarik dan saya senang melihatnya, saya merasa bahwa sifat dari Batas Bawah Cramer-Rao paling baik dijelaskan kepada saya dari perspektif geometris. Intuisi ini adalah ringkasan konsep elips konsentrasi dari Bab 6 buku Scharf tentang Pemrosesan Sinyal Statistik .

Pertimbangkan penaksir yang tidak bias dari . Selain itu, asumsikan bahwa estimator memiliki distribusi Gaussian dengan kovarians . Dalam kondisi ini, distribusi sebanding dengan:θθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ)) .

Sekarang pikirkan plot kontur dari distribusi ini untuk . Batasan batas atas apa pun pada probabilitas (yaitu, ) akan menghasilkan ellipsoid yang berpusat di dengan jari-jari tetap . Sangat mudah untuk menunjukkan bahwa ada hubungan satu-ke-satu antara jari-jari dari ellipsoid dan probabilitas diinginkan . Dengan kata lain, dekat dengan dalam ellipsoid yang ditentukan oleh jari-jari dengan probabilitasθR2θ^f(θ^)dθPrθrrPrθ^θrPr. Ellipsoid ini disebut ellipsoid konsentrasi.

Mempertimbangkan uraian di atas, kita dapat mengatakan hal berikut tentang CRLB. Di antara semua penaksir yang tidak bias, CRLB mewakili penaksir dengan kovarians yang, untuk probabilitas tetap "kedekatan" (seperti yang didefinisikan di atas), memiliki yang terkecil ellipsoid konsentrasi. Gambar di bawah ini memberikan ilustrasi 2D (terinspirasi oleh ilustrasi dalam buku Scharf ).θ^crlbΣcrlbPr

Ilustrasi 2D CRLB dalam konteks estimator yang tidak bias.

idnavid
sumber
2
Nah ini sangat bagus, terutama gambar, perlu lebih banyak upvotes.
Astrid