Saya tidak nyaman dengan informasi Fisher, apa yang diukur dan bagaimana itu membantu. Juga hubungannya dengan Cramer-Rao terikat tidak jelas bagi saya.
Bisakah seseorang tolong berikan penjelasan intuitif tentang konsep-konsep ini?
estimation
intuition
fisher-information
Infinity
sumber
sumber
Jawaban:
Di sini saya menjelaskan mengapa varians asimptotik dari penduga kemungkinan maksimum adalah batas bawah Cramer-Rao. Semoga ini akan memberikan beberapa wawasan tentang relevansi informasi Fisher.
Inferensi statistik dimulai dengan penggunaan fungsi kemungkinan yang Anda buat dari data. Estimasi titik adalah nilai yang memaksimalkan . Estimator adalah variabel acak, tetapi membantu untuk menyadari bahwa fungsi kemungkinan adalah "kurva acak".θ L ( θ ) θ L ( θ )L(θ) θ^ L(θ) θ^ L(θ)
Di sini kita mengasumsikan data awal diambil dari distribusi , dan kami mendefinisikan kemungkinan L ( θ ) = 1f(x|θ)
Parameter memiliki properti yang memaksimalkan nilai kemungkinan "benar", . Namun, fungsi kemungkinan "teramati" yang dikonstruksikan dari data sedikit "mati" dari kemungkinan yang sebenarnya. Namun seperti yang dapat Anda bayangkan, ketika ukuran sampel meningkat, kemungkinan "teramati" menyatu dengan bentuk kurva kemungkinan yang sebenarnya. Hal yang sama berlaku untuk turunan dari kemungkinan berkenaan dengan parameter, fungsi skor . (Singkat cerita, informasi Fisher menentukan seberapa cepat fungsi skor yang diamati menyatu dengan bentuk fungsi skor sebenarnya.E L ( θ ) L ( θ ) ∂ L / ∂ θθ EL(θ) L(θ) ∂L/∂θ
Pada ukuran sampel yang besar, kami mengasumsikan bahwa estimasi kemungkinan maksimum kami sangat dekat dengan . Kami memperbesar ke lingkungan kecil di sekitar dan sehingga fungsi kemungkinannya adalah "kuadrat lokal". qq qθ^ θ θ θ^
Di sana, adalah titik di mana fungsi skor memotong titik asal. Di wilayah kecil ini, kami memperlakukan fungsi skor sebagai garis , satu dengan kemiringan dan mencegat acak pada . Kami tahu dari persamaan untuk garis ituθ^ ∂L/∂θ a b θ
atau
Dari konsistensi penaksir MLE, kita tahu itu
dalam batas.
Karena itu, asimptotik
Ternyata kemiringan bervariasi jauh lebih sedikit daripada intersep, dan tanpa gejala, kita dapat memperlakukan fungsi skor sebagai memiliki kemiringan konstan di lingkungan kecil sekitar . Jadi kita bisa menulisθ
Jadi, apa nilai-nilai dan ? Ternyata karena kebetulan matematika yang luar biasa, mereka adalah kuantitas yang sama (modulo tanda minus), informasi Fisher.a nVar(b)
Jadi,
sumber
Salah satu cara saya memahami informasi nelayan adalah dengan definisi berikut:
Informasi Fisher dapat ditulis dengan cara ini setiap kali kepadatan dua kali dapat dibedakan. Jika ruang sampel tidak bergantung pada parameter , maka kita dapat menggunakan rumus integral Leibniz untuk menunjukkan bahwa istilah pertama adalah nol (bedakan kedua sisi dua kali dan Anda mendapatkan nol), dan istilah kedua adalah definisi "standar". Saya akan mengambil kasus ketika istilah pertama adalah nol. Kasus-kasus ketika bukan nol tidak banyak digunakan untuk memahami Informasi Fisher.f(x|θ) X θ ∫Xf(x|θ)dx=1
Sekarang ketika Anda melakukan estimasi kemungkinan maksimum (masukkan "kondisi keteraturan" di sini) yang Anda tetapkan
Dan pecahkan . Jadi turunan kedua mengatakan seberapa cepat gradien berubah, dan dalam arti "seberapa jauh" dapat berangkat dari MLE tanpa membuat perubahan yang berarti di sisi kanan persamaan di atas. Cara lain yang dapat Anda pikirkan adalah membayangkan "gunung" yang tergambar di atas kertas - ini adalah fungsi kemungkinan log. Memecahkan persamaan MLE di atas memberi tahu Anda di mana puncak gunung ini terletak sebagai fungsi dari variabel acak . Turunan kedua memberi tahu Anda seberapa curam gunung itu - yang dalam arti tertentu memberi tahu Anda betapa mudahnya menemukan puncak gunung. Informasi Fisher berasal dari mengambil curamnya puncak yang diharapkan, dan karena itu memiliki sedikit interpretasi "pra-data".θ θ x
Satu hal yang saya masih ingin tahu adalah bahwa seberapa curam log-kemungkinan dan bukan seberapa curam beberapa fungsi monoton lainnya kemungkinan (mungkin terkait dengan fungsi penilaian "tepat" dalam teori keputusan? Atau mungkin dengan aksioma konsistensi entropi). ?).
Informasi Fisher juga "muncul" dalam banyak analisis asimptotik karena apa yang dikenal sebagai pendekatan Laplace. Hal ini pada dasarnya disebabkan oleh fakta bahwa setiap fungsi dengan kenaikan maksimum tunggal "lengkap" ke daya yang lebih tinggi dan lebih tinggi masuk ke fungsi Gaussian (mirip dengan Central Limit Theorem, tetapi sedikit lebih umum). Jadi, ketika Anda memiliki sampel besar, Anda secara efektif berada di posisi ini dan Anda dapat menulis:exp(−ax2)
Dan ketika Anda akan memperluas kemungkinan log tentang MLE:
Yang berjumlah perkiraan yang biasanya baik untuk mengganti jumlah dengan integral, tetapi ini mengharuskan data menjadi independen. Jadi untuk sampel independen besar (diberikan ) Anda dapat melihat bahwa informasi Fisher adalah bagaimana variabel MLE, untuk berbagai nilai MLE.θ
sumber
Ini adalah artikel paling intuitif yang saya lihat sejauh ini:
The Cramér-Rao Menurunkan Batas pada Varians: "Prinsip Ketidakpastian" Adam dan Hawa oleh Michael R. Powers, Jurnal Risiko Keuangan, Vol. 7, No. 3, 2006
Batas dijelaskan oleh analogi Adam dan Hawa di Taman Eden melemparkan koin untuk melihat siapa yang memakan buah dan mereka kemudian bertanya pada diri sendiri seberapa besar sampel diperlukan untuk mencapai tingkat akurasi tertentu dalam perkiraan mereka, dan mereka kemudian menemukan ikatan ini ...
Kisah yang indah dengan pesan mendalam tentang kenyataan memang.
sumber
Meskipun penjelasan yang diberikan di atas sangat menarik dan saya senang melihatnya, saya merasa bahwa sifat dari Batas Bawah Cramer-Rao paling baik dijelaskan kepada saya dari perspektif geometris. Intuisi ini adalah ringkasan konsep elips konsentrasi dari Bab 6 buku Scharf tentang Pemrosesan Sinyal Statistik .
Pertimbangkan penaksir yang tidak bias dari . Selain itu, asumsikan bahwa estimator memiliki distribusi Gaussian dengan kovarians . Dalam kondisi ini, distribusi sebanding dengan:θ θ^ Σ θ^
Sekarang pikirkan plot kontur dari distribusi ini untuk . Batasan batas atas apa pun pada probabilitas (yaitu, ) akan menghasilkan ellipsoid yang berpusat di dengan jari-jari tetap . Sangat mudah untuk menunjukkan bahwa ada hubungan satu-ke-satu antara jari-jari dari ellipsoid dan probabilitas diinginkan . Dengan kata lain, dekat dengan dalam ellipsoid yang ditentukan oleh jari-jari dengan probabilitasθ∈R2 θ^ ∫f(θ^)dθ≤Pr θ r r Pr θ^ θ r Pr . Ellipsoid ini disebut ellipsoid konsentrasi.
Mempertimbangkan uraian di atas, kita dapat mengatakan hal berikut tentang CRLB. Di antara semua penaksir yang tidak bias, CRLB mewakili penaksir dengan kovarians yang, untuk probabilitas tetap "kedekatan" (seperti yang didefinisikan di atas), memiliki yang terkecil ellipsoid konsentrasi. Gambar di bawah ini memberikan ilustrasi 2D (terinspirasi oleh ilustrasi dalam buku Scharf ).θ^crlb Σcrlb Pr
sumber