Saya mencoba memahami pada tingkat yang lebih dalam tentang keberadaan log-likelihood (dan mungkin lebih umum log-probability) dalam statistik dan teori probabilitas. Log-probabilitas muncul di semua tempat: kami biasanya bekerja dengan log-kemungkinan untuk analisis (misalnya untuk maksimalisasi), informasi Fisher didefinisikan dalam hal turunan kedua dari log-kemungkinan, entropi adalah log-probabilitas yang diharapkan , Divergensi Kullback-Liebler melibatkan probabilitas log, perbedaan yang diharapkan adalah kemungkinan log, dll.
Sekarang saya menghargai banyak alasan praktis dan nyaman . Banyak pdf umum dan berguna berasal dari keluarga eksponensial, yang mengarah ke istilah yang disederhanakan secara elegan ketika log-transformed. Jumlah lebih mudah digunakan daripada produk (terutama untuk membedakan). Log-prob memiliki keunggulan titik apung dibandingkan prob lurus. Mengubah log pdf sering mengubah fungsi non-cekung menjadi fungsi cekung. Tapi apa alasan teoretis / pembenaran / motivasi untuk log-prob?
Sebagai contoh dari kebingungan saya, pertimbangkan informasi Fisher (FI). Penjelasan biasa untuk intuisi FI adalah bahwa turunan kedua dari log-likelihood memberi tahu kita bagaimana "memuncak" seperti log: kemungkinan log yang sangat tinggi berarti MLE ditentukan dengan baik dan kami relatif yakin akan nilainya. , sementara log-likehood hampir datar (kelengkungan rendah) berarti banyak nilai parameter yang berbeda hampir sama baiknya (dalam hal kemungkinan log) dengan MLE, jadi MLE kami lebih tidak pasti.
Ini semua baik-dan-baik, tetapi bukankah lebih alami untuk hanya menemukan kelengkungan fungsi kemungkinan itu sendiri (TIDAK diubah log)? Sepintas penekanan pada log-transform tampaknya sewenang-wenang dan salah. Tentunya kita lebih tertarik pada kelengkungan fungsi kemungkinan yang sebenarnya. Apa motivasi Fisher untuk bekerja dengan fungsi skor dan Hessian dari kemungkinan log?
Apakah jawabannya sederhananya, pada akhirnya, kami mendapatkan hasil yang bagus dari log-kemungkinan asimtotik? Misalnya, Cramer-Rao dan normalitas MLE / posterior. Atau ada alasan yang lebih dalam?
sumber
Jawaban:
Ini benar-benar hanya kenyamanan untuk kemungkinan loglik, tidak lebih.
Maksudku kenyamanan jumlah vs produk: , jumlah yang lebih mudah untuk menangani dalam banyak hal, seperti differentialtion atau integrasi. Ini bukan kenyamanan untuk keluarga eksponensial saja, saya coba katakan.ln(∏ixi)=∑ilnxi
Ketika Anda berurusan dengan sampel acak, kemungkinannya berupa: , jadi kemungkinan loglikas akan memecah produk ini menjadi jumlah, sebagai gantinya, yang lebih mudah untuk dimanipulasi dan dianalisis. Ini membantu bahwa semua yang kita pedulikan adalah titik maksimum, nilai maksimum tidak penting, karena kita dapat menerapkan transformasi monoton seperti logaritma.L = ∏sayahalsaya
Pada intuisi kelengkungan. Ini pada dasarnya hal yang sama pada akhirnya sebagai turunan kedua dari kemungkinan loglikel.
UPDATE: Inilah yang saya maksud pada lengkungan. Jika Anda memiliki fungsi , maka kelengkungannya adalah ( lihat (14) di Wolfram): κ = f ″ ( x )y= f( x )
Turunan kedua dari kemungkinan log:
Pada titik maksimum, turunan pertama jelas nol, jadi kita dapatkan: Oleh karena itu, sindiran saya bahwa kelengkungan dari kemungkinan dan turunan kedua dari kemungkinan loglikel adalah hal yang sama, semacam.
Di sisi lain, jika turunan pertama dari kemungkinan kecil tidak hanya pada tetapi di sekitar titik maksimum, yaitu fungsi kemungkinan datar maka kita mendapatkan: Sekarang kemungkinan datar itu bukan hal yang baik bagi kami, karena itu membuat menemukan maksimum lebih sulit secara numerik, dan kemungkinan maksimum tidak lebih baik daripada poin lain di sekitarnya, yaitu kesalahan estimasi parameter tinggi.
Dan lagi, kita masih memiliki kelengkungan dan hubungan turunan kedua. Jadi mengapa Fisher tidak melihat kelengkungan fungsi kemungkinan? Saya pikir itu untuk alasan kenyamanan yang sama. Lebih mudah untuk memanipulasi kemungkinan log karena jumlah bukan produk. Jadi, dia bisa mempelajari kelengkungan kemungkinan dengan menganalisis turunan kedua dari kemungkinan loglikel. Meskipun persamaannya terlihat sangat sederhana untuk kelengkungan , dalam kenyataannya Anda mengambil turunan kedua dari produk, yang lebih berantakan daripada jumlah turunan kedua.κm a x= f′ ′( xm a x)
PEMBARUAN 2:
Ini sebuah demonstrasi. Saya menggambar fungsi kemungkinan (sepenuhnya dibuat-buat), a) kelengkungan dan b) turunan ke-2 dari log-nya. Di sisi kiri Anda melihat kemungkinan sempit dan di sisi kanan lebar. Anda melihat bagaimana pada titik kemungkinan maksimum a) dan b) bertemu, sebagaimana mestinya. Lebih penting lagi, Anda dapat mempelajari lebar (atau kerataan) dari fungsi kemungkinan dengan memeriksa turunan ke-2 dari kemungkinan log-nya. Seperti yang saya tulis sebelumnya, yang terakhir secara teknis lebih sederhana daripada yang pertama untuk dianalisis.
Tidak mengherankan turunan ke-2 dari loglikelihood sinyal fungsi kemungkinan flatter di max-nya, yang tidak diinginkan karena menyebabkan kesalahan estimasi parameter yang lebih besar.
Kode MATLAB jika Anda ingin mereproduksi plot:
PEMBARUAN 3:
Dalam kode di atas saya menyambungkan beberapa fungsi berbentuk bel yang sewenang-wenang ke dalam persamaan kelengkungan, kemudian menghitung turunan kedua dari log-nya. Saya tidak mengubah skala apa pun, nilainya lurus dari persamaan untuk menunjukkan kesetaraan yang saya sebutkan sebelumnya.
Inilah makalah pertama tentang kemungkinan bahwa Fisher diterbitkan saat masih di universitas, "Pada Kriteria Mutlak untuk Kurva Frekuensi Pas", Messenger of Mathmatics, 41: 155-160 (1912)
Satu hal yang perlu diperhatikan ketika membaca makalah dia hanya memulai dengan pekerjaan estimasi kemungkinan maksimum, dan melakukan lebih banyak pekerjaan dalam 10 tahun berikutnya, sehingga bahkan istilah MLE belum diciptakan, sejauh yang saya tahu.
sumber
Poin tambahan . Beberapa distribusi probabilitas yang umum digunakan (termasuk distribusi normal, distribusi eksponensial, distribusi Laplace, hanya untuk beberapa nama) adalah log-cekung . Ini berarti logaritma mereka cekung. Ini membuat memaksimalkan probabilitas log jauh lebih mudah daripada memaksimalkan probabilitas asli (yang sangat berguna dalam kemungkinan maksimum atau metode a-posteriori maksimum). Untuk memberikan contoh, menggunakan metode Newton untuk memaksimalkan distribusi Gaussian multivariat secara langsung dapat mengambil sejumlah besar langkah sambil memaksimalkan paraboloid (log distribusi Gaussian multivariat) membutuhkan tepat satu langkah.
sumber
Pentingnya log-likelihood secara teoritis dapat dilihat dari (setidaknya) dua perspektif: teori kemungkinan asimptotik dan teori informasi.
Yang lebih awal dari ini (saya percaya) adalah teori asimtotik kemungkinan log. Saya pikir teori informasi berjalan dengan baik setelah Fisher menetapkan kemungkinan maksimum pada arahnya menuju dominasi abad ke-20.
Dalam teori likelihood, log-likelihood parabola memiliki tempat sentral dalam inferensi. Lucien Le Cam telah memainkan peran penting dalam menjelaskan pentingnya kemungkinan log-kuadrat dalam teori asimptotik.
Ketika Anda memiliki log-kuadrat kemungkinan, tidak hanya kelengkungan tentang MLE memberi tahu Anda secara kualitatif bagaimana tepatnya Anda dapat memperkirakan parameter, tetapi kami juga tahu kesalahan biasanya didistribusikan dengan varian yang sama dengan kebalikan dari kelengkungan. Ketika log-likelihood sekitar kuadrat, maka kami katakan hasil ini kira-kira bertahan, atau asimtotik.
Alasan kedua adalah keunggulan log-likelihood (atau log-probability) dalam teori informasi , di mana itu adalah kuantitas utama yang digunakan untuk mengukur konten informasi.
Jadi, kemungkinan log, selain sebagai transformasi numerik yang bermanfaat, memiliki ikatan yang dalam dengan teori inferensi dan informasi.
sumber
TLDR: Jauh lebih mudah untuk mendapatkan jumlah daripada produk, karena operator turunannya linear dengan penjumlahan tetapi dengan produk Anda harus melakukan aturan produk. Ini adalah kompleksitas linear versus beberapa kompleksitas polinomial tingkat tinggi
sumber