Motivasi teoretis untuk menggunakan log-likelihood vs likelihood

18

Saya mencoba memahami pada tingkat yang lebih dalam tentang keberadaan log-likelihood (dan mungkin lebih umum log-probability) dalam statistik dan teori probabilitas. Log-probabilitas muncul di semua tempat: kami biasanya bekerja dengan log-kemungkinan untuk analisis (misalnya untuk maksimalisasi), informasi Fisher didefinisikan dalam hal turunan kedua dari log-kemungkinan, entropi adalah log-probabilitas yang diharapkan , Divergensi Kullback-Liebler melibatkan probabilitas log, perbedaan yang diharapkan adalah kemungkinan log, dll.

Sekarang saya menghargai banyak alasan praktis dan nyaman . Banyak pdf umum dan berguna berasal dari keluarga eksponensial, yang mengarah ke istilah yang disederhanakan secara elegan ketika log-transformed. Jumlah lebih mudah digunakan daripada produk (terutama untuk membedakan). Log-prob memiliki keunggulan titik apung dibandingkan prob lurus. Mengubah log pdf sering mengubah fungsi non-cekung menjadi fungsi cekung. Tapi apa alasan teoretis / pembenaran / motivasi untuk log-prob?

Sebagai contoh dari kebingungan saya, pertimbangkan informasi Fisher (FI). Penjelasan biasa untuk intuisi FI adalah bahwa turunan kedua dari log-likelihood memberi tahu kita bagaimana "memuncak" seperti log: kemungkinan log yang sangat tinggi berarti MLE ditentukan dengan baik dan kami relatif yakin akan nilainya. , sementara log-likehood hampir datar (kelengkungan rendah) berarti banyak nilai parameter yang berbeda hampir sama baiknya (dalam hal kemungkinan log) dengan MLE, jadi MLE kami lebih tidak pasti.

Ini semua baik-dan-baik, tetapi bukankah lebih alami untuk hanya menemukan kelengkungan fungsi kemungkinan itu sendiri (TIDAK diubah log)? Sepintas penekanan pada log-transform tampaknya sewenang-wenang dan salah. Tentunya kita lebih tertarik pada kelengkungan fungsi kemungkinan yang sebenarnya. Apa motivasi Fisher untuk bekerja dengan fungsi skor dan Hessian dari kemungkinan log?

Apakah jawabannya sederhananya, pada akhirnya, kami mendapatkan hasil yang bagus dari log-kemungkinan asimtotik? Misalnya, Cramer-Rao dan normalitas MLE / posterior. Atau ada alasan yang lebih dalam?

ratsalad
sumber
2
Saya mengajukan pertanyaan serupa di sini
Haitao Du

Jawaban:

13

Ini benar-benar hanya kenyamanan untuk kemungkinan loglik, tidak lebih.

Maksudku kenyamanan jumlah vs produk: , jumlah yang lebih mudah untuk menangani dalam banyak hal, seperti differentialtion atau integrasi. Ini bukan kenyamanan untuk keluarga eksponensial saja, saya coba katakan.ln(ixi)=ilnxi

Ketika Anda berurusan dengan sampel acak, kemungkinannya berupa: , jadi kemungkinan loglikas akan memecah produk ini menjadi jumlah, sebagai gantinya, yang lebih mudah untuk dimanipulasi dan dianalisis. Ini membantu bahwa semua yang kita pedulikan adalah titik maksimum, nilai maksimum tidak penting, karena kita dapat menerapkan transformasi monoton seperti logaritma.L=ipi

Pada intuisi kelengkungan. Ini pada dasarnya hal yang sama pada akhirnya sebagai turunan kedua dari kemungkinan loglikel.

UPDATE: Inilah yang saya maksud pada lengkungan. Jika Anda memiliki fungsi , maka kelengkungannya adalah ( lihat (14) di Wolfram): κ = f ( x )y=f(x)

κ=f(x)(1+f(x)2)3/2

Turunan kedua dari kemungkinan log:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

Pada titik maksimum, turunan pertama jelas nol, jadi kita dapatkan: Oleh karena itu, sindiran saya bahwa kelengkungan dari kemungkinan dan turunan kedua dari kemungkinan loglikel adalah hal yang sama, semacam.

κmax=f(xmax)=Af(xmax)

Di sisi lain, jika turunan pertama dari kemungkinan kecil tidak hanya pada tetapi di sekitar titik maksimum, yaitu fungsi kemungkinan datar maka kita mendapatkan: Sekarang kemungkinan datar itu bukan hal yang baik bagi kami, karena itu membuat menemukan maksimum lebih sulit secara numerik, dan kemungkinan maksimum tidak lebih baik daripada poin lain di sekitarnya, yaitu kesalahan estimasi parameter tinggi.

κf(x)Af(x)

Dan lagi, kita masih memiliki kelengkungan dan hubungan turunan kedua. Jadi mengapa Fisher tidak melihat kelengkungan fungsi kemungkinan? Saya pikir itu untuk alasan kenyamanan yang sama. Lebih mudah untuk memanipulasi kemungkinan log karena jumlah bukan produk. Jadi, dia bisa mempelajari kelengkungan kemungkinan dengan menganalisis turunan kedua dari kemungkinan loglikel. Meskipun persamaannya terlihat sangat sederhana untuk kelengkungan , dalam kenyataannya Anda mengambil turunan kedua dari produk, yang lebih berantakan daripada jumlah turunan kedua.κmax=f(xmax)

PEMBARUAN 2:

Ini sebuah demonstrasi. Saya menggambar fungsi kemungkinan (sepenuhnya dibuat-buat), a) kelengkungan dan b) turunan ke-2 dari log-nya. Di sisi kiri Anda melihat kemungkinan sempit dan di sisi kanan lebar. Anda melihat bagaimana pada titik kemungkinan maksimum a) dan b) bertemu, sebagaimana mestinya. Lebih penting lagi, Anda dapat mempelajari lebar (atau kerataan) dari fungsi kemungkinan dengan memeriksa turunan ke-2 dari kemungkinan log-nya. Seperti yang saya tulis sebelumnya, yang terakhir secara teknis lebih sederhana daripada yang pertama untuk dianalisis.

Tidak mengherankan turunan ke-2 dari loglikelihood sinyal fungsi kemungkinan flatter di max-nya, yang tidak diinginkan karena menyebabkan kesalahan estimasi parameter yang lebih besar.

masukkan deskripsi gambar di sini

Kode MATLAB jika Anda ingin mereproduksi plot:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

PEMBARUAN 3:

Dalam kode di atas saya menyambungkan beberapa fungsi berbentuk bel yang sewenang-wenang ke dalam persamaan kelengkungan, kemudian menghitung turunan kedua dari log-nya. Saya tidak mengubah skala apa pun, nilainya lurus dari persamaan untuk menunjukkan kesetaraan yang saya sebutkan sebelumnya.

Inilah makalah pertama tentang kemungkinan bahwa Fisher diterbitkan saat masih di universitas, "Pada Kriteria Mutlak untuk Kurva Frekuensi Pas", Messenger of Mathmatics, 41: 155-160 (1912)

logP=1nlogp

logP=logfdx
P

Satu hal yang perlu diperhatikan ketika membaca makalah dia hanya memulai dengan pekerjaan estimasi kemungkinan maksimum, dan melakukan lebih banyak pekerjaan dalam 10 tahun berikutnya, sehingga bahkan istilah MLE belum diciptakan, sejauh yang saya tahu.

Aksakal
sumber
5
Kalimat terakhir Anda (tentang lengkungan) mengisyaratkan benar-benar ada sesuatu yang mendasar tentang kemungkinan log dan bahwa mengambil log bukan hanya sekadar "kenyamanan." Saya percaya ada banyak hal yang terjadi di sini daripada yang Anda ungkapkan.
Whuber
2
Diskusi Anda tentang kelengkungan tampaknya tidak relevan, karena tidak membedakan analisis kemungkinan log dari analisis kemungkinan itu sendiri. Jawaban ini tampaknya turun ke "log nyaman," tetapi ada banyak masalah daripada itu, sebagai jawaban lain mulai menyarankan.
whuber
f(xmax)f(xmax)=1
Jadi menggunakan kemungkinan log untuk informasi Fisher ternyata memiliki dua tujuan praktis: (1) kemungkinan log lebih mudah untuk dikerjakan, dan (2) secara alami mengabaikan faktor penskalaan yang sewenang-wenang. Dan, itu memberikan jawaban yang sama dengan derivasi ke-2 dari kemungkinan lurus. Ini sepertinya poin penting bagi saya, yang tidak jelas dan tidak pernah saya lihat dinyatakan dalam teks statistik. Agaknya itu diketahui Fisher.
ratsalad
f(xmax)=(lnf(x))f(xmax)
f(xmax)=1
f(xmax)=(lnf(x))
5

Poin tambahan . Beberapa distribusi probabilitas yang umum digunakan (termasuk distribusi normal, distribusi eksponensial, distribusi Laplace, hanya untuk beberapa nama) adalah log-cekung . Ini berarti logaritma mereka cekung. Ini membuat memaksimalkan probabilitas log jauh lebih mudah daripada memaksimalkan probabilitas asli (yang sangat berguna dalam kemungkinan maksimum atau metode a-posteriori maksimum). Untuk memberikan contoh, menggunakan metode Newton untuk memaksimalkan distribusi Gaussian multivariat secara langsung dapat mengambil sejumlah besar langkah sambil memaksimalkan paraboloid (log distribusi Gaussian multivariat) membutuhkan tepat satu langkah.

Luca Citi
sumber
2
Tidak secepat itu. Lihat latihan 7.4 di hlm. 393-394 dari web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Mark L. Stone
Itu bukan log-cekung. Gaussian adalah log-cekung WRT untuk argumennya atau parameter rata-rata, bukan wrt varians juga. Jika Anda juga ingin menentukan skala, Anda dapat menggunakan distribusi gamma normal, yang juga log-cekung (menggunakan presisi alih-alih varians).
Luca Citi
2
Persis seperti ini. Semua pembicaraan tentang bagaimana log lebih nyaman itu baik, tetapi convexity (atau concavity, tergantung pada perspektif) adalah yang benar-benar membedakan kemungkinan log sebagai hal yang "benar" untuk dikerjakan.
Meni Rosenfeld
2
Perhatikan bahwa saya sudah menyebutkan log-concavity di OP. Tapi ini masih hanya "kenyamanan", tidak ada pembenaran teoritis di sini untuk log-concavity, dan dalam kasus apa pun log-kemungkinan tidak log-cekung secara umum.
ratsalad
1
@ratsalad, ya, Anda benar, ini kenyamanan. Saya pikir probabilitas log adalah cara tambahan untuk melihat fungsi probabilitas. Saya tidak bisa mengatakan dengan pasti mana yang lebih baik. Jika Anda melihat langkah-langkah [ en.wikipedia.org/wiki/… ), beberapa secara efektif bekerja pada log-probability (misalnya KL divergence yang secara efektif merupakan nilai yang diharapkan dari perbedaan log-probabilitas), beberapa pada probabilitas secara langsung ( misal jarak KS).
Luca Citi
4

Pentingnya log-likelihood secara teoritis dapat dilihat dari (setidaknya) dua perspektif: teori kemungkinan asimptotik dan teori informasi.

Yang lebih awal dari ini (saya percaya) adalah teori asimtotik kemungkinan log. Saya pikir teori informasi berjalan dengan baik setelah Fisher menetapkan kemungkinan maksimum pada arahnya menuju dominasi abad ke-20.

Dalam teori likelihood, log-likelihood parabola memiliki tempat sentral dalam inferensi. Lucien Le Cam telah memainkan peran penting dalam menjelaskan pentingnya kemungkinan log-kuadrat dalam teori asimptotik.

Ketika Anda memiliki log-kuadrat kemungkinan, tidak hanya kelengkungan tentang MLE memberi tahu Anda secara kualitatif bagaimana tepatnya Anda dapat memperkirakan parameter, tetapi kami juga tahu kesalahan biasanya didistribusikan dengan varian yang sama dengan kebalikan dari kelengkungan. Ketika log-likelihood sekitar kuadrat, maka kami katakan hasil ini kira-kira bertahan, atau asimtotik.

Alasan kedua adalah keunggulan log-likelihood (atau log-probability) dalam teori informasi , di mana itu adalah kuantitas utama yang digunakan untuk mengukur konten informasi.

ggf(θ)f(θ^)θ^

lnL^

Jadi, kemungkinan log, selain sebagai transformasi numerik yang bermanfaat, memiliki ikatan yang dalam dengan teori inferensi dan informasi.


sumber
Referensi Anda tentang penggunaan teori log tentang kemungkinan bersifat sirkular. Mengapa mereka menggunakan log? Mungkin karena alasan yang sama, terutama, jika Anda menganggap bahwa teori informasi adalah bidang yang relatif lebih baru dibandingkan dengan statistik.
Aksakal
@Aksakal ya dan tidak. Teori informasi mendapatkan fondasinya sebagian dari mekanika statistik dan entropi: en.wikipedia.org/wiki/Entropy . Boltzmann mendefinisikan entropi sistem menggunakan log dari jumlah keadaan mikro. Kenapa log? Karena itu membuat entropi / aditif informasi (seperti jawaban Anda tunjukkan)? Terus? Pada tingkat numerik, linearitas / aditivitas membuka penggunaan metode aljabar linier yang kuat.
1
@Aksakal Namun, pada tingkat yang lebih mendasar aditivitas mengubah entropi / informasi menjadi sesuatu seperti ukuran ... mirip dengan massa. Jika Anda menggabungkan dua sistem yang independen secara statistik, maka entropi dari sistem gabungan adalah jumlah dari entropi setiap sistem. Berikut ini penjelasan yang bagus: physics.stackexchange.com/questions/240636/...
1
@Bey Entropi statistik termodinamika sebenarnya mengikuti langsung dari distribusi Boltzmann dari keadaan mikro dan termo makroskopik klasik (bentuk entropi stat mech bukanlah "pilihan"). Distribusi Boltzmann sendiri merupakan konsekuensi dari dua premis: (1) properti fisik yang energinya ditentukan hanya hingga konstanta aditif yang berubah-ubah dan (2) asumsi mekanisme stat fundamental bahwa semua keadaan mikro dengan energi yang sama memiliki probabilitas yang sama. Jadi, pada level paling dalam, entropi termo melibatkan log-probs karena energi bersifat aditif dan sebanding dengan log-prob.
ratsalad
2
@ratsalad terima kasih telah memperluas penjelasan ini ... seperti yang Anda lihat, mendapatkan penjelasan sederhana dari "log lebih mudah" dari log-kemungkinan bisa memakan waktu cukup lama. Saya menggunakan log-kemungkinan untuk alasan Aksakal memberi ... namun, OP Anda meminta sesuatu yang lebih dalam. Saya memberikan dua contoh yang menunjukkan koneksi ke area lain yang telah mempengaruhi statistik dan teori kemungkinan. Saya pikir penjelasan asimptotik lebih langsung, tetapi entropi dan probabilitas terkait dengan cara-cara yang membuat probabilitas log menjadi hal yang kami minati di luar kenyamanan numerik belaka.
0

TLDR: Jauh lebih mudah untuk mendapatkan jumlah daripada produk, karena operator turunannya linear dengan penjumlahan tetapi dengan produk Anda harus melakukan aturan produk. Ini adalah kompleksitas linear versus beberapa kompleksitas polinomial tingkat tinggi

Charlie Tian
sumber
3
Inilah yang dimaksud pertanyaan dengan "nyaman dan praktis." Ini jauh dari satu-satunya, atau bahkan alasan utama, mengapa analisis berfokus pada kemungkinan log. Pertimbangkan, misalnya, seperti apa ekspresi untuk Informasi Fisher dalam hal kemungkinan daripada kemungkinan log.
Whuber
ya pasti; Saya pikir ketika dia mengatakan "lebih mudah" untuk menemukannya secara langsung, saya pikir maksudnya adalah kebalikan dari ini, karena tentu lebih mudah untuk menemukannya setelah kita menerapkan transformasi log.
Charlie Tian