Apa alasan mengapa fungsi kemungkinan bukan pdf?

59

Apa alasan bahwa fungsi kemungkinan bukan pdf (probabilitas kepadatan fungsi)?

John Doe
sumber
6
Fungsi kemungkinan adalah fungsi dari parameter yang tidak diketahui (dikondisikan pada data). Dengan demikian, biasanya tidak memiliki area 1 (yaitu integral atas semua nilai yang mungkin dari θ bukan 1) dan oleh karena itu definisi bukan pdf. θθ
MånsT
4
Pertanyaan yang sama pada MO 2 tahun lalu: mathoverflow.net/questions/10971/…
Douglas Zare
3
Referensi yang menarik, @Douglas. Jawabannya agak tidak memuaskan, IMHO. Yang diterima mengasumsikan hal-hal yang tidak benar (" dan p ( m | X ) adalah pdf": tidak !) Dan yang lain tidak benar-benar memahami masalah statistik. p(X|m)p(m|X)
whuber
2
+1 whuber. Ini luar biasa bahwa ada jawaban yang sangat buruk di situs mathoverflow meskipun tingkat matematikanya sangat tinggi!
Stéphane Laurent
1
@Stephane: Ini benar, tetapi ahli statistik dan bahkan probabilis tampaknya cukup sedikit dan jauh di antara di MO, dengan beberapa pengecualian penting. Pertanyaan itu dari awal keberadaan MO ketika kedua pertanyaan yang umumnya diterima dan kualitas jawaban secara substansial berbeda.
kardinal

Jawaban:

62

Kami akan mulai dengan dua definisi:

  • Fungsi probabilitas kerapatan (pdf) adalah fungsi non-negatif yang berintegrasi ke .1

  • Kemungkinan didefinisikan sebagai kepadatan bersama dari data yang diamati sebagai fungsi dari parameter. Tetapi, seperti yang ditunjukkan oleh referensi ke Lehmann yang dibuat oleh @whuber dalam komentar di bawah ini, fungsi kemungkinan adalah fungsi dari parameter saja, dengan data yang disimpan sebagai konstanta tetap. Jadi fakta bahwa itu adalah kepadatan sebagai fungsi data tidak relevan.

Oleh karena itu, fungsi kemungkinan bukan pdf karena integral dengan parameter tidak harus sama dengan 1 (dan mungkin tidak dapat diintegrasikan sama sekali, sebenarnya, sebagaimana ditunjukkan oleh komentar lain dari @whuber).

Untuk melihat ini, kami akan menggunakan contoh sederhana. Misalkan Anda memiliki pengamatan tunggal, , dari B e r n o u l l i ( θ ) distribusi. Maka fungsi kemungkinannya adalahxBernoulli(θ)

L(θ)=θx(1θ)1x

Ini adalah fakta bahwa . Secara khusus, jika x = 1 , maka L ( θ ) = θ , sehingga 1 0 L ( θ ) d θ = 1 0 θ d θ = 1 / 201L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

dan perhitungan yang sama berlaku ketika . Oleh karena itu, L ( θ ) tidak dapat menjadi fungsi kerapatan.x=0L(θ)

Mungkin bahkan lebih penting daripada contoh teknis ini menunjukkan mengapa kemungkinan bukan kepadatan probabilitas adalah untuk menunjukkan bahwa kemungkinan bukan probabilitas dari nilai parameter yang benar atau semacamnya - itu adalah probabilitas (kepadatan) dari data diberikan nilai parameter , yang merupakan hal yang sangat berbeda. Oleh karena itu, seseorang seharusnya tidak mengharapkan fungsi kemungkinan berperilaku seperti kepadatan probabilitas.

Makro
sumber
12
+1 Titik halusnya adalah bahwa bahkan penampilan " " di bagian integral bukan merupakan bagian dari fungsi kemungkinan; itu datang entah dari mana. Di antara banyak cara untuk melihat ini, pertimbangkan bahwa reparameterisasi tidak mengubah apa pun yang penting tentang kemungkinannya - ini hanyalah penggantian nama parameter - tetapi akan mengubah integral. Misalnya, jika kita parameterisasi distribusi Bernoulli dengan peluang log ψ = log ( θ / ( 1 - θ ) ) maka integral tidak akan menyatu. dθψ=log(θ/(1θ))
whuber
3
Itu salah satu cara untuk menjelaskannya: MLE tidak berubah dalam transformasi monoton tetapi kepadatan probabilitas tidak, QED! Ini persis argumen Fisher, yang telah saya sketsa dalam komentar untuk balasan @Michael Chernick.
whuber
4
+1 untuk komentar whuber. " " bahkan tidak memiliki arti secara umum karena bahkan tidak ada bidang- σ di ruang parameter! dθσ
Stéphane Laurent
1
Df
1
(+1) Biarkan saya menjadi yang pertama untuk memberi selamat kepada Anda karena telah mencapai 10 ribu perwakilan! Jawaban bagus; Saya suka contoh yang Anda berikan, khususnya. Tepuk tangan. :)
kardinal
2

θ

Michael Chernick
sumber
3
Jadi, Anda hanya menunjukkan bahwa kemungkinannya terintegrasi dengan parameter (apakah itu selalu benar?). Saya kira Anda mungkin menyinggung hubungan kemungkinan dengan distribusi posterior ketika flat digunakan, tetapi tanpa penjelasan lebih lanjut jawaban ini tetap misterius bagi saya.
Makro
6
L(θ)p(θ)L(θ)p(θ)dθ=1ppekerjaan itu. "... kata probabilitas salah digunakan dalam hubungan seperti itu: probabilitas adalah rasio frekuensi, dan tentang frekuensi nilai-nilai seperti itu kita tidak bisa mengetahui apa-apa."
whuber
1
θ
2
θθ
4
f(x1,θ)f(xn,θ)xθ
whuber
1

Saya bukan ahli statistik, tetapi pemahaman saya adalah bahwa sementara fungsi kemungkinan itu sendiri bukan PDF berkenaan dengan parameter (s), itu terkait langsung dengan PDF oleh Bayes Rule. Fungsi kemungkinan, P (X | theta), dan distribusi posterior, f (theta | X), terkait erat; sama sekali bukan "hal yang sama sekali berbeda".

santayana
sumber
1
Selamat datang di situs kami! Anda mungkin menemukan bahan yang menarik di komentar untuk jawaban lain di utas ini. Beberapa dari mereka menunjukkan mengapa Bayes 'Rule tidak berlaku kecuali mesin matematika tambahan diperkenalkan secara eksplisit (seperti bidang Sigma untuk parameter).
whuber
Terima kasih @whuber. Saya tidak melihat ada referensi untuk Peraturan Bayes di tempat lain di utas, tapi saya kira ada kiasan dalam komentar, dengan asumsi seseorang cukup fasih dalam probabilitas tingkat pascasarjana untuk mengambilnya (yang bukan saya). Apakah Anda tidak setuju bahwa menempatkan fungsi kemungkinan dalam konteks Bayes 'Rule memberikan intuisi yang berguna untuk pertanyaan OP?
santayana
θθ
Permintaan maaf saya, pada pandangan pertama, utas itu tampaknya lebih dari sekadar kesalahpahaman, tetapi sekarang saya melihat komentar yang relevan yang Anda rujuk, khususnya kutipan Fisher Anda. Tetapi apakah ini tidak mengarah pada debat Bayesian v. Frequentist? Bukankah ada sejumlah besar praktisi inferensi Bayesian yang akan mendukung distribusi probabilitas untuk theta? (apakah Anda setuju dengan mereka adalah masalah lain ...)
santayana
1
θ
1

L(θ;x1,...,xn)=f(x1,...,xn;θ)


L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

Mari kita lihat bentuk aslinya:

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorL^LLL^

Sebagai contoh, saya tidak tahu varian rata-rata dan standar dari suatu distribusi Gaussian dan ingin mendapatkannya dengan pelatihan menggunakan banyak sampel dari distribusi tersebut. Saya pertama-tama menginisialisasi varians rata-rata dan standar secara acak (yang mendefinisikan distribusi Gaussian), dan kemudian saya mengambil satu sampel dan masuk ke dalam estimasi distribusi dan saya bisa mendapatkan probabilitas dari distribusi yang diestimasi. Kemudian saya terus memasukkan sampel dan mendapatkan banyak probabilitas dan kemudian saya gandakan probabilitas ini dan mendapatkan skor. Skor semacam ini adalah kemungkinannya. Hampir tidak bisa itu menjadi probabilitas pdf tertentu.

Lerner Zhang
sumber