Apa yang dimaksud "kemungkinan hanya didefinisikan hingga konstanta proporsionalitas multiplikasi" dalam praktiknya?

19

Saya membaca makalah di mana penulis memimpin dari diskusi estimasi kemungkinan maksimum untuk Teorema Bayes, seolah-olah sebagai pengantar untuk pemula.

Sebagai contoh kemungkinan, mereka mulai dengan distribusi binomial:

p (x | n, θ) = (\binom{n}{x}) θ^{x} (1 - θ)^{n - x}

$p(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x}$

dan kemudian login kedua sisi

ℓ (θ | x, n) = x \ln (θ) + (n - x) \ln (1 - θ)

$\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta)$

dengan alasan bahwa:

"Karena kemungkinan hanya didefinisikan hingga konstanta proporsional multiplikatif (atau konstanta aditif untuk kemungkinan log), kami dapat mengubah skala ... dengan menjatuhkan koefisien binomial dan menuliskan kemungkinan log sebagai ganti kemungkinan"

Matematika masuk akal, tetapi saya tidak dapat memahami apa yang dimaksud dengan "kemungkinan hanya didefinisikan hingga konstanta proporsionalitas multiplikasi" dan bagaimana ini memungkinkan menjatuhkan koefisien binomial dan beralih dari $p(x|n,\theta)$ ke $\ell(\theta|x,n)$ .

Terminologi serupa telah muncul dalam pertanyaan-pertanyaan lain (di sini dan di sini ), tetapi masih belum jelas apa, secara praktis, kemungkinan yang didefinisikan atau membawa informasi ke sarana konstanta multiplikatif. Apakah mungkin menjelaskan hal ini dalam istilah awam?

bayesian likelihood definition philosophical kmm
sumber

18

Intinya adalah bahwa kadang-kadang, model yang berbeda (untuk data yang sama) dapat mengarah pada fungsi kemungkinan yang berbeda dengan konstanta multiplikasi, tetapi konten informasi harus jelas sama. Sebuah contoh:

Kami memodelkan eksperimen Bernoulli independen, yang mengarah ke data , masing-masing dengan distribusi Bernoulli dengan (probabilitas) parameter . Ini mengarah ke fungsi likelihood Atau kita dapat meringkas data dengan variabel terdistribusi secara , yang memiliki distribusi binomial, yang mengarah ke fungsi likelihood yang, sebagai fungsi dari parameter tidak diketahui , sebanding dengan fungsi likelihood sebelumnya . Dua fungsi kemungkinan jelas berisi informasi yang sama, dan harus mengarah pada kesimpulan yang sama! $n$ $X_1, \dots, X_n$ $p$

\prod_{saya = 1}^{n} {hal}^{x_{saya}} (1 - hal)^{1 - x_{saya}}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}$

Y = X_{1} + X_{2} + \dots + X_{n}

$Y=X_1+X_2+\dotsm+X_n$

(\binom{n}{y}) p^{y} (1 - p)^{n - y}

$\binom{n}{y} p^y (1-p)^{n-y}$

p

$p$

Dan memang, menurut definisi, mereka dianggap fungsi kemungkinan yang sama.

Sudut pandang lain: amati bahwa ketika fungsi kemungkinan digunakan dalam teorema Bayes, seperti yang dibutuhkan untuk analisis bayesian, konstanta multiplikasi seperti itu dengan mudah dibatalkan! jadi mereka jelas tidak relevan dengan inferensi bayesian. Demikian juga, itu akan dibatalkan saat menghitung rasio kemungkinan, seperti yang digunakan dalam tes hipotesis optimal (Neyman-Pearson lemma.) Dan itu tidak akan mempengaruhi nilai penduga kemungkinan maksimum. Jadi kita dapat melihat bahwa dalam banyak kesimpulan sering tidak dapat berperan.

Kita masih bisa berdebat dari sudut pandang lain. Fungsi probabilitas Bernoulli (selanjutnya kami menggunakan istilah "kepadatan") di atas adalah benar-benar kepadatan sehubungan dengan ukuran penghitungan, yaitu, ukuran pada bilangan bulat non-negatif dengan massa satu untuk setiap bilangan bulat non-negatif. Tapi kita bisa mendefinisikan kepadatan sehubungan dengan beberapa ukuran yang mendominasi lainnya. Dalam contoh ini ini akan tampak (dan) buatan, tetapi dalam ruang yang lebih besar (ruang fungsi) itu sangat mendasar! Mari kita, untuk tujuan ilustrasi, menggunakan distribusi geometri spesifik, ditulis , dengan , , dan begitu seterusnya. Kemudian kepadatan distribusi Bernoulli sehubungan dengan $\lambda$ $\lambda(0)=1/2$ $\lambda(1)=1/4$ $\lambda(2)=1/8$ $\lambda$ diberikan oleh berarti bahwa Dengan fungsi baru, mendominasi, ukur ini menjadi (dengan notasi dari atas) perhatikan faktor tambahan . Jadi ketika mengubah ukuran mendominasi digunakan dalam definisi fungsi kemungkinan, ada muncul sebuah konstanta perkalian baru, yang tidak tergantung pada parameter yang tidak diketahui

f_{λ} (x) = p^{x} (1 - p)^{1 - x} \cdot 2^{x + 1}

$f_{\lambda}(x) = p^x (1-p)^{1-x}\cdot 2^{x+1}$

P (X = x) = f_{λ} (x) \cdot λ (x)

$P(X=x)= f_\lambda(x) \cdot \lambda(x)$

\prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}} 2^{x_{i} + 1} = p^{y} (1 - p)^{n - y} 2^{y + n}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} 2^{x_i+1} = p^y (1-p)^{n-y} 2^{y+n}$

2^{y + n}

$2^{y+n}$

p

$p$ , dan jelas tidak relevan. Itu adalah cara lain untuk melihat bagaimana konstanta multiplikasi harus tidak relevan. Argumen ini dapat digeneralisasi menggunakan turunan Radon-Nikodym (seperti argumen di atas adalah contoh.)

kjetil b halvorsen
sumber

"konten informasi harus jelas sama" Ini hanya berlaku jika Anda percaya pada prinsip kemungkinan!

jsk

Ya, mungkin, tapi saya menunjukkan bagaimana mengikuti dari prinsip bayesian.

kjetil b halvorsen

@kjetilbhalvorsen Terima kasih atas jawaban yang bijaksana! Satu hal yang saya masih bingung adalah mengapa kemungkinan distribusi bernoulli tidak termasuk koefisien binomial. Jawaban Anda menjelaskan mengapa itu tidak penting, tetapi saya tidak mengerti mengapa hal itu ditinggalkan begitu saja.

jvans

@ jvans: Itu karena koefisien binomial tidak bergantung pada parameter yang tidak diketahui, jadi tidak dapat memengaruhi bentuk fungsi kemungkinan

kjetil b halvorsen

12

Ini pada dasarnya berarti bahwa hanya nilai relatif dari masalah PDF. Misalnya, standar normal (Gaussian) PDF adalah: , buku Anda mengatakan bahwa mereka dapat menggunakan sebagai gantinya, karena mereka tidak peduli dengan skala, yaitu . $f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$ $g(x)=e^{-x^2/2}$ $c=\frac{1}{\sqrt{2\pi}}$

Ini terjadi karena mereka memaksimalkan fungsi kemungkinan, dan dan akan memiliki maksimum yang sama. Karenanya, maksimum akan sama dengan . Jadi, mereka tidak peduli tentang skalanya. $c\cdot g(x)$ $g(x)$ $e^{-x^2/2}$ $f(x)$

Aksakal
sumber

6

Saya tidak dapat menjelaskan arti kutipan, tetapi untuk estimasi kemungkinan maksimum , tidak masalah apakah kami memilih untuk menemukan maksimum fungsi kemungkinan $L(\mathbf x; \theta)$ (dianggap sebagai fungsi atau maksimum mana $\theta$ $aL(\mathbf x; \theta)$ adalah beberapa konstan. Ini karena kita tidak tertarik pada nilai maksimum melainkan nilai mana maksimum ini terjadi, dan keduanya dan $a$ $L(\mathbf x; \theta)$ $\theta_{\text{ML}}$ $L(\mathbf x; \theta)$ mencapai nilai maksimum pada sama . Jadi, konstanta multiplikasi dapat diabaikan. Demikian pula, kita dapat memilih untuk mempertimbangkan fungsi monoton (seperti logaritma) dari fungsi kemungkinan , menentukan maksimum , dan menyimpulkan nilai dari dari ini. Untuk logaritma, konstanta pengali $aL(\mathbf x; \theta)$ $\theta_{\text{ML}}$ $g(\cdot)$ $L(\mathbf x; \theta)$ $g(L(\mathbf x;\theta))$ $\theta_{\text{ML}}$ $a$ menjadi konstanta aditif dan ini juga dapat diabaikan dalam proses menemukan lokasi maksimum: dimaksimalkan pada titik yang sama dengan . $\ln(a)$ $\ln(a)+\ln(L(\mathbf x; \theta)$ $\ln(L(\mathbf x; \theta)$

Beralih ke estimasi maksimum probabilitas posteriori (MAP), dianggap sebagai realisasi dari variabel acak dengan fungsi kepadatan priori , data dianggap sebagai realisasi dari variabel acak , dan kemungkinannya fungsi dianggap sebagai nilai dari kepadatan bersyarat dari dikondisikan pada $\theta$ $\Theta$ $f_{\Theta}(\theta)$ $\mathbf x$ $\mathbf X$ $f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$ $\mathbf X$ $\Theta = \theta$ ; kata fungsi kepadatan bersyarat dievaluasi pada . The a posteriori kepadatan adalah $\mathbf x$ $\Theta$ di mana kita mengenali pembilang sebagaikepadatan bersamadari data dan parameter yang diestimasi. Titikdi mana mencapai nilai maksimumnya adalah estimasi MAP dari, dan, dengan menggunakan argumen yang sama seperti dalam ayat ini, kita melihat bahwa kita dapat mengabaikandi sisi kanan

\begin{matrix} (1) & f_{Θ ∣ X} (θ ∣ x) = \frac{f_{X ∣ Θ} (x ∣ Θ = θ) f_{Θ} (θ)}{f_{X} (x)} \end{matrix}

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x) = \frac{f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)f_\Theta(\theta)}{f_{\mathbf X}(\mathbf x)} \tag{1}$

f_{X, Θ} (x, θ)

$f_{\mathbf X, \Theta}(\mathbf x, \theta)$

θ_{MAP}

$\theta_{\text{MAP}}$

f_{Θ ∣ X} (θ ∣ x)

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x)$

θ

$\theta$

[f_{X} (x)]^{- 1}

$[f_{\mathbf X}(\mathbf x)]^{-1}$

sebagai konstanta multiplikasi sama seperti kita dapat mengabaikan konstanta multiplikasi dikedua

dan di

. Demikian pula ketika kemungkinan log digunakan, kita bisa mengabaikan konstanta aditif.

(1)

$(1)$

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$

f_{Θ} (θ)

$f_\Theta(\theta)$

Dilip Sarwate
sumber

L

$L$

a L

$aL$

a

$a$

5

$f(x)$ $kf(x)$

Sergio
sumber

3

f (x)

$f(x)$

f (x) + 2

$f(x)+2$

Tolong, seperti yang ditulis Alecos Papadopoulos dalam jawabannya, "kemungkinan pertama adalah fungsi kepadatan probabilitas gabungan". Karena asumsi awal untuk sampel acak, bahwa fungsi bersama adalah produk dari fungsi kepadatan sederhana, sehingga faktor multiplikatif muncul, dan addend tidak.

Sergio

1

Fungsi gabungan adalah produk semacam itu jika dan hanya jika datanya independen. Tetapi MLE meluas ke variabel dependen, sehingga argumen produk tampak tidak meyakinkan.

whuber

1

$\text {argmax}$

Mungkin ada keadaan yang tidak biasa ketika Anda harus memaksimalkan kemungkinan tunduk pada langit-langit - dan kemudian Anda harus "ingat" untuk memasukkan konstanta dalam perhitungan nilainya.

Selain itu, Anda dapat melakukan tes pemilihan model untuk model yang tidak bersarang, menggunakan nilai kemungkinan dalam proses -dan karena model tidak bersarang, dua kemungkinan akan memiliki konstanta yang berbeda.

Terlepas dari ini, kalimatnya

"Karena kemungkinan hanya didefinisikan hingga konstanta proporsionalitas multiplikatif (atau konstanta aditif untuk kemungkinan log)"

adalah salah , karena kemungkinan adalah pertama suatu fungsi kepadatan probabilitas gabungan , bukan hanya "apa" fungsi tujuan untuk dimaksimalkan.

Alecos Papadopoulos
sumber

3

θ

$\theta$

θ

$\theta$

3

L (θ ∣ x) = f (x ∣ θ) .

$L(\boldsymbol \theta \mid \boldsymbol x) = f(\boldsymbol x \mid \boldsymbol \theta).$

1

$1$

1

$1$

1

@heropup Saya sudah menulis bahwa itu tidak perlu berintegrasi ke kesatuan atas ruang parameter, dan dengan demikian, segera, itu tidak dapat dianggap sebagai "fungsi kepadatan" ketika dilihat sebagai "fungsi parameter".

Alecos Papadopoulos

1

Ya saya tahu. Maksud saya adalah frasa "Fungsi kemungkinan adalah fungsi kerapatan, dipandang sebagai fungsi dari parameter" itu sendiri membingungkan. Akan lebih tepat untuk mengatakan sesuatu seperti, "Fungsi kemungkinan adalah fungsi dari parameter untuk sampel tetap, dan setara (atau sebanding) dengan kerapatan sambungan di atas ruang sampel."

heropup

1

L (x ∣ θ) f (θ)

$L(x\mid \theta)f(\theta)$

L

$L$

f (θ)

$f(\theta)$

Dilip Sarwate

Apa yang dimaksud "kemungkinan hanya didefinisikan hingga konstanta proporsionalitas multiplikasi" dalam praktiknya?

Jawaban: