Intinya adalah bahwa kadang-kadang, model yang berbeda (untuk data yang sama) dapat mengarah pada fungsi kemungkinan yang berbeda dengan konstanta multiplikasi, tetapi konten informasi harus jelas sama. Sebuah contoh:
Kami memodelkan eksperimen Bernoulli independen, yang mengarah ke data , masing-masing dengan distribusi Bernoulli dengan (probabilitas) parameter . Ini mengarah ke fungsi likelihood
Atau kita dapat meringkas data dengan variabel terdistribusi secara , yang memiliki distribusi binomial, yang mengarah ke fungsi likelihood
yang, sebagai fungsi dari parameter tidak diketahui , sebanding dengan fungsi likelihood sebelumnya . Dua fungsi kemungkinan jelas berisi informasi yang sama, dan harus mengarah pada kesimpulan yang sama!nX1, ... , Xnhal∏i = 1nhalxsaya( 1 - p )1 - xsaya
Y= X1+X2+⋯+Xn(ny)py(1−p)n−y
p
Dan memang, menurut definisi, mereka dianggap fungsi kemungkinan yang sama.
Sudut pandang lain: amati bahwa ketika fungsi kemungkinan digunakan dalam teorema Bayes, seperti yang dibutuhkan untuk analisis bayesian, konstanta multiplikasi seperti itu dengan mudah dibatalkan! jadi mereka jelas tidak relevan dengan inferensi bayesian. Demikian juga, itu akan dibatalkan saat menghitung rasio kemungkinan, seperti yang digunakan dalam tes hipotesis optimal (Neyman-Pearson lemma.) Dan itu tidak akan mempengaruhi nilai penduga kemungkinan maksimum. Jadi kita dapat melihat bahwa dalam banyak kesimpulan sering tidak dapat berperan.
Kita masih bisa berdebat dari sudut pandang lain. Fungsi probabilitas Bernoulli (selanjutnya kami menggunakan istilah "kepadatan") di atas adalah benar-benar kepadatan sehubungan dengan ukuran penghitungan, yaitu, ukuran pada bilangan bulat non-negatif dengan massa satu untuk setiap bilangan bulat non-negatif. Tapi kita bisa mendefinisikan kepadatan sehubungan dengan beberapa ukuran yang mendominasi lainnya. Dalam contoh ini ini akan tampak (dan) buatan, tetapi dalam ruang yang lebih besar (ruang fungsi) itu sangat mendasar! Mari kita, untuk tujuan ilustrasi, menggunakan distribusi geometri spesifik, ditulis , dengan , , dan begitu seterusnya. Kemudian kepadatan distribusi Bernoulli sehubungan denganλλ(0)=1/2λ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - p ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λdiberikan oleh
berarti bahwa
Dengan fungsi baru, mendominasi, ukur ini menjadi (dengan notasi dari atas)
perhatikan faktor tambahan . Jadi ketika mengubah ukuran mendominasi digunakan dalam definisi fungsi kemungkinan, ada muncul sebuah konstanta perkalian baru, yang tidak tergantung pada parameter yang tidak diketahuifλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+np, dan jelas tidak relevan. Itu adalah cara lain untuk melihat bagaimana konstanta multiplikasi harus tidak relevan. Argumen ini dapat digeneralisasi menggunakan turunan Radon-Nikodym (seperti argumen di atas adalah contoh.)
Ini pada dasarnya berarti bahwa hanya nilai relatif dari masalah PDF. Misalnya, standar normal (Gaussian) PDF adalah: , buku Anda mengatakan bahwa mereka dapat menggunakan sebagai gantinya, karena mereka tidak peduli dengan skala, yaitu .f(x)=12π√e−x2/2 g(x)=e−x2/2 c=12π√
Ini terjadi karena mereka memaksimalkan fungsi kemungkinan, dan dan akan memiliki maksimum yang sama. Karenanya, maksimum akan sama dengan . Jadi, mereka tidak peduli tentang skalanya.c⋅g(x) g(x) e−x2/2 f(x)
sumber
Saya tidak dapat menjelaskan arti kutipan, tetapi untuk estimasi kemungkinan maksimum , tidak masalah apakah kami memilih untuk menemukan maksimum fungsi kemungkinanL(x;θ) (dianggap sebagai fungsi atau maksimum
manaθ aL(x;θ) adalah beberapa konstan. Ini karena kita tidak tertarik pada nilai maksimum
L ( x ; θ ) melainkan nilai θ ML di
mana maksimum ini terjadi, dan keduanya L ( x ; θ )
dana L(x;θ) θML L(x;θ) mencapai nilai maksimum pada θ ML yang sama
. Jadi, konstanta multiplikasi dapat diabaikan. Demikian pula, kita dapat memilih untuk mempertimbangkan fungsi monoton g ( ⋅ )
(seperti logaritma) dari fungsi kemungkinan L ( x ; θ ) , menentukan maksimum g ( L ( x ; θ ) ) , dan menyimpulkan nilai dari
θ ML dari ini. Untuk logaritma, konstanta pengali
aaL(x;θ) θML g(⋅) L(x;θ) g(L(x;θ)) θML a menjadi konstanta aditif dan ini juga dapat diabaikan dalam proses menemukan lokasi maksimum:
ln ( a ) + ln ( L ( x ; θ )
dimaksimalkan pada titik yang sama dengan ln ( L ( x) ; θ ) .ln(a) ln(a)+ln(L(x;θ) ln(L(x;θ)
Beralih ke estimasi maksimum probabilitas posteriori (MAP), dianggap sebagai realisasi dari variabel acak Θ dengan fungsi kepadatan priori f Θ ( θ ) , data x dianggap sebagai realisasi dari variabel acak X , dan kemungkinannya fungsi dianggap sebagai nilai dari kepadatan bersyarat f X ∣ Θ ( x ∣ Θ = θ ) dari X yang dikondisikan pada Θ = θθ Θ fΘ(θ) x X fX∣Θ(x∣Θ=θ) X Θ = θ ; kata fungsi kepadatan bersyarat dievaluasi pada . The a posteriori kepadatan Θ adalah
f Θ | X ( θ | x ) = f X | Θ ( x | Θ = θ ) f Θ ( θ )x Θ
di mana kita mengenali pembilang sebagaikepadatan bersamafX,Θ(x,θ)dari data dan parameter yang diestimasi. TitikθMAPdi mana
fq|X(θ|x)mencapai nilai maksimumnya adalah estimasi MAP dariθ, dan, dengan menggunakan argumen yang sama seperti dalam ayat ini, kita melihat bahwa kita dapat mengabaikan[fX(x)]-1di sisi kanan
sumber
sumber
Mungkin ada keadaan yang tidak biasa ketika Anda harus memaksimalkan kemungkinan tunduk pada langit-langit - dan kemudian Anda harus "ingat" untuk memasukkan konstanta dalam perhitungan nilainya.
Selain itu, Anda dapat melakukan tes pemilihan model untuk model yang tidak bersarang, menggunakan nilai kemungkinan dalam proses -dan karena model tidak bersarang, dua kemungkinan akan memiliki konstanta yang berbeda.
Terlepas dari ini, kalimatnya
adalah salah , karena kemungkinan adalah pertama suatu fungsi kepadatan probabilitas gabungan , bukan hanya "apa" fungsi tujuan untuk dimaksimalkan.
sumber