Fungsi kemungkinan maksimum untuk distribusi tipe campuran

11

Secara umum kami memaksimalkan suatu fungsi

L(θ;x1,,xn)=i=1nf(xiθ)

di mana f adalah fungsi kerapatan probabilitas jika distribusi yang mendasarinya adalah kontinu, dan fungsi massa probabilitas (dengan penjumlahan sebagai pengganti produk) jika distribusinya terpisah.

Bagaimana kita menentukan fungsi kemungkinan jika distribusi yang mendasarinya adalah campuran antara distribusi kontinu dan diskrit, dengan bobot masing-masing tergantung pada θ ?

bonifaz
sumber
2
Apa sebenarnya yang tidak berlaku menurut Anda ..?
Tim
@Tim, kebingungan saya timbul karena tidak mengetahui bahwa fungsi likelihood memiliki definisi yang lebih umum daripada definisi standar tentang probabilitas kontinu dan diskrit. Artinya, pemikiran saya adalah sebagai berikut. Distribusi tidak kontinu, maupun diskrit sehingga tidak dapat memiliki fungsi kemungkinan. Karena, tidak ada fungsi kemungkinan oleh karena itu MLE tidak berlaku.
gregorias
1
Distribusi dapat berupa diskrit atau kontinu, seperti misalnya, distribusi Cantor dan sebagaimana dicatat oleh Xi'an, kemungkinan didefinisikan dalam hal fungsi kepadatan probabilitas, jadi Anda hanya perlu pdf distribusi Anda untuk menentukan kemungkinan.
Tim
@Tim, saya cukup sadar bahwa ada distribusi yang berbeda. Itulah yang ingin saya sampaikan. Perhatikan bahwa kemungkinan adalah konsep yang lebih umum daripada pdf. Secara khusus, hanya variabel kontinu yang memiliki pdf (tepatnya distribusi yang memilikinya). Misalnya, distribusi Cantor yang Anda sebutkan tidak memiliki pdf.
gregorias
Tergantung bagaimana Anda mendefinisikan pdf, PMF dapat dianggap sebagai kasus khusus pdf. Anda dapat mendefinisikan pdf tentang distribusi diskrit dalam kaitannya dengan dirac delta, dll., Sehingga tidak menjadi masalah bahwa distribusinya adalah tipe diskrit atau campuran.
Tim

Jawaban:

7

Fungsi kemungkinan adalah kepadatan data pada nilai yang diamati dinyatakan sebagai fungsi dari Kepadatan ini didefinisikan untuk setiap nilai (dapat diterima) dari hampir di mana-mana atas dukungan , , terhadap ukuran tertentu atas itu tidak tergantung pada . Untuk setiap keluarga parametrik, harus ada ukuran yang mendominasi di semua , maka kepadatan, maka kemungkinan.(θ|x)xθ

(θ|x)=f(x|θ)
θxXXθθ

Berikut adalah kutipan yang relevan dari entri Wikipedia tentang fungsi kemungkinan (stres adalah milikku):

Dalam teori probabilitas ukuran-teoretis, fungsi kerapatan didefinisikan sebagai turunan Radon-Nikodym dari distribusi probabilitas relatif terhadap ukuran yang mendominasi. Ini menyediakan fungsi kemungkinan untuk setiap model probabilitas dengan semua distribusi, apakah terpisah, benar-benar kontinu, campuran atau sesuatu yang lain. (Kemungkinan akan sebanding, misalnya, untuk estimasi parameter, hanya jika mereka adalah turunan Radon-Nikodym sehubungan dengan ukuran yang mendominasi yang sama.)

Xi'an
sumber
7

Saya mengaku bingung dengan pertanyaan ini untuk beberapa waktu sebelumnya dalam karier saya. Satu cara saya meyakinkan diri sendiri tentang jawabannya adalah mengambil pandangan situasi yang sangat praktis dan terapan, pandangan yang mengakui bahwa tidak ada pengukuran yang sempurna. Mari kita lihat ke mana arahnya.

Inti dari latihan ini adalah untuk mengekspos asumsi yang mungkin diperlukan untuk membenarkan pencampuran kepadatan dan probabilitas yang agak fasih dalam ekspresi untuk kemungkinan. Karena itu saya akan menyoroti asumsi seperti itu di mana pun mereka diperkenalkan. Ternyata cukup banyak yang dibutuhkan, tetapi mereka cukup ringan dan mencakup setiap aplikasi yang saya temui (yang jelas akan terbatas, tetapi masih termasuk beberapa).

Masalahnya menyangkut distribusi campuran yang tidak mutlak kontinu atau tunggal. Teorema Dekomposisi Lebesgue memungkinkan kita untuk melihat distribusi semacam itu sebagai campuran yang benar-benar kontinu (yang menurut definisi memiliki fungsi kepadatan ) dan yang singular ("diskrit"), yang memiliki fungsi massa probabilitas (Saya akan mengabaikan kemungkinan bahwa komponen ketiga, terus menerus tetapi tidak sepenuhnya terus menerus, mungkin ada. Mereka yang menggunakan model seperti itu cenderung tahu apa yang mereka lakukan dan biasanya memiliki semua keterampilan teknis untuk membenarkannya.)F,fafd.

Ketika adalah anggota keluarga distribusi parametrik, kita dapat menulisF=Fθ

Fθ(x)=Faθ(x)+Fdθ(x)=xfa(t;θ)dt+txfd(t;θ).

(Jumlahnya paling dapat dihitung, tentu saja.) Di sini, adalah fungsi kepadatan probabilitas dikalikan dengan beberapa koefisien campuran dan adalah probabilitas fungsi massa dikalikan denganfa(;θ)λ(θ)fd(;θ)1λ(θ).

Mari kita menafsirkan setiap pengamatan dalam dataset iid sebagai "benar-benar" yang berarti kita memiliki pengetahuan tertentu bahwa nilai yang mendasari hipotetis benar terletak pada interval mengelilingi tetapi sebaliknya tidak memiliki informasi tentang Dengan asumsi kita tahu semua delta dan epsilon, ini tidak lagi menimbulkan masalah untuk membangun kemungkinan karena semuanya dapat dinyatakan dalam probabilitas:xiX=(x1,x2,,xn)yi(xiδi,xi+ϵi]xi,yi.

L(X;θ)=i(Fθ(xi+ϵi)Fθ(xiδi)).

Jika dukungan tidak memiliki titik kondensasi pada apa punFdθxi, kontribusinya terhadap probabilitas akan berkurang hingga paling banyak satu istilah saja asalkan epsilon dan delta dibuat cukup kecil: tidak akan ada kontribusi ketika tidak dalam dukungannya.xi

Jika kita menganggap adalah Lipschitz kontinu pada semua nilai data,fa(;θ) maka secara seragam dalam ukuran epsilon dan delta kita dapat memperkirakan bagian yang benar-benar kontinu dari sebagaiFθ(xi)

Faθ(xi+ϵi)Faθ(xiδi)=fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|).

Keseragaman dari perkiraan ini berarti bahwa ketika kita mengambil semua epsilon dan delta untuk menjadi kecil, semua istilah juga tumbuh kecil. Akibatnya ada nilai yang semakin kecil diatur oleh kontribusi dari semua istilah kesalahan ini, yango()ϵ(θ)>0,

L(X;θ)=i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).

Ini masih agak berantakan, tapi ini menunjukkan ke mana kita pergi. Dalam hal data yang disensor, biasanya hanya satu bagian dari setiap istilah dalam produk akan nol, karena model ini biasanya mengasumsikan bahwa dukungan dari bagian tunggal dari distribusi terpisah dari dukungan bagian kontinu, tidak peduli apa pun parameter mungkin. θ(Khususnya: menyiratkan ) Itu memungkinkan kami untuk memecah produk menjadi dua bagian dan kami dapat memperhitungkan kontribusi dari semua interval keluar dari bagian kontinu:fd(x)0Fa(x+ϵ)Fa(xϵ)=o(ϵ).

L(X;θ)=(i=1k(ϵi+δi))i=1kfa(xi;θ) i=k+1nfd(xi;θ).

(Tanpa kehilangan sifat umum saya telah mengindeks data sehingga berkontribusi ke bagian yang kontinu dan sebaliknya berkontribusi pada bagian tunggal dari kemungkinan.)xi,i=1,2,,kxi,i=k+1,k+2,,n

Ungkapan ini sekarang membuatnya jelas

Karena lebar interval adalah tetap, mereka tidak berkontribusi pada kemungkinan (yang didefinisikan hanya hingga beberapa kelipatan konstan positif).ϵi+δi

Dengan demikian, kami dapat bekerja dengan ekspresi

L(X;θ)=i=1kfa(xi;θ) i=k+1nfd(xi;θ)

ketika membangun rasio kemungkinan atau memaksimalkan kemungkinan. Keindahan hasil ini adalah bahwa kita tidak perlu mengetahui ukuran interval hingga yang digunakan dalam derivasi ini: epsilon dan delta drop out. Kita hanya perlu tahu bahwa kita bisa membuatnya cukup kecil untuk ekspresi kemungkinan yang sebenarnya kita kerjakan menjadi perkiraan yang memadai untuk ekspresi kemungkinan yang akan kita gunakan jika kita tahu ukuran intervalnya.

whuber
sumber
1
Jawaban bagus (+1). Saran untuk perbaikan - dalam kasus di mana ada dukungan umum pada suatu titik (sehingga Anda tidak dapat memisahkan istilah diskrit dan kontinu dalam jumlah) maka istilah diskrit sepenuhnya mendominasi istilah kontinu, sehingga kemungkinan akan mengabaikan kontinu bagian pada titik itu (secara efektif mengaturnya ke nol). Ini berarti bahwa bahkan jika ada titik dengan dukungan umum, itu akan diperlakukan hanya sebagai bagian diskrit, dan Anda akan mendapatkan dekomposisi produk yang sama dengan yang Anda dapatkan di sini. (Kecuali saya kehilangan sesuatu.)
Ben - Pasang kembali Monica
1
@ Ben Terima kasih atas komentar mendalam itu. Saya lebih suka menghindari masalah itu, karena saya sedikit khawatir tentang beberapa kasus "tepi" yang bisa muncul. Apa yang akan dilakukan seseorang, misalnya, di mana menjadi tanpa batas di salah satu titik dukungan ? fafd
whuber
1
Ya, itu akan sangat sulit. Dodge mengerti!
Ben - Pasang kembali Monica
1
Saya telah menambahkan jawaban dengan memperhatikan aspek tambahan dari masalah ini, yang ternyata paling mudah diselesaikan dengan mengabaikan kepadatan kontinu dalam mendukung bagian diskrit. Silakan baca jawaban saya dan lihat apakah ini menambah motivasi lebih lanjut untuk menangani aspek masalah ini. (Intuisi saya adalah bahwa bahkan jika menjadi tak terbatas pada suatu titik dalam mendukung itu masih akan dianggap lebih kecil dari bagian diskrit.)fafd
Ben - Reinstate Monica
6

Pertanyaan ini adalah masalah mendasar yang sangat penting dalam analisis kemungkinan, dan juga yang sangat halus dan sulit, jadi saya cukup terkejut dengan beberapa jawaban dangkal yang diterimanya dalam komentar.

Bagaimanapun, dalam jawaban ini saya hanya akan menambahkan satu poin kecil untuk jawaban whuber yang sangat baik (yang saya pikir merupakan pendekatan yang tepat untuk masalah ini). Poin itu adalah bahwa fungsi kemungkinan dalam konteks ini berasal dari fungsi densitas pada ukuran dominasi campuran, dan ini mengarah pada sifat yang menarik bahwa kita dapat mengukur ukuran relatif fungsi kemungkinan secara sewenang-wenang atas bagian kontinu dan diskrit dan kita masih memiliki valid fungsi kemungkinan . Ini menimbulkan pertanyaan yang jelas tentang bagaimana kita dapat menerapkan teknik kemungkinan ketika tidak ada fungsi kemungkinan unik.

Menggambarkan titik ini membutuhkan beberapa presentasi pendahuluan pada kepadatan sampel sebagai turunan Radon-Nikodym dari ukuran probabilitas, jadi tolong tahan dengan saya. Pertama-tama saya akan menunjukkan cara mendapatkan fungsi kerapatan untuk ukuran yang mendominasi campuran dan kemudian saya akan menunjukkan mengapa hal ini mengarah pada kemampuan untuk skala bagian kontinu dan diskrit dari kemungkinan sesuai keinginan. Akhirnya, saya akan membahas implikasi masalah ini untuk analisis berbasis kemungkinan dan memberikan pendapat saya pada resolusi. Saya pikir ini pada dasarnya diselesaikan dengan metode whuber menyajikan dalam jawabannya, tetapi perlu diperluas ke arah yang telah saya bahas dalam komentar untuk jawaban itu, sehingga untuk memastikan bahwa setiap titik dalam mendukung bagian diskrit mengabaikan bagian kontinu pada titik itu.


Mengekspresikan kepadatan menggunakan ukuran yang mendominasi: Pendekatan standar untuk menangani kepadatan campuran untuk variabel acak nyata adalah dengan menggunakan ukuran Lebesgue sebagai ukuran yang mendominasi untuk bagian kontinu dan menghitung ukuran (lebih dari beberapa set dapat dihitung ditentukan sebagai ukuran dominan untuk bagian diskrit. Ini mengarah ke turunan Radon-Nikodym yang didefinisikan oleh:λLEB λCOUNTDR

P(XA|θ)=Af(x|θ) dλLEB(x)+Ap(x|θ) dλCOUNT(x).

(Perhatikan bahwa integral yang terakhir merosot ke jumlah atas elemen . Kami menulisnya di sini sebagai integral untuk membuat kesamaan antara dua istilah lebih jelas.) Seseorang dapat gunakan kepadatan tunggal dengan mengambil ukuran dan pengaturan:xADλλLEB+λCOUNT

f(x|θ)I(xD)f(x|θ)+I(xD)p(x|θ).

Menggunakan sebagai ukuran yang mendominasi, kami kemudian memiliki ekspresi berikut untuk probabilitas yang menarik:λ

P(XA|θ)=Af(x|θ) dλ(x).

Ini menunjukkan bahwa fungsi adalah turunan Radon-Nikodym yang valid dari ukuran probabilitas pada , jadi ini adalah kepadatan yang valid untuk variabel acak ini. Karena itu tergantung pada dan kita kemudian dapat mendefinisikan fungsi kemungkinan yang valid dengan memegang tetap dan memperlakukan ini sebagai fungsi .fXxθLx(θ)f(x|θ)xθ


Pengaruh penskalaan langkah-langkah yang mendominasi: Sekarang kita memahami ekstraksi kepadatan dari ukuran yang mendominasi, ini mengarah ke properti yang aneh di mana kita dapat skala ukuran relatif dari kemungkinan atas bagian yang kontinyu dan terpisah dan kita masih memiliki kemungkinan yang valid fungsi. Jika sekarang kita menggunakan ukuran yang mendominasi untuk beberapa konstanta positif dan maka kita sekarang mendapatkan kepadatan Radon-Nikodym yang sesuai:λαλLEB+βλCOUNTα>0β>0

f(x|θ)I(xD)αf(x|θ)+I(xD)βp(x|θ).

Menggunakan sebagai ukuran yang mendominasi, kami kemudian memiliki ekspresi berikut untuk probabilitas yang menarik:λ

P(XA|θ)=Af(x|θ) dλ(x).

Seperti dalam kasus di atas, kita dapat mendefinisikan fungsi kemungkinan yang valid dengan memegang tetap dan memperlakukan ini sebagai fungsi . Anda dapat melihat bahwa kebebasan untuk memvariasikan dan sekarang memberi kami kebebasan untuk menskala ukuran relatif dari bagian kontinu dan diskrit dalam fungsi kemungkinan sebanyak yang kita inginkan, dan masih memiliki fungsi kemungkinan yang valid (walaupun berkenaan dengan ukuran dominasi yang berbeda, dengan penskalaan bagian yang sesuai).Lx(θ)f(x|θ)xθαβ

Hasil khusus ini hanya bagian dari hasil yang lebih umum bahwa setiap fungsi kemungkinan didefinisikan sehubungan dengan beberapa (dominan) yang mendasari ukuran, dan tidak ada fungsi kemungkinan unik yang dapat didefinisikan terlepas dari ukuran mendasar ini. Namun demikian, dalam kasus khusus ini kita melihat bahwa itu masih didasarkan pada ukuran yang mendominasi yang merupakan kombinasi dari ukuran Lebesgue dan ukuran penghitungan, jadi kita belum benar-benar menggunakan ukuran itu. Karena tidak ada pembenaran obyektif untuk membentuk ukuran yang mendominasi dari bobot yang sama dari pengukuran Lebesgue dan ukuran penghitungan, implikasinya adalah bahwa tidak ada pembenaran obyektif untuk penskalaan relatif untuk bagian kontinu dan diskrit dari fungsi kemungkinan.


Implikasi untuk analisis kemungkinan: Ini mungkin tampaknya menempatkan kita dalam sedikit kebingungan. Kami dapat secara sewenang-wenang menskalakan bagian diskrit dan kontinu dari fungsi kemungkinan naik atau turun dalam ukuran relatif dan masih memiliki klaim yang masuk akal untuk ini sebagai fungsi kemungkinan yang valid. Untungnya, masalah ini dapat diselesaikan dengan mengakui bahwa konstanta penskalaan akan keluar dari fungsi kemungkinan dengan cara yang sama seperti yang diilustrasikan dalam jawaban whuber . Yaitu, jika kita memiliki dan kita akan mendapatkan:x1,...,xkDxk+1,...,xnD

Lx(θ)=i=1nLxi(θ)=i=1nf(xi|θ)=(i=1k1αf(xi|θ))(i=k+1n1βp(xi|θ))=1αkβnk(i=1kf(xi|θ))(i=k+1np(xi|θ))=1αkβnki=1nf(xi|θ)i=1nf(xi|θ)=i=1nLxi(θ)=Lx(θ).

Ini menunjukkan bahwa sifat penskalaan dari ukuran yang mendominasi hanya mempengaruhi fungsi kemungkinan melalui penskalaan konstan yang dapat diabaikan dalam masalah MLE standar. Perhatikan bahwa dalam perawatan saya terhadap masalah ini, sifat yang bermanfaat ini telah terjadi sebagai akibat langsung dari fakta bahwa kerapatan sampel ditentukan dengan cara yang mengabaikan kerapatan kontinu ketika kita mendukung bagian diskrit. (Ini berbeda dari jawaban whuber , di mana ia memungkinkan untuk kombinasi bagian-bagian ini. Saya pikir ini mungkin benar-benar menyebabkan beberapa masalah sulit; lihat komentar saya untuk jawaban itu.)


Hasil ini tidak terbatas pada kasus campuran. Bahkan dalam kasus sederhana dengan variabel acak kontinu atau diskrit, jika Anda memvariasikan ukuran dominan yang mendasari itu akan memberikan variasi yang sesuai dalam turunan Radon-Nikodym, yang kemudian mengarah ke fungsi kemungkinan yang berbeda.

Ben - Pasang kembali Monica
sumber
3
+1. Saya pikir Anda telah melakukan pekerjaan yang baik dengan menghubungkan penjelasan dasar saya ke jawaban teoretik-ukur @ Xi'an yang asli, dengan demikian membawa kami (sangat informatif) lingkaran penuh.
whuber
3

Salah satu contoh di mana ini terjadi, yaitu, kemungkinan yang diberikan oleh model probabilitas tipe kontinu / diskrit campuran, adalah dengan data yang disensor. Sebagai contoh, lihat Regresi kesalahan normal tertimbang dengan sensor .

Secara umum ini dapat dirumuskan menggunakan teori ukuran. Kemudian asumsikan sebuah model statistik dengan fungsi model yang merupakan turunan Radon-Nikodym sehubungan dengan ukuran umum (yang seharusnya tidak bergantung pada parameter ). Kemudian fungsi kemungkinan berdasarkan sampel independen adalah . Ini benar-benar sama dalam kasus kontinu, diskrit dan campuran.f(x;θ)λθx1,x2,,xnif(xi;θ)

Salah satu contoh sederhana adalah pemodelan curah hujan harian. Itu bisa nol, dengan probabilitas positif, atau positif. Jadi untuk ukuran yang mendominasi kita bisa menggunakan jumlah ukuran Lebesgue pada dan atom pada nol. λ(0,)

kjetil b halvorsen
sumber