Secara umum kami memaksimalkan suatu fungsi
di mana adalah fungsi kerapatan probabilitas jika distribusi yang mendasarinya adalah kontinu, dan fungsi massa probabilitas (dengan penjumlahan sebagai pengganti produk) jika distribusinya terpisah.
Bagaimana kita menentukan fungsi kemungkinan jika distribusi yang mendasarinya adalah campuran antara distribusi kontinu dan diskrit, dengan bobot masing-masing tergantung pada ?
Jawaban:
Fungsi kemungkinan adalah kepadatan data pada nilai yang diamati dinyatakan sebagai fungsi dari Kepadatan ini didefinisikan untuk setiap nilai (dapat diterima) dari hampir di mana-mana atas dukungan , , terhadap ukuran tertentu atas itu tidak tergantung pada . Untuk setiap keluarga parametrik, harus ada ukuran yang mendominasi di semua , maka kepadatan, maka kemungkinan.ℓ(θ|x) x θ
Berikut adalah kutipan yang relevan dari entri Wikipedia tentang fungsi kemungkinan (stres adalah milikku):
sumber
Saya mengaku bingung dengan pertanyaan ini untuk beberapa waktu sebelumnya dalam karier saya. Satu cara saya meyakinkan diri sendiri tentang jawabannya adalah mengambil pandangan situasi yang sangat praktis dan terapan, pandangan yang mengakui bahwa tidak ada pengukuran yang sempurna. Mari kita lihat ke mana arahnya.
Inti dari latihan ini adalah untuk mengekspos asumsi yang mungkin diperlukan untuk membenarkan pencampuran kepadatan dan probabilitas yang agak fasih dalam ekspresi untuk kemungkinan. Karena itu saya akan menyoroti asumsi seperti itu di mana pun mereka diperkenalkan. Ternyata cukup banyak yang dibutuhkan, tetapi mereka cukup ringan dan mencakup setiap aplikasi yang saya temui (yang jelas akan terbatas, tetapi masih termasuk beberapa).
Masalahnya menyangkut distribusi campuran yang tidak mutlak kontinu atau tunggal. Teorema Dekomposisi Lebesgue memungkinkan kita untuk melihat distribusi semacam itu sebagai campuran yang benar-benar kontinu (yang menurut definisi memiliki fungsi kepadatan ) dan yang singular ("diskrit"), yang memiliki fungsi massa probabilitas (Saya akan mengabaikan kemungkinan bahwa komponen ketiga, terus menerus tetapi tidak sepenuhnya terus menerus, mungkin ada. Mereka yang menggunakan model seperti itu cenderung tahu apa yang mereka lakukan dan biasanya memiliki semua keterampilan teknis untuk membenarkannya.)F, fa fd.
Ketika adalah anggota keluarga distribusi parametrik, kita dapat menulisF=Fθ
(Jumlahnya paling dapat dihitung, tentu saja.) Di sini, adalah fungsi kepadatan probabilitas dikalikan dengan beberapa koefisien campuran dan adalah probabilitas fungsi massa dikalikan denganfa(;θ) λ(θ) fd(;θ) 1−λ(θ).
Mari kita menafsirkan setiap pengamatan dalam dataset iid sebagai "benar-benar" yang berarti kita memiliki pengetahuan tertentu bahwa nilai yang mendasari hipotetis benar terletak pada interval mengelilingi tetapi sebaliknya tidak memiliki informasi tentang Dengan asumsi kita tahu semua delta dan epsilon, ini tidak lagi menimbulkan masalah untuk membangun kemungkinan karena semuanya dapat dinyatakan dalam probabilitas:xi X=(x1,x2,…,xn) yi (xi−δi,xi+ϵi] xi, yi.
Jika dukungan tidak memiliki titik kondensasi pada apa punFdθ xi, kontribusinya terhadap probabilitas akan berkurang hingga paling banyak satu istilah saja asalkan epsilon dan delta dibuat cukup kecil: tidak akan ada kontribusi ketika tidak dalam dukungannya.xi
Jika kita menganggap adalah Lipschitz kontinu pada semua nilai data,fa(;θ) maka secara seragam dalam ukuran epsilon dan delta kita dapat memperkirakan bagian yang benar-benar kontinu dari sebagaiFθ(xi)
Keseragaman dari perkiraan ini berarti bahwa ketika kita mengambil semua epsilon dan delta untuk menjadi kecil, semua istilah juga tumbuh kecil. Akibatnya ada nilai yang semakin kecil diatur oleh kontribusi dari semua istilah kesalahan ini, yango() ϵ(θ)>0,
Ini masih agak berantakan, tapi ini menunjukkan ke mana kita pergi. Dalam hal data yang disensor, biasanya hanya satu bagian dari setiap istilah dalam produk akan nol, karena model ini biasanya mengasumsikan bahwa dukungan dari bagian tunggal dari distribusi terpisah dari dukungan bagian kontinu, tidak peduli apa pun parameter mungkin.θ (Khususnya: menyiratkan ) Itu memungkinkan kami untuk memecah produk menjadi dua bagian dan kami dapat memperhitungkan kontribusi dari semua interval keluar dari bagian kontinu:fd(x)≠0 Fa(x+ϵ)−Fa(x−ϵ)=o(ϵ).
(Tanpa kehilangan sifat umum saya telah mengindeks data sehingga berkontribusi ke bagian yang kontinu dan sebaliknya berkontribusi pada bagian tunggal dari kemungkinan.)xi,i=1,2,…,k xi,i=k+1,k+2,…,n
Ungkapan ini sekarang membuatnya jelas
Dengan demikian, kami dapat bekerja dengan ekspresi
ketika membangun rasio kemungkinan atau memaksimalkan kemungkinan. Keindahan hasil ini adalah bahwa kita tidak perlu mengetahui ukuran interval hingga yang digunakan dalam derivasi ini: epsilon dan delta drop out. Kita hanya perlu tahu bahwa kita bisa membuatnya cukup kecil untuk ekspresi kemungkinan yang sebenarnya kita kerjakan menjadi perkiraan yang memadai untuk ekspresi kemungkinan yang akan kita gunakan jika kita tahu ukuran intervalnya.
sumber
Pertanyaan ini adalah masalah mendasar yang sangat penting dalam analisis kemungkinan, dan juga yang sangat halus dan sulit, jadi saya cukup terkejut dengan beberapa jawaban dangkal yang diterimanya dalam komentar.
Bagaimanapun, dalam jawaban ini saya hanya akan menambahkan satu poin kecil untuk jawaban whuber yang sangat baik (yang saya pikir merupakan pendekatan yang tepat untuk masalah ini). Poin itu adalah bahwa fungsi kemungkinan dalam konteks ini berasal dari fungsi densitas pada ukuran dominasi campuran, dan ini mengarah pada sifat yang menarik bahwa kita dapat mengukur ukuran relatif fungsi kemungkinan secara sewenang-wenang atas bagian kontinu dan diskrit dan kita masih memiliki valid fungsi kemungkinan . Ini menimbulkan pertanyaan yang jelas tentang bagaimana kita dapat menerapkan teknik kemungkinan ketika tidak ada fungsi kemungkinan unik.
Menggambarkan titik ini membutuhkan beberapa presentasi pendahuluan pada kepadatan sampel sebagai turunan Radon-Nikodym dari ukuran probabilitas, jadi tolong tahan dengan saya. Pertama-tama saya akan menunjukkan cara mendapatkan fungsi kerapatan untuk ukuran yang mendominasi campuran dan kemudian saya akan menunjukkan mengapa hal ini mengarah pada kemampuan untuk skala bagian kontinu dan diskrit dari kemungkinan sesuai keinginan. Akhirnya, saya akan membahas implikasi masalah ini untuk analisis berbasis kemungkinan dan memberikan pendapat saya pada resolusi. Saya pikir ini pada dasarnya diselesaikan dengan metode whuber menyajikan dalam jawabannya, tetapi perlu diperluas ke arah yang telah saya bahas dalam komentar untuk jawaban itu, sehingga untuk memastikan bahwa setiap titik dalam mendukung bagian diskrit mengabaikan bagian kontinu pada titik itu.
Mengekspresikan kepadatan menggunakan ukuran yang mendominasi: Pendekatan standar untuk menangani kepadatan campuran untuk variabel acak nyata adalah dengan menggunakan ukuran Lebesgue sebagai ukuran yang mendominasi untuk bagian kontinu dan menghitung ukuran (lebih dari beberapa set dapat dihitung ditentukan sebagai ukuran dominan untuk bagian diskrit. Ini mengarah ke turunan Radon-Nikodym yang didefinisikan oleh:λLEB λCOUNT D⊂R
(Perhatikan bahwa integral yang terakhir merosot ke jumlah atas elemen . Kami menulisnya di sini sebagai integral untuk membuat kesamaan antara dua istilah lebih jelas.) Seseorang dapat gunakan kepadatan tunggal dengan mengambil ukuran dan pengaturan:x∈A∩D λ∗≡λLEB+λCOUNT
Menggunakan sebagai ukuran yang mendominasi, kami kemudian memiliki ekspresi berikut untuk probabilitas yang menarik:λ∗
Ini menunjukkan bahwa fungsi adalah turunan Radon-Nikodym yang valid dari ukuran probabilitas pada , jadi ini adalah kepadatan yang valid untuk variabel acak ini. Karena itu tergantung pada dan kita kemudian dapat mendefinisikan fungsi kemungkinan yang valid dengan memegang tetap dan memperlakukan ini sebagai fungsi .f∗ X x θ L∗x(θ)∝f∗(x|θ) x θ
Pengaruh penskalaan langkah-langkah yang mendominasi: Sekarang kita memahami ekstraksi kepadatan dari ukuran yang mendominasi, ini mengarah ke properti yang aneh di mana kita dapat skala ukuran relatif dari kemungkinan atas bagian yang kontinyu dan terpisah dan kita masih memiliki kemungkinan yang valid fungsi. Jika sekarang kita menggunakan ukuran yang mendominasi untuk beberapa konstanta positif dan maka kita sekarang mendapatkan kepadatan Radon-Nikodym yang sesuai:λ∗∗≡α⋅λLEB+β⋅λCOUNT α>0 β>0
Menggunakan sebagai ukuran yang mendominasi, kami kemudian memiliki ekspresi berikut untuk probabilitas yang menarik:λ∗∗
Seperti dalam kasus di atas, kita dapat mendefinisikan fungsi kemungkinan yang valid dengan memegang tetap dan memperlakukan ini sebagai fungsi . Anda dapat melihat bahwa kebebasan untuk memvariasikan dan sekarang memberi kami kebebasan untuk menskala ukuran relatif dari bagian kontinu dan diskrit dalam fungsi kemungkinan sebanyak yang kita inginkan, dan masih memiliki fungsi kemungkinan yang valid (walaupun berkenaan dengan ukuran dominasi yang berbeda, dengan penskalaan bagian yang sesuai).L∗∗x(θ)∝f∗∗(x|θ) x θ α β
Hasil khusus ini hanya bagian dari hasil yang lebih umum bahwa setiap fungsi kemungkinan didefinisikan sehubungan dengan beberapa (dominan) yang mendasari ukuran, dan tidak ada fungsi kemungkinan unik yang dapat didefinisikan terlepas dari ukuran mendasar ini. Namun demikian, dalam kasus khusus ini kita melihat bahwa itu masih didasarkan pada ukuran yang mendominasi yang merupakan kombinasi dari ukuran Lebesgue dan ukuran penghitungan, jadi kita belum benar-benar menggunakan ukuran itu. Karena tidak ada pembenaran obyektif untuk membentuk ukuran yang mendominasi dari bobot yang sama dari pengukuran Lebesgue dan ukuran penghitungan, implikasinya adalah bahwa tidak ada pembenaran obyektif untuk penskalaan relatif untuk bagian kontinu dan diskrit dari fungsi kemungkinan.†
Implikasi untuk analisis kemungkinan: Ini mungkin tampaknya menempatkan kita dalam sedikit kebingungan. Kami dapat secara sewenang-wenang menskalakan bagian diskrit dan kontinu dari fungsi kemungkinan naik atau turun dalam ukuran relatif dan masih memiliki klaim yang masuk akal untuk ini sebagai fungsi kemungkinan yang valid. Untungnya, masalah ini dapat diselesaikan dengan mengakui bahwa konstanta penskalaan akan keluar dari fungsi kemungkinan dengan cara yang sama seperti yang diilustrasikan dalam jawaban whuber . Yaitu, jika kita memiliki dan kita akan mendapatkan:x1,...,xk∉D xk+1,...,xn∈D
Ini menunjukkan bahwa sifat penskalaan dari ukuran yang mendominasi hanya mempengaruhi fungsi kemungkinan melalui penskalaan konstan yang dapat diabaikan dalam masalah MLE standar. Perhatikan bahwa dalam perawatan saya terhadap masalah ini, sifat yang bermanfaat ini telah terjadi sebagai akibat langsung dari fakta bahwa kerapatan sampel ditentukan dengan cara yang mengabaikan kerapatan kontinu ketika kita mendukung bagian diskrit. (Ini berbeda dari jawaban whuber , di mana ia memungkinkan untuk kombinasi bagian-bagian ini. Saya pikir ini mungkin benar-benar menyebabkan beberapa masalah sulit; lihat komentar saya untuk jawaban itu.)
sumber
Salah satu contoh di mana ini terjadi, yaitu, kemungkinan yang diberikan oleh model probabilitas tipe kontinu / diskrit campuran, adalah dengan data yang disensor. Sebagai contoh, lihat Regresi kesalahan normal tertimbang dengan sensor .
Secara umum ini dapat dirumuskan menggunakan teori ukuran. Kemudian asumsikan sebuah model statistik dengan fungsi model yang merupakan turunan Radon-Nikodym sehubungan dengan ukuran umum (yang seharusnya tidak bergantung pada parameter ). Kemudian fungsi kemungkinan berdasarkan sampel independen adalah . Ini benar-benar sama dalam kasus kontinu, diskrit dan campuran.f(x;θ) λ θ x1,x2,…,xn ∏if(xi;θ)
Salah satu contoh sederhana adalah pemodelan curah hujan harian. Itu bisa nol, dengan probabilitas positif, atau positif. Jadi untuk ukuran yang mendominasi kita bisa menggunakan jumlah ukuran Lebesgue pada dan atom pada nol.λ (0,∞)
sumber