Saya mengalami sedikit kesulitan memahami konsep dan derivasi dari kemungkinan data terpotong.
Misalnya, jika saya ingin menemukan fungsi kemungkinan berdasarkan sampel dari distribusi, tetapi ketika mengambil sampel dari distribusi, saya mengamati nilai terpotong (di mana ada cut-off dari , yaitu setiap dicatat sebagai ):
di mana jumlah nilai adalah . Kemudian, kemungkinan diberikan oleh:
Saya akan sangat menghargai penjelasan / bukti mengapa ini begitu, penting mengapa faktor kedua adalah apa adanya. Secara intuitif dan matematis jika memungkinkan. Terima kasih banyak sebelumnya.
dataset
likelihood
Delvesy
sumber
sumber
Jawaban:
Apa yang Anda gambarkan memerlukan perlakuan khusus, itu bukan apa yang biasanya kita maksud dengan "variabel acak terpotong" -dan apa yang biasanya kita maksudkan adalah bahwa variabel acak tidak berkisar di luar dukungan terpotong, yang berarti bahwa tidak ada konsentrasi massa probabilitas pada titik pemotongan. Untuk membedakan kasus:
A) Arti "biasa" dari rv terpotong[a,b] , −∞<a<b<∞ , lalu (pdf f , cdf F )
Untuk setiap distribusi yang kami pangkas dukungannya, kita harus "memperbaiki" kepadatannya sehingga terintegrasi ke dalam kesatuan ketika diintegrasikan ke atas dukungan terpotong. Jika variabel memiliki dukungan dalam
Karena LHS adalah bagian integral dari dukungan terpotong, kita melihat bahwa kepadatan rv terpotong, sebut sajaX~ , harus
B) Probabilitas massa konsentrasiM memusatkan semua massa probabilitas yang sesuai dengan dukungan variabel yang lebih tinggi dari M . Ini menciptakan titik diskontinuitas dalam kepadatan dan membuatnya memiliki dua cabang
Di sini, yang Anda gambarkan dalam pertanyaan, semuanya berbeda. Inti nya
Secara informal, yang kedua adalah "seperti rv diskrit" di mana setiap titik dalam fungsi massa probabilitas mewakili probabilitas aktual. Sekarang asumsikan kita punyan variabel acak iid seperti itu, dan kami ingin membentuk fungsi kerapatan / kemungkinan bersama. Sebelum melihat sampel yang sebenarnya, cabang apa yang harus kita pilih? Kita tidak dapat membuat keputusan itu sehingga kita harus memasukkan keduanya. Untuk melakukan ini kita perlu menggunakan fungsi indikator: denoteI{x∗≥M}≡I≥M(x∗) fungsi indikator yang mengambil nilai 1 kapan x∗≥M , dan 0 jika tidak. Kepadatan rv seperti itu dapat ditulis
Sekarang, di atas dipandang sebagai fungsi kemungkinan, sampel aktual yang terdiri dari realisasi inin variabel acak ikut bermain. Dan dalam sampel ini, beberapa realisasi yang diamati akan lebih rendah dari ambang batasM , beberapa sama. Menunjukkanm jumlah realisasi dalam sampel yang sama dengan M , dan v sisanya, m+v=n . Segera untukm realisasi, bagian yang sesuai dari kepadatan yang akan tetap dalam kemungkinan akan menjadi P(X∗i≥M) bagian, sedangkan untuk v realisasi, bagian lainnya. Kemudian
sumber
Teori kemungkinan adalah kerangka yang cukup umum. Sebagian besar buku teks menyatakan hasil untuk kasus r.vs kontinu yang terpisah dan untuk r.vs. Namun kasus campuran terjadi dalam praktik, seperti halnya di sini.
Untuk rv diskritA , kemungkinan observasi a didefinisikan sebagai probabilitas untuk mendapatkan nilai yang diamati a katakan
pA(a) . Untuk kemungkinan terus menerusL biasanya didefinisikan sebagai kepadatan di x katakan fX(x) . Namun dalam praktiknya orang hanya tahu ituxL<X<xU - karena ketelitian pengukuran terbatas, dan Pr{xL<X<xU} harus digunakan sebagai kemungkinan. Pengambilan
xL:=x−dx/2 , dengan kecil, kita mendapatkan hingga multiplikatif yang tidak masalah . Jadi definisi yang biasa dapat dilihat secara implisit mengasumsikan ketelitian tak terbatas pada pengamatan.xU:=x+dx/2 dx fX(x) dx
Untuk beberapa r.vs dan dengan tipe sambungan campuran diskrit / kontinyu, kemungkinannya adalah distribusi sambungan, yang biasanya dinyatakan menggunakan distribusi bersyarat, misalnya Dengan demikian untuk suatu interval dengan panjang kecil , adalah dikalikan kepadatan bersyarat pada , ucapkanA X
Sekarang mari kita kembali ke contoh Anda, dan pertimbangkan hanya satu pengamatan. Maka adalah Bernoulli rv dengan probabilitas keberhasilan . Tergantung pada atau tidak, baik Anda mengamati hanya atau Anda mengamati kedua dan nilai dari . Dalam kedua kasus Anda menggunakan rumus di atas, tetapi diambil sebagai atau sebagai interval dengan panjang kecil berisi . Memang ini memberiA=1{X>M} Pr{X>M} X>M A=1 A=0 x X (xL,xU) (M,∞) dx x
sumber