Fungsi kemungkinan data terpotong

8

Saya mengalami sedikit kesulitan memahami konsep dan derivasi dari kemungkinan data terpotong.

Misalnya, jika saya ingin menemukan fungsi kemungkinan berdasarkan sampel dari distribusi, tetapi ketika mengambil sampel dari distribusi, saya mengamati nilai terpotong (di mana ada cut-off dari M, yaitu setiap dicatat sebagai ):xi>MM

x1,x2,M,x3,M,x4,x5,...,x10

di mana jumlah nilai adalah . Kemudian, kemungkinan diberikan oleh:Mm

L(x;θ)=i=110f(xi;θ)[P(X>M)]m

Saya akan sangat menghargai penjelasan / bukti mengapa ini begitu, penting mengapa faktor kedua adalah apa adanya. Secara intuitif dan matematis jika memungkinkan. Terima kasih banyak sebelumnya.

Delvesy
sumber
Apa huruf kecil " "? m
Alecos Papadopoulos
Ini adalah jumlah kejadian .. yaitu saya telah mengamati titik data, di mana tidak terpotong, dan di antaranya adalah (saya amati pick ini, semuanya dengan nilai )M10+m10mmM
Delvesy
2
Seperti yang ditunjukkan @Alecos, Anda menggunakan "terpotong" secara istimewa. "Disensor" adalah istilah yang biasa.
Scortchi
Beberapa istilah lain yang Anda mungkin ingin cari di: "efek plafon / lantai", "regresi beta", dan "model nol-inflasi."
DWin

Jawaban:

8

Apa yang Anda gambarkan memerlukan perlakuan khusus, itu bukan apa yang biasanya kita maksud dengan "variabel acak terpotong" -dan apa yang biasanya kita maksudkan adalah bahwa variabel acak tidak berkisar di luar dukungan terpotong, yang berarti bahwa tidak ada konsentrasi massa probabilitas pada titik pemotongan. Untuk membedakan kasus:

A) Arti "biasa" dari rv terpotong
Untuk setiap distribusi yang kami pangkas dukungannya, kita harus "memperbaiki" kepadatannya sehingga terintegrasi ke dalam kesatuan ketika diintegrasikan ke atas dukungan terpotong. Jika variabel memiliki dukungan dalam[a,b], <a<b<, lalu (pdf f, cdf F)

abfX(x)dx=aMfX(x)dx+MbfX(x)dx=aMfX(x)dx+[1FX(M)]=1

aMfX(x)dx=FX(M)

Karena LHS adalah bagian integral dari dukungan terpotong, kita melihat bahwa kepadatan rv terpotong, sebut saja X~, harus

fX~(x~)=fX(xXM)=fX(x)dx[FX(M)]1
sehingga diintegrasikan ke kesatuan [a,M]. Istilah tengah dalam ungkapan di atas membuat kita berpikir tentang situasi ini (memang seharusnya) sebagai bentuk pengkondisian -tapi tidak pada variabel acak lain, tetapi pada nilai-nilai yang mungkin diambil oleh rv sendiri. Di sini fungsi kepadatan / kemungkinan gabungan dari koleksin terpotong iid rv akan n kali kepadatan di atas, seperti biasa.

B) Probabilitas massa konsentrasi
Di sini, yang Anda gambarkan dalam pertanyaan, semuanya berbeda. Inti nyaM memusatkan semua massa probabilitas yang sesuai dengan dukungan variabel yang lebih tinggi dari M. Ini menciptakan titik diskontinuitas dalam kepadatan dan membuatnya memiliki dua cabang

fX(x)=fX(x)x<MfX(x)=P(XM)xM

Secara informal, yang kedua adalah "seperti rv diskrit" di mana setiap titik dalam fungsi massa probabilitas mewakili probabilitas aktual. Sekarang asumsikan kita punyanvariabel acak iid seperti itu, dan kami ingin membentuk fungsi kerapatan / kemungkinan bersama. Sebelum melihat sampel yang sebenarnya, cabang apa yang harus kita pilih? Kita tidak dapat membuat keputusan itu sehingga kita harus memasukkan keduanya. Untuk melakukan ini kita perlu menggunakan fungsi indikator: denoteI{xM}IM(x) fungsi indikator yang mengambil nilai 1 kapan xM, dan 0jika tidak. Kepadatan rv seperti itu dapat ditulis

fX(x)=fX(x)[1IM(x)]+P(XM)IM(x)
dan karena itu fungsi kerapatan sambungan n variabel iid tersebut adalah

fX(Xθ)=i=1n[fX(xi)[1IM(xi)]+P(XiM)IM(xi)]

Sekarang, di atas dipandang sebagai fungsi kemungkinan, sampel aktual yang terdiri dari realisasi ininvariabel acak ikut bermain. Dan dalam sampel ini, beberapa realisasi yang diamati akan lebih rendah dari ambang batasM, beberapa sama. Menunjukkanm jumlah realisasi dalam sampel yang sama dengan M, dan v sisanya, m+v=n. Segera untukm realisasi, bagian yang sesuai dari kepadatan yang akan tetap dalam kemungkinan akan menjadi P(XiM) bagian, sedangkan untuk vrealisasi, bagian lainnya. Kemudian

L(θ{xi;i=1,...n})=i=1v[fX(xi)]j=1m[P(XjM)]=i=1v[fX(xi)][P(XM)]m
Alecos Papadopoulos
sumber
Terima kasih. Saya sangat menghargai jawabannya. Saya kira masalah utama saya adalah poin pertama di bagian b) ... yaitu, bagaimana "cabang kedua" dari pdf didefinisikan. Ini adalah PMF diskrit dan tidak benar-benar mendefinisikan pdf dari definisi pdf. Bisakah bagian ini dijelaskan lebih lanjut? Terima kasih banyak.
Delvesy
Variabel acak ini disebut "tipe campuran", yaitu mereka sebagian kontinu dan sebagian terpisah. Secara intuitif itu masuk akal, seperti yang ditunjukkan oleh pertanyaan Anda. Untuk perawatan yang ketat, cari "variabel acak tipe campuran" atau "distribusi tipe campuran". JANGAN membingungkan mereka dengan "campuran".
Alecos Papadopoulos
4

Teori kemungkinan adalah kerangka yang cukup umum. Sebagian besar buku teks menyatakan hasil untuk kasus r.vs kontinu yang terpisah dan untuk r.vs. Namun kasus campuran terjadi dalam praktik, seperti halnya di sini.

Untuk rv diskrit A, kemungkinan observasi a didefinisikan sebagai probabilitas untuk mendapatkan nilai yang diamati akatakan pA(a). Untuk kemungkinan terus menerusL biasanya didefinisikan sebagai kepadatan di xkatakan fX(x). Namun dalam praktiknya orang hanya tahu ituxL<X<xU - karena ketelitian pengukuran terbatas, dan Pr{xL<X<xU}harus digunakan sebagai kemungkinan. Pengambilan xL:=xdx/2, dengan kecil, kita mendapatkan hingga multiplikatif yang tidak masalah . Jadi definisi yang biasa dapat dilihat secara implisit mengasumsikan ketelitian tak terbatas pada pengamatan.xU:=x+dx/2dxfX(x)dx

Untuk beberapa r.vs dan dengan tipe sambungan campuran diskrit / kontinyu, kemungkinannya adalah distribusi sambungan, yang biasanya dinyatakan menggunakan distribusi bersyarat, misalnya Dengan demikian untuk suatu interval dengan panjang kecil , adalah dikalikan kepadatan bersyarat pada , ucapkanAX

L:=Pr{A=a,xL<X<xU}=Pr{A=a}×Pr{xL<X<xU|A=a}.
(xL,xU)dxLpA(a)X{A=a}fX|A(x|a). Sekali lagi, kita menghilangkan istilah .dx

Sekarang mari kita kembali ke contoh Anda, dan pertimbangkan hanya satu pengamatan. Maka adalah Bernoulli rv dengan probabilitas keberhasilan . Tergantung pada atau tidak, baik Anda mengamati hanya atau Anda mengamati kedua dan nilai dari . Dalam kedua kasus Anda menggunakan rumus di atas, tetapi diambil sebagai atau sebagai interval dengan panjang kecil berisi . Memang ini memberi A=1{X>M}Pr{X>M}X>MA=1A=0xX(xL,xU)(M,)dxx

L={Pr{X>M}×1if X>M i.e. A=1,Pr{XM}×fX|A(x|a)dxif XM i.e. A=0.
Sejak , kemungkinannya hanyalah dalam kasus kedua dan kami mendapatkan kemungkinan yang diklaim, hingga istilah untuk pengamatan dengan presisi tak terbatas. Ketika pengamatan independen dan dibuat, kemungkinan diperoleh sebagai produk dari kemungkinan marginal yang mengarah ke ekspresi dalam pertanyaan.fX|A(x|0)=fX(x)/Pr{XM}fX(x)dxdxAiXi
Yves
sumber