Estimasi parameter distribusi eksponensial dengan sampling bias

8

Saya ingin menghitung parameter dari distribusi eksponensial dari populasi sampel yang diambil dari distribusi ini dalam kondisi bias. Sejauh yang saya tahu, untuk sampel nilai n, estimator yang biasa adalah . Namun sampel saya bias sebagai berikut:λeλxλ^=nxi

Dari populasi lengkap elemen m yang diambil dari distribusi eksponensial, hanya n elemen terkecil yang diketahui. Bagaimana saya bisa memperkirakan parameter dalam skenario ini?λ

Sedikit lebih formal, jika adalah sampel pertama yang diambil dari , sehingga untuk setiap i <j kami memiliki x_i \ leq x_j , maka bagaimana saya bisa memperkirakan \ lambda dari set \ {x_1, x_2, x_3, ..., x_n \} di mana n <m .{x1,x2,x3,...,xm}eλxi<jxixjλ{x1,x2,x3,...,xn}n<m

Terima kasih banyak!

Michael

Michael
sumber
1
Apakah Anda tahu nilai m ?
jbowman
3
Ini adalah sensor tipe II ( en.wikipedia.org/wiki/Censoring_%28statistics%29 ). Sekarang, dapat ditunjukkan bahwa kemungkinan biasa dalam analisis survival juga berlaku untuk mekanisme sensor tipe II.
ocram
1
Peran dan tampaknya ditukar sebagian dengan jawaban ini. mn
kardinal
Terima kasih, kamu benar. Saya memperbaiki peran m dan n dalam pernyataan masalah.
Michael

Jawaban:

8

Estimasi kemungkinan maksimum untuk parameter distribusi eksponensial di bawah sensor tipe II dapat diturunkan sebagai berikut. Saya berasumsi ukuran sampel adalah , dimana terkecil diamati dan terbesar tidak teramati (tetapi diketahui ada.)mn<mmn

Mari kita asumsikan (untuk kesederhanaan notasi) bahwa diamati disusun: . Maka kepadatan probabilitas gabungan dari adalah:xi0x1x2xnx1,,xn

f(x1,...,xn)=m!λn(m-n)!exp{-λsaya=1nxsaya}exp{-λ(m-n)xn}

di mana eksponensial pertama berkaitan dengan probabilitas diamati dan yang kedua dengan probabilitas yang tidak teramati yang lebih besar dari (yang hanya 1 - CDF di .) Istilah penyusunan ulang mengarah ke:nxsayam-nxsayaxnxn

f(x1,...,xn)=m!λn(m-n)!exp{-λ[saya=1n-1xsaya+(m-n+1)xn]}

(Catat jumlah berjalan ke karena ada " " dalam koefisien .) Mengambil log, lalu turunan wrt dan seterusnya mengarah ke penaksir kemungkinan maksimum:n-1+1xnλ

λ^=n/[saya=1n-1xsaya+(m-n+1)xn]

Jbowman
sumber
1
Jawaban yang bagus. Apakah Anda mengganti dan dibandingkan dengan pertanyaan secara tidak sengaja? mn
Neil G
2
@NeilG - terima kasih! Saya hanya memperhatikan bahwa OP beralih dari "dari populasi lengkap elemen yang diambil ... hanya terkecil yang diketahui" dalam teks menjadi pada akhirnya. Saya akan mengklarifikasi notasi mana yang saya gunakan dalam pengeditan ...mnm<n
jbowman
2

Ini menghubungkan jawaban @ jbowman dengan komentar saya. Yaitu, di bawah asumsi kerja umum, seseorang dapat menggunakan 'kemungkinan bertahan hidup standar' di bawah sensor tipe II.

> #------seed------
> set.seed(1907)
> #----------------
> 
> #------some data------
> t <- sort(rexp(n=20, rate=2))        #true sample
> t[16:20] <- t[15]                    #observed sample
> delta <- c(rep(1, 15), rep(0, 5))    #censoring indicator
> data <- data.frame(t, delta)         #observed data
> #---------------------
> 
> #-----using @jbowman's formula------
> 15 / (sum(t[1:14]) + (5 + 1)*t[15])
[1] 2.131323
> #-----------------------------------
> 
> #------using the usual survival likelihood------
> library(survival)
> fit <- survreg(Surv(t, delta)~1, dist="exponential", data=data)
> exp(-fit$coef)
(Intercept) 
   2.131323 
> #-----------------------------------------------

PS1: Perhatikan bahwa ini tidak terbatas pada distribusi eksponensial.

PS2: Detail dapat ditemukan di Bagian 2.2 buku oleh Lawless .

okram
sumber
1

Dengan asumsi diketahui, estimasi dapat diperoleh vian

Φ(xk)=1-e-λxk(k/n) mana , , merujuk pada nilai terkecil dalam set data yang dikurangi.xk0<k<mk

Logikanya adalah: jika Anda memiliki seluruh set sampel, Anda dapat membangun CDF empiris, , dari sampel ini. Kemudian jika Anda mengambil item dari array yang diurutkan ini, itu akan sesuai dengan nilai CDF . Dalam banyak kasus, adalah pilihan yang berguna.nΦkk/nk=n/2

Dave
sumber