Distribusi asimptotik dari sampel yang disensor dari

8

Misalkan menjadi statistik urutan sampel iid ukuran dari . Misalkan data disensor sehingga kita hanya melihat bagian atas persen dari data, yaituLetakkan , apa distribusi asimptotik dari X(1),,X(n)nexp(λ)(1p)×100

X(pn),X(pn+1),,X(n).
m=pn
(X(m),i=m+1nX(i)(nm))?

Ini agak berkaitan dengan ini pertanyaan dan ini dan juga sedikit untuk ini pertanyaan.

Bantuan apa pun akan dihargai. Saya mencoba pendekatan yang berbeda tetapi tidak dapat banyak kemajuan.

mereka
sumber
Satu dapat menunjukkan bahwa dikondisikan pada , vektor didistribusikan sebagai statistik pesanan dari iid sampel dari (dengan sebagaimana didefinisikan dalam pertanyaan yaitu ), karenanya jadi pada batas , kami memulihkan CLT karena independensi , ini tampaknya merupakan jalur yang benar, tetapi Saya tidak dapat mendorong argumen ini lebih jauh dan menemukan asimptotik untuk .. .X(m)(X(m+1)X(m),,X(n)X(m)|X(m)){Yi}1nmexp(1)mm=pn1mni=m+1nX(i)X(m)|X(m)=1mni=1nmY(i)nYi(X(m),1mni=m+1nX(i))
mereka
2
Kepada OP: Mengapa Anda menyebut sampel Anda disensor? Istilah yang disensor akan menunjukkan bahwa nilai di bawah titik sensor dicatat sebagai 0, atau dicatat pada titik sensor, dll. Tapi itu bukan apa yang Anda lakukan ... Anda membuangnya, yang bukan menyensor ... itu adalah lebih seperti memotongnya. Dan karena Anda mempertimbangkan distribusi asimptotik, dan mengambil untuk menjadi besar, mengapa Anda peduli tentang pertama memesan sampel, dan memotong sampel yang dipesan ??? Mengapa tidak mempertimbangkan distribusi Eksponensial yang terpotong, terpotong di bawah ini pada p%, dan kemudian menjumlahkan persyaratannya? n
serigala
@ serigala, saya memperbaiki semua kesalahan ketik yang telah Anda tunjukkan. Saya akan melihat distribusi terpotong . Mengenai sensor, saya telah menghapus catatan itu. Namun beberapa sumber yang saya lihat merujuk pada masalah yang sama dengan menyensor tipe II atas halaman 6 di sini
mereka
1
@ mereka itu istilah non-standar sejauh yang saya tahu. Anda harus menggunakan model terpotong di sini.
shadowtalker

Jawaban:

2

Karena hanyalah faktor skala, tanpa kehilangan keumuman memilih unit pengukuran yang membuat , membuat fungsi distribusi yang mendasarinya dengan kepadatan .λλ=1F(x)=1exp(x)f(x)=exp(x)

Dari pertimbangan yang paralel dengan teorema limit Tengah untuk median sampel , adalah asimtotik Normal dengan rata-rata dan variansX(m)F1(p)=log(1p)

Var(X(m))=p(1p)nf(log(1p))2=pn(1p).

Karena properti tanpa memori dari distribusi eksponensial , variabel bertindak seperti statistik urutan sampel acak dari diambil dari , yang telah ditambahkan. Penulisan(X(m+1),,X(n))nmFX(m)

Y=1nmi=m+1nX(i)

untuk rata-rata mereka, segera bahwa rata-rata adalah rata-rata (sama dengan ) dan varian adalah dikalikan varian (juga sama dengan ). Teorema Limit Sentral menyiratkan bahwa terstandarisasi adalah Standar Normal asimptotik. Selain itu, karena adalah bersyarat independen , kita secara bersamaan memiliki versi standar dari menjadi asimtotik Normal Standar dan tidak berkorelasi dengan . Itu adalah,YF1Y1/(nm)F1YYX(m)X(m)Y

(1)(X(m)+log(1p)p/(n(1p)),YX(m)1nm)

asymptotically memiliki distribusi Normal Standar bivariat.


Laporan grafik pada data simulasi untuk sampel ( iterasi) dan . Jejak kemiringan positif tetap ada, tetapi pendekatan untuk normalitas bivariat terbukti dalam kurangnya hubungan antara dan dan kedekatan histogram dengan kepadatan Standar Normal (ditunjukkan dalam titik merah). n=1000500p=0.95YX(m)X(m)Angka

Matriks kovarians dari nilai standar (seperti dalam rumus ) untuk simulasi ini adalah nyaman dekat dengan matriks unit yang didekati.(1)

(0.9670.0210.0211.010),

The Rkode yang dihasilkan grafis ini adalah mudah dimodifikasi untuk mempelajari nilai-nilai lain dari , , dan ukuran simulasi.np

n <- 1e3
p <- 0.95
n.sim <- 5e3
#
# Perform the simulation.
# X_m will be in the first column and Y in the second.
#
set.seed(17)
m <- floor(p * n)
X <- apply(matrix(rexp(n.sim * n), nrow = n), 2, sort)
X <- cbind(X[m, ], colMeans(X[(m+1):n, , drop=FALSE]))
#
# Display the results.
#
par(mfrow=c(2,2))

plot(X[,1], X[,2], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab="Y",
     main="Y vs X", sub=paste("n =", n, "and p =", signif(p, 2)))

plot(X[,1], X[,2]-X[,1], pch=16, col="#00000020", 
     xlab=expression(X[(m)]), ylab=expression(Y - X[(m)]),
     main="Y-X vs X", sub="Loess smooth shown")
lines(lowess(X[,2]-X[,1] ~ X[,1]), col="Red", lwd=3, lty=1)

x <- (X[,1] + log(1-p))  / sqrt(p/(n*(1-p)))
hist(x, main="Standardized X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)

y <- (X[,2] - X[,1] - 1) * sqrt(n-m)
hist(y, main="Standardized Y-X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
par(mfrow=c(1,1))

round(var(cbind(x,y)), 3) # Should be close to the unit matrix
whuber
sumber