Saya memiliki banyak nilai data mentah yang merupakan jumlah dolar dan saya ingin mencari interval kepercayaan untuk persentil dari data itu. Apakah ada formula untuk interval kepercayaan diri seperti itu?
Saya memiliki banyak nilai data mentah yang merupakan jumlah dolar dan saya ingin mencari interval kepercayaan untuk persentil dari data itu. Apakah ada formula untuk interval kepercayaan diri seperti itu?
Pertanyaan ini, yang mencakup situasi umum, layak mendapatkan jawaban sederhana dan tidak perkiraan. Untungnya ada satu.
Misalkan adalah nilai independen dari distribusi yang tidak diketahui yang quantile saya akan menulis . Ini berarti setiap memiliki peluang (setidaknya) kurang dari atau sama dengan . Akibatnya jumlah kurang dari atau sama dengan memiliki distribusi Binomial .
Termotivasi oleh pertimbangan sederhana ini, Gerald Hahn dan William Meeker dalam Interval Statistik buku pegangan mereka (Wiley 1991) menulis
Interval kepercayaan 100 distribusi bebas dua sisi untuk diperoleh ... seperti
di mana adalah statistik urutan sampel. Mereka melanjutkan untuk mengatakan
Seseorang dapat memilih bilangan bulat simetris (atau hampir simetris) di sekitar dan sedekat mungkin tergantung pada persyaratan yang
Ekspresi di sebelah kiri adalah peluang bahwa variabel Binomial memiliki salah satu nilai . Jelas, ini adalah kesempatan bahwa jumlah nilai data jatuh dalam lebih rendah dari distribusi tidak terlalu kecil (kurang dari ) atau terlalu besar ( atau lebih besar).
Hahn dan Meeker mengikuti dengan beberapa komentar berguna, yang akan saya kutip.
Interval sebelumnya adalah konservatif karena tingkat kepercayaan aktual, yang diberikan oleh sisi kiri Persamaan , lebih besar dari nilai yang ditentukan . ...
Terkadang mustahil untuk membangun interval statistik bebas distribusi yang setidaknya memiliki tingkat kepercayaan yang diinginkan. Masalah ini sangat akut ketika memperkirakan persentil di ekor distribusi dari sampel kecil. ... Dalam beberapa kasus, analis dapat mengatasi masalah ini dengan memilih dan simetris. Alternatif lain mungkin menggunakan tingkat kepercayaan yang dikurangi.
Mari kita bekerja melalui contoh (juga disediakan oleh Hahn & Meeker). Mereka memasok serangkaian "pengukuran senyawa dari proses kimia" dan meminta interval kepercayaan untuk persentil. Mereka mengklaim dan akan bekerja.
Probabilitas total interval ini, seperti yang ditunjukkan oleh bilah biru pada gambar, adalah : sedekat yang bisa dicapai hingga , namun masih di atasnya, dengan memilih dua cutoff dan menghilangkan semua peluang di ekor kiri dan ekor kanan yang berada di luar batas itu.
Berikut adalah data, ditunjukkan dalam urutan, meninggalkan dari nilai-nilai dari tengah:
The terbesar adalah dan terbesar adalah . Intervalnya adalah .
Mari kita tafsirkan ulang itu. Prosedur ini seharusnya memiliki setidaknya peluang untuk mencakup persentil . Jika persentil itu benar-benar melebihi , itu berarti kita akan mengamati atau lebih dari nilai dalam sampel kami yang di bawah persentil . Terlalu banyak. Jika persentil itu kurang dari , itu berarti kita akan mengamati atau lebih sedikit nilai dalam sampel kami yang di bawah persentil . Itu terlalu sedikit. Dalam kedua kasus - persis seperti yang ditunjukkan oleh bilah merah pada gambar - itu akan menjadi bukti terhadap persentil dalam interval ini.
Salah satu cara untuk menemukan pilihan dan adalah dengan mencari sesuai dengan kebutuhan Anda. Berikut adalah metode yang dimulai dengan interval perkiraan simetris dan kemudian mencari dengan memvariasikan baik dan hingga untuk menemukan interval dengan cakupan yang baik (jika mungkin). Diilustrasikan dengan kode. Sudah diatur untuk memeriksa cakupan pada contoh sebelumnya untuk distribusi Normal. Outputnya adalahR
Cakupan rata-rata simulasi adalah 0,9503; cakupan yang diharapkan adalah 0,9523
Kesepakatan antara simulasi dan ekspektasi sangat baik.
#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
#
# Search over a small range of upper and lower order statistics for the
# closest coverage to 1-alpha (but not less than it, if possible).
#
u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
l <- qbinom(alpha/2, n, q) + (-2:2)
u[u > n] <- Inf
l[l < 0] <- -Inf
coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
i <- which(coverage == min(coverage[coverage >= 1-alpha]))
i <- i[1]
#
# Return the order statistics and the actual coverage.
#
u <- rep(u, each=5)[i]
l <- rep(l, 5)[i]
return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100 # Sample size
q <- 0.90 # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4),
"; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
Penurunan
The -quantile (ini adalah konsep yang lebih umum daripada persentil) dari suatu variabel acak diberikan oleh . Contoh pendamping dapat ditulis sebagai - ini hanya sampel kuantil. Kami tertarik pada distribusi:
Pertama, kita membutuhkan distribusi asimptotik dari cirik empiris.
Karena , Anda dapat menggunakan teorema limit pusat. adalah variabel acak , jadi rata-rata adalah dan adalah .
Sekarang, karena invers adalah fungsi kontinu, kita dapat menggunakan metode delta.
[** Metode delta mengatakan bahwa jika , dan adalah fungsi kontinu, maka **]
Di sisi kiri (1), ambil , dan
[** catat bahwa ada sedikit tangan dalam langkah terakhir karena , tetapi keduanya asimtotik sama jika membosankan untuk ditampilkan **]
Sekarang, terapkan metode delta yang disebutkan di atas.
Karena (fungsi terbalik dalil)
Kemudian, untuk membangun interval kepercayaan, kita perlu menghitung kesalahan standar dengan memasukkan sampel rekan dari setiap istilah dalam varian di atas:
Hasil
Jadi
Dan
Ini akan mengharuskan Anda untuk memperkirakan kepadatan , tetapi ini harus cukup mudah. Atau, Anda juga bisa mem-bootstrap CI dengan mudah.