Bingung tentang interval kepercayaan

10

Saya bingung tentang konsep interval kepercayaan. Secara khusus, asumsikan ada variabel Gaussian XN(μ,σ) dengan σ diketahui, dan saya tertarik pada μL batas bawah rata-rata dengan tingkat kepercayaan 95% .

Saya akan melakukan percobaan sebanyak 5 kali, dan mengamati X1 , X2 , X3 , X4 , X5 .

Opsi 1: Saya memperlakukan setiap sampel secara terpisah, dan saya dapat menghitung μL=Xiσz untuk setiap Xi . Dan kemudian saya kira ada beberapa cara (saya tidak tahu bagaimana) untuk menghitung batas bawah sebenarnya dari 5 μL .

Opsi 2: Di sisi lain, jika saya mengambil T=(X1+X2+X3+X4+X5)/5 , saya dapat menghitung μL=Tσ/5z. (dengan asumsiTadalah normal, kita dapat menggunakan t-stat juga.)

Apakah ada metode selain opsi 2 untuk menghitung batas bawah berdasarkan 5 sampel? Dan untuk opsi 1, apakah ada cara untuk menghitung batas bawah berdasarkan pada 5 batas bawah yang dihitung?

Calbear
sumber

Jawaban:

12

Ini adalah pertanyaan yang bagus karena ia mengeksplorasi kemungkinan prosedur alternatif dan meminta kami untuk memikirkan mengapa dan bagaimana satu prosedur mungkin lebih unggul dari yang lain.

Jawaban singkatnya adalah bahwa ada banyak cara yang tak terhingga kami dapat merancang prosedur untuk mendapatkan batas kepercayaan yang lebih rendah untuk rata-rata, tetapi beberapa di antaranya lebih baik dan beberapa lebih buruk (dalam arti yang bermakna dan didefinisikan dengan baik). Opsi 2 adalah prosedur yang sangat baik, karena orang yang menggunakannya perlu mengumpulkan kurang dari setengah data sebanyak orang yang menggunakan Opsi 1 untuk mendapatkan hasil dengan kualitas yang sebanding. Setengah dari jumlah data biasanya berarti separuh anggaran dan separuh waktu, jadi kita berbicara tentang perbedaan substansial dan penting secara ekonomi. Ini memasok demonstrasi nyata dari nilai teori statistik.


Daripada mengulang teori, di mana banyak akun buku teks yang baik ada, mari kita cepat mengeksplorasi tiga prosedur batas kepercayaan lebih rendah (LCL) untuk varian normal independen dari standar deviasi yang dikenal. Saya memilih tiga yang alami dan menjanjikan yang disarankan oleh pertanyaan. Masing-masing ditentukan oleh tingkat kepercayaan yang diinginkan 1 - α :n1α

  • k min α , n , σ t min μ α Pr ( t min > μ ) = αtmin=min(X1,X2,,Xn)kα,n,σminσkα,n,σmintminμαPr(tmin>μ)=α

  • Opsi 1b, prosedur "maks" . Batas kepercayaan yang lebih rendah ditetapkan sama dengan . Nilai angka ditentukan sehingga peluang bahwa akan melebihi rata-rata sebenarnya hanya ; yaitu, .k maks α , n , σ t maks μ α Pr ( t maks > μ ) = αtmax=max(X1,X2,,Xn)kα,n,σmaxσkα,n,σmaxtmaxμαPr(tmax>μ)=α

  • Opsi 2, prosedur "berarti" . Batas kepercayaan yang lebih rendah ditetapkan sama dengan . Nilai angka ditentukan sehingga peluang bahwa akan melebihi mean sebenarnya hanya ; yaitu, .k berarti α , n , σ t rata-rata μ α Pr ( t rata-rata > μ ) = αtmean=mean(X1,X2,,Xn)kα,n,σmeanσkα,n,σmeantmeanμαPr(tmean>μ)=α

Seperti diketahui, mana ; adalah fungsi probabilitas kumulatif dari distribusi Normal standar. Ini adalah formula yang dikutip dalam pertanyaan. Singkatan matematika adalah Φ(zα)=1-αΦkα,n,σmean=zα/nΦ(zα)=1αΦ

  • kα,n,σmean=Φ1(1α)/n.

Rumus untuk prosedur min dan maks kurang diketahui tetapi mudah untuk menentukan:

  • kα,n,σmin=Φ1(1α1/n) .

  • kα,n,σmax=Φ1((1α)1/n) .

Melalui simulasi, kita dapat melihat bahwa ketiga formula bekerja. RKode berikut melakukan percobaan n.trialssecara terpisah dan melaporkan ketiga LCL untuk setiap percobaan:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(Kode tidak mengganggu untuk bekerja dengan distribusi normal umum: karena kita bebas memilih unit pengukuran dan nol skala pengukuran, cukup untuk mempelajari case , Itulah sebabnya tidak ada rumus untuk berbagai benar-benar bergantung pada .)σ = 1 k α , n , σ σμ=0σ=1kα,n,σσ

10.000 uji coba akan memberikan akurasi yang cukup. Mari kita jalankan simulasi dan hitung frekuensi kegagalan setiap prosedur untuk menghasilkan batas kepercayaan kurang dari nilai sebenarnya:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

Outputnya adalah

   max    min   mean 
0.0515 0.0527 0.0520

Frekuensi-frekuensi ini cukup dekat dengan nilai yang ditentukan dari sehingga kita dapat puas dengan ketiga prosedur yang bekerja seperti yang diiklankan: masing-masing menghasilkan tingkat kepercayaan 95% lebih rendah dan batas kepercayaan rata-rata.α=.05

(Jika Anda khawatir frekuensi ini sedikit berbeda dari , Anda dapat menjalankan lebih banyak uji coba. Dengan sejuta uji coba, frekuensi tersebut semakin mendekati : .).05 ( 0,050547 , 0,049877 , 0,050274 ).05.05(0.050547,0.049877,0.050274)

Namun, satu hal yang kami inginkan tentang prosedur LCL adalah bahwa tidak hanya itu harus memperbaiki proporsi waktu yang dimaksudkan, tetapi harus cenderung dekat dengan yang benar. Sebagai contoh, bayangkan seorang ahli statistik (hipotetis) yang, berdasarkan sensibilitas religius yang mendalam, dapat berkonsultasi dengan oracle Delphic (dari Apollo) alih-alih mengumpulkan data dan melakukan perhitungan LCL. Ketika dia meminta dewa untuk 95% LCL, dewa itu hanya akan ilahi yang sebenarnya jahat dan mengatakan itu padanya - lagipula, dia sempurna. Tapi, karena dewa tidak ingin berbagi kemampuannya sepenuhnya dengan umat manusia (yang harus tetap bisa salah), 5% dari waktu ia akan memberikan LCL yaitu 100 σX1,X2,,Xn100σterlalu tinggi. Prosedur Delphic ini juga merupakan 95% LCL - tetapi itu akan menjadi menakutkan untuk digunakan dalam praktek karena risiko itu menghasilkan ikatan yang benar-benar mengerikan.

Kita dapat menilai seberapa akurat ketiga prosedur LCL kita. Cara yang baik adalah dengan melihat distribusi sampling mereka: dengan kata lain, histogram dari banyak nilai simulasi juga akan baik. Di sini mereka. Namun pertama-tama, kode untuk memproduksinya:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Histogram

Mereka ditunjukkan pada sumbu x identik (tetapi sumbu vertikal sedikit berbeda). Yang kami minati adalah

  1. Bagian merah di sebelah kanan - area yang mewakili frekuensi kegagalan prosedur untuk meremehkan rata-rata - semuanya hampir sama dengan jumlah yang diinginkan, . (Kami sudah mengkonfirmasi itu secara numerik.)α = .050α=.05

  2. The menyebar dari hasil simulasi. Jelas, histogram paling kanan lebih sempit daripada dua lainnya: itu menggambarkan prosedur yang memang meremehkan rata-rata (sama dengan ) sepenuhnya % dari waktu, tetapi bahkan ketika itu terjadi, meremehkan itu hampir selalu dalam dari benar-benar berarti. Dua histogram lainnya memiliki kecenderungan untuk meremehkan rata-rata yang sebenarnya dengan sedikit lebih banyak, sehingga sekitar terlalu rendah. Juga, ketika mereka melebih-lebihkan mean sebenarnya, mereka cenderung melebih-lebihkannya dengan lebih dari prosedur paling kanan. Kualitas-kualitas ini membuatnya lebih rendah daripada histogram paling kanan.95 2 σ 3 σ0952σ3σ

Histogram paling kanan menjelaskan Opsi 2, prosedur LCL konvensional.

Salah satu ukuran dari spread ini adalah standar deviasi dari hasil simulasi:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Angka-angka ini memberi tahu kita bahwa prosedur max dan min memiliki spread yang sama (sekitar ) dan prosedur rata-rata yang biasa hanya memiliki sekitar dua pertiga spreadnya (sekitar ). Ini menegaskan bukti dari mata kita.0,450.680.45

Kuadrat dari deviasi standar adalah varians, masing-masing sama dengan , , dan . Varians dapat terkait dengan jumlah data : jika seorang analis merekomendasikan prosedur max (atau min ), maka untuk mencapai spread sempit yang ditunjukkan oleh prosedur yang biasa, klien mereka harus mendapatkan kali lebih banyak data - Lebih dari dua kali lipat. Dengan kata lain, dengan menggunakan Opsi 1, Anda akan membayar lebih dari dua kali lipat untuk informasi Anda daripada menggunakan Opsi 2.0,45 0,20 0,45 / 0,210.450.450.200.45/0.21

whuber
sumber
2
Anda tidak pernah gagal membuat saya takjub.
Momo
+1 @whuber Ini adalah ilustrasi yang bagus. Dalam menggambarkan interval kepercayaan bootstrap, Efron berbicara tentang keakuratan dan kebenaran. Akurasinya adalah bahwa tingkat kepercayaan sebenarnya dari interval dekat dengan nilai yang diiklankan. 3 contoh Anda semuanya akurat. Yang benar mengacu pada yang terbaik. Untuk interval kepercayaan dua sisi yang berarti yang akurat dengan lebar terpendek (interval atau terikat berdasarkan rata-rata dalam kasus Anda). Contoh Anda menarik karena tiga metode paling tidak agak kompetitif.
Michael R. Chernick
Opsi 1 OP tidak dekat untuk menjadi kompetitif karena alasan yang saya berikan dalam jawaban saya.
Michael R. Chernick
@Michael Saya setuju bahwa penafsiran Anda tentang Opsi 1 tidak kompetitif. Apa yang saya temukan menarik - dan dieksplorasi di sini - adalah bahwa ada beberapa interpretasi yang lebih layak tentang bagaimana seseorang dapat "menghitung batas bawah yang sebenarnya" dari lima yang terpisah, dua di antaranya telah saya periksa di sini. Saya mungkin harus melihat dari dekat pada opsi "median" juga: itu tidak akan jauh lebih rendah daripada perhitungan biasa (sekitar 40% kurang efisien).
whuber
1

Opsi pertama tidak memperhitungkan varians tereduksi yang Anda dapatkan dari sampel. Opsi pertama memberi Anda lima batas kepercayaan 95% lebih rendah untuk rata-rata berdasarkan sampel ukuran 1 dalam setiap kasus. Menggabungkannya dengan rata-rata tidak membuat batas yang dapat Anda interpretasikan sebagai batas bawah 95%. Tidak ada yang akan melakukan itu. Opsi kedua adalah apa yang dilakukan. Rata-rata dari lima pengamatan independen memiliki varians lebih kecil dengan faktor 6 dari varians untuk sampel tunggal. Karenanya itu memberi Anda batas bawah yang jauh lebih baik daripada salah satu dari lima yang Anda hitung dengan cara pertama.

Juga jika X dapat dianggap iid normal maka T akan normal.i

Michael R. Chernick
sumber