Mari tetap berpegang pada situasi ideal dengan pengambilan sampel acak, populasi Gaussian, varian yang sama, tanpa peretasan P, dll.
Langkah 1. Anda menjalankan eksperimen yang mengatakan membandingkan dua mean sampel, dan menghitung interval kepercayaan 95% untuk perbedaan antara dua mean populasi.
Langkah 2. Anda menjalankan lebih banyak eksperimen (ribuan). Perbedaan antara cara akan bervariasi dari percobaan ke percobaan karena pengambilan sampel acak.
Pertanyaan: Apa fraksi perbedaan antara rata-rata dari kumpulan eksperimen pada langkah 2 yang akan berada dalam interval kepercayaan langkah 1?
Itu tidak bisa dijawab. Itu semua tergantung pada apa yang terjadi pada langkah 1. Jika percobaan langkah 1 itu sangat tidak lazim, jawaban untuk pertanyaan itu mungkin sangat rendah.
Jadi bayangkan kedua langkah diulang berkali-kali (dengan langkah 2 berulang kali lebih banyak). Sekarang saya pikir, mungkin saja, untuk menghasilkan ekspektasi untuk apa fraksi percobaan berulang, rata-rata, memiliki ukuran efek dalam interval kepercayaan 95% dari percobaan pertama.
Tampaknya jawaban untuk pertanyaan-pertanyaan ini perlu dipahami untuk mengevaluasi reproduksibilitas studi, daerah yang sangat panas sekarang.
sumber
Jawaban:
Analisis
Karena ini adalah pertanyaan konseptual, untuk kesederhanaan mari kita pertimbangkan situasi di mana interval kepercayaan dikonstruksi untuk rata-rata menggunakan sampel acak dari ukuran dan sampel acak kedua diambil dari ukuran , semua dari distribusi Normal . (Jika Anda suka, Anda dapat mengganti dengan nilai dari distribusi Student derajat kebebasan; analisis berikut tidak akan berubah.)[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / √1−α μx(1)nx(2)m(μ,σ2)Ztn-1
Kemungkinan bahwa rata-rata sampel kedua terletak di dalam CI yang ditentukan oleh yang pertama adalah
Karena mean sampel pertama tidak tergantung pada standar deviasi sampel pertama (ini memerlukan normalitas) dan sampel kedua tidak tergantung pada yang pertama, perbedaan dalam sampel berarti tidak bergantung pada . Terlebih lagi, untuk interval simetris ini . Oleh karena itu, menulis untuk variabel acak dan mengkuadratkan kedua ketidaksetaraan, probabilitas yang dimaksud adalah sama dengans(1)U= ˉ x (2)- ˉ x (1)s(1)Zα/2=-Z1-α/2Ss(1)x¯(1) s(1) U=x¯(2)−x¯(1) s(1) Zα/2=−Z1−α/2 S s(1)
Hukum harapan menyiratkan memiliki rata-rata dan varian0U 0
Karena adalah kombinasi linear dari variabel Normal, ia juga memiliki distribusi Normal. Oleh karena itu adalah dikali variabel . Kita sudah tahu bahwa adalah kali variabel . Akibatnya, adalah kali variabel dengan distribusi . Probabilitas yang diperlukan diberikan oleh distribusi F sebagaiU 2 σ 2 ( 1U U2 χ2(1)S2σ2/nχ2(n-1)U2/S21/n+1/mF(1,n-1)σ2(1n+1m) χ2(1) S2 σ2/n χ2(n−1) U2/S2 1/n+1/m F(1,n−1)
Diskusi
Kasus yang menarik adalah ketika sampel kedua adalah ukuran yang sama dengan yang pertama, sehingga dan hanya dan menentukan probabilitas. Berikut adalah nilai-nilai dari diplot terhadap untuk .n/m=1 n α (1) α n=2,5,20,50
Grafik naik ke nilai pembatas pada setiap saat meningkat. Ukuran uji tradisional ditandai dengan garis abu-abu vertikal. Untuk nilai lebih besar dari , peluang pembatas untuk adalah sekitar .α n α=0.05 n=m α=0.05 85%
Dengan memahami batas ini, kami akan mengintip rincian ukuran sampel kecil dan lebih memahami inti masalah. Ketika tumbuh besar, distribusi mendekati distribusi a . Dalam hal distribusi Normal standar , probabilitas kemudian mendekatin=m F χ2(1) Φ (1)
Misalnya, dengan , dan . Akibatnya nilai batas yang diperoleh oleh kurva pada karena meningkat akan menjadi . Anda dapat melihatnya hampir tercapai untuk (di mana peluangnya adalah .)α=0.05 Zα/2/2–√≈−1.96/1.41≈−1.386 Φ(−1.386)≈0.083 α=0.05 n 1−2(0.083)=1−0.166=0.834 n=50 0.8383…
Untuk kecil , hubungan antara dan probabilitas komplementer - risiko bahwa CI tidak mencakup rata-rata kedua - hampir sempurna adalah hukum kekuatan.α α Cara lain untuk menyatakan ini adalah bahwa probabilitas komplementer log hampir merupakan fungsi linear dari . Hubungan yang membatasi kira-kiralogα
Dengan kata lain, untuk besar dan mendekati nilai tradisional , akan mendekatin=m α 0.05 (1)
(Ini mengingatkan saya pada analisis interval kepercayaan yang tumpang tindih yang saya posting di /stats//a/18259/919 . Memang, kekuatan sihir di sana, , hampir merupakan kebalikan dari kekuatan sihir di sini, . Pada titik ini Anda harus dapat menafsirkan ulang analisis itu dalam hal reproduksibilitas percobaan.)1.91 0.557
Hasil percobaan
Hasil ini dikonfirmasi dengan simulasi langsung.(1) 2 n,m,μ,σ,α Z t (1)
R
Kode berikut mengembalikan frekuensi pertanggungan, peluang yang dihitung dengan , dan skor-Z untuk menilai seberapa besar perbedaannya. Skor Z biasanya berukuran kurang dari , terlepas dari (atau bahkan apakah atau CI dihitung), menunjukkan kebenaran rumus .2 n , m , μ , σ , α Z t ( 1 )sumber
qt
[Diedit untuk memperbaiki bug yang ditunjukkan WHuber.]
Saya mengubah kode R @ Whuber untuk menggunakan distribusi t, dan cakupan plot sebagai fungsi dari ukuran sampel. Hasilnya di bawah ini. Pada ukuran sampel yang tinggi, hasilnya cocok dengan WHuber.
Dan di sini adalah kode R yang diadaptasi, jalankan dua kali dengan alpha set ke 0,01 atau 0,05.
Dan di sini adalah file GraphPad Prism yang membuat grafik.
sumber
T
luar loop! Jika Anda ingin melihat kurva yang benar, plot saja secara langsung menggunakan hasil teoritis dalam jawaban saya, seperti yang diberikan pada akhirR
kode saya (daripada mengandalkan hasil simulasi):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")