Berapa fraksi percobaan ulang yang akan memiliki ukuran efek dalam interval kepercayaan 95% dari percobaan pertama?

12

Mari tetap berpegang pada situasi ideal dengan pengambilan sampel acak, populasi Gaussian, varian yang sama, tanpa peretasan P, dll.

Langkah 1. Anda menjalankan eksperimen yang mengatakan membandingkan dua mean sampel, dan menghitung interval kepercayaan 95% untuk perbedaan antara dua mean populasi.

Langkah 2. Anda menjalankan lebih banyak eksperimen (ribuan). Perbedaan antara cara akan bervariasi dari percobaan ke percobaan karena pengambilan sampel acak.

Pertanyaan: Apa fraksi perbedaan antara rata-rata dari kumpulan eksperimen pada langkah 2 yang akan berada dalam interval kepercayaan langkah 1?

Itu tidak bisa dijawab. Itu semua tergantung pada apa yang terjadi pada langkah 1. Jika percobaan langkah 1 itu sangat tidak lazim, jawaban untuk pertanyaan itu mungkin sangat rendah.

Jadi bayangkan kedua langkah diulang berkali-kali (dengan langkah 2 berulang kali lebih banyak). Sekarang saya pikir, mungkin saja, untuk menghasilkan ekspektasi untuk apa fraksi percobaan berulang, rata-rata, memiliki ukuran efek dalam interval kepercayaan 95% dari percobaan pertama.

Tampaknya jawaban untuk pertanyaan-pertanyaan ini perlu dipahami untuk mengevaluasi reproduksibilitas studi, daerah yang sangat panas sekarang.

Harvey Motulsky
sumber
Untuk setiap percobaan (langkah 1) asli , tentukan sebagai fraksi dari hasil (langkah 2) berikutnya yang menghasilkan temuan dalam interval kepercayaan hasil asli. Anda ingin menghitung distribusi empiris ? x i xixix
Matthew Gunn
Ya, Anda mengerti apa yang saya minta
Harvey Motulsky
@MatthewGunn bertanya apakah Anda ingin distribusi empiris dari "fraksi tangkapan" untuk pengamatan di masa depan. Posting Anda bertanya "... seharusnya mungkin, saya akan berpikir, untuk menghasilkan ekspektasi untuk apa fraksi percobaan berulang, rata-rata, memiliki ukuran efek dalam interval kepercayaan 95% dari percobaan pertama" . Ini bukan distribusi tetapi nilai yang diharapkan (rata-rata).
Analisis Whuber sangat bagus, tetapi jika Anda memerlukan kutipan maka di sini adalah makalah yang membahas dengan tepat pertanyaan ini dengan sangat rinci: Cumming & Maillardet, 2006, Interval Keyakinan dan Replikasi: Di ​​mana Mean Selanjutnya akan Jatuh? . Mereka menyebutnya menangkap persentase interval kepercayaan.
Amoeba berkata Reinstate Monica

Jawaban:

12

Analisis

Karena ini adalah pertanyaan konseptual, untuk kesederhanaan mari kita pertimbangkan situasi di mana interval kepercayaan dikonstruksi untuk rata-rata menggunakan sampel acak dari ukuran dan sampel acak kedua diambil dari ukuran , semua dari distribusi Normal . (Jika Anda suka, Anda dapat mengganti dengan nilai dari distribusi Student derajat kebebasan; analisis berikut tidak akan berubah.)[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / 1αμx(1)nx(2)m(μ,σ2)Ztn-1

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

Kemungkinan bahwa rata-rata sampel kedua terletak di dalam CI yang ditentukan oleh yang pertama adalah

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

Karena mean sampel pertama tidak tergantung pada standar deviasi sampel pertama (ini memerlukan normalitas) dan sampel kedua tidak tergantung pada yang pertama, perbedaan dalam sampel berarti tidak bergantung pada . Terlebih lagi, untuk interval simetris ini . Oleh karena itu, menulis untuk variabel acak dan mengkuadratkan kedua ketidaksetaraan, probabilitas yang dimaksud adalah sama dengans(1)U= ˉ x (2)- ˉ x (1)s(1)Zα/2=-Z1-α/2Ss(1)x¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

Hukum harapan menyiratkan memiliki rata-rata dan varian0U0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

Karena adalah kombinasi linear dari variabel Normal, ia juga memiliki distribusi Normal. Oleh karena itu adalah dikali variabel . Kita sudah tahu bahwa adalah kali variabel . Akibatnya, adalah kali variabel dengan distribusi . Probabilitas yang diperlukan diberikan oleh distribusi F sebagaiU 2 σ 2 ( 1UU2χ2(1)S2σ2/nχ2(n-1)U2/S21/n+1/mF(1,n-1)σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

Diskusi

Kasus yang menarik adalah ketika sampel kedua adalah ukuran yang sama dengan yang pertama, sehingga dan hanya dan menentukan probabilitas. Berikut adalah nilai-nilai dari diplot terhadap untuk .n/m=1nα(1)αn=2,5,20,50

Angka

Grafik naik ke nilai pembatas pada setiap saat meningkat. Ukuran uji tradisional ditandai dengan garis abu-abu vertikal. Untuk nilai lebih besar dari , peluang pembatas untuk adalah sekitar .αnα=0.05n=mα=0.0585%

Dengan memahami batas ini, kami akan mengintip rincian ukuran sampel kecil dan lebih memahami inti masalah. Ketika tumbuh besar, distribusi mendekati distribusi a . Dalam hal distribusi Normal standar , probabilitas kemudian mendekatin=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

Misalnya, dengan , dan . Akibatnya nilai batas yang diperoleh oleh kurva pada karena meningkat akan menjadi . Anda dapat melihatnya hampir tercapai untuk (di mana peluangnya adalah .)α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

Untuk kecil , hubungan antara dan probabilitas komplementer - risiko bahwa CI tidak mencakup rata-rata kedua - hampir sempurna adalah hukum kekuatan. αα Cara lain untuk menyatakan ini adalah bahwa probabilitas komplementer log hampir merupakan fungsi linear dari . Hubungan yang membatasi kira-kiralogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

Dengan kata lain, untuk besar dan mendekati nilai tradisional , akan mendekatin=mα0.05(1)

10.166(20α)0.557.

(Ini mengingatkan saya pada analisis interval kepercayaan yang tumpang tindih yang saya posting di /stats//a/18259/919 . Memang, kekuatan sihir di sana, , hampir merupakan kebalikan dari kekuatan sihir di sini, . Pada titik ini Anda harus dapat menafsirkan ulang analisis itu dalam hal reproduksibilitas percobaan.)1.910.557


Hasil percobaan

Hasil ini dikonfirmasi dengan simulasi langsung. RKode berikut mengembalikan frekuensi pertanggungan, peluang yang dihitung dengan , dan skor-Z untuk menilai seberapa besar perbedaannya. Skor Z biasanya berukuran kurang dari , terlepas dari (atau bahkan apakah atau CI dihitung), menunjukkan kebenaran rumus .2 n , m , μ , σ , α Z t ( 1 )(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))
whuber
sumber
Anda mengatakan bahwa menggunakan t bukannya z tidak akan membuat banyak perbedaan. Saya percaya Anda tetapi belum memeriksa. Dengan ukuran sampel yang kecil, dua nilai kritis dapat sangat berbeda dan distribusi t adalah cara yang benar untuk menghitung CI. Mengapa Anda lebih suka menggunakan z ??
Harvey Motulsky
Ini murni ilustratif dan lebih sederhana. Ketika Anda menggunakan , menarik bahwa kurva pada gambar mulai tinggi dan turun ke batasnya. Secara khusus, peluang mereproduksi hasil yang signifikan jauh lebih tinggi untuk sampel kecil daripada besar! Perhatikan bahwa tidak ada yang perlu diperiksa, karena Anda bebas menafsirkan sebagai persentase poin dari distribusi t Student yang sesuai (atau distribusi lain yang mungkin ingin Anda sebutkan). Tidak ada perubahan dalam analisis. Jika Anda ingin melihat efek tertentu, batalkan komentar pada baris dalam kode. t Z αZtZαqt
whuber
1
+1. Ini adalah analisis yang hebat (dan jawaban Anda memiliki terlalu sedikit suara untuk apa itu). Saya baru saja menemukan sebuah makalah yang membahas pertanyaan ini dengan sangat terperinci dan saya pikir Anda mungkin tertarik: Cumming & Maillardet, 2006, Interval Keyakinan dan Replikasi: Di ​​Mana Akan Berarti Jatuh Berikutnya? . Mereka menyebutnya menangkap persentase interval kepercayaan.
Amuba mengatakan Reinstate Monica
@Amoeba Terima kasih untuk referensi. Saya terutama menghargai satu kesimpulan umum di dalamnya: "Replikasi adalah inti dari metode ilmiah, dan para peneliti tidak boleh menutup mata terhadapnya hanya karena itu membuat ketidakjelasan yang melekat pada sebuah studi tunggal."
Whuber
1
Pembaruan: Berkat diskusi yang sedang berlangsung di sister thread, sekarang saya yakin alasan saya dalam komentar di atas tidak benar. 95% CI memiliki 83% "replikasi-penangkapan", tetapi ini adalah pernyataan tentang pengambilan sampel berulang dan tidak dapat diartikan sebagai memberikan probabilitas dikondisikan pada satu interval kepercayaan tertentu, setidaknya bukan tanpa asumsi lebih lanjut. (Mungkin komentar ini dan komentar sebelumnya sebaiknya dihapus agar tidak membingungkan pembaca lebih lanjut.)
Amuba mengatakan Reinstate Monica
4

[Diedit untuk memperbaiki bug yang ditunjukkan WHuber.]

Saya mengubah kode R @ Whuber untuk menggunakan distribusi t, dan cakupan plot sebagai fungsi dari ukuran sampel. Hasilnya di bawah ini. Pada ukuran sampel yang tinggi, hasilnya cocok dengan WHuber.

masukkan deskripsi gambar di sini

Dan di sini adalah kode R yang diadaptasi, jalankan dua kali dengan alpha set ke 0,01 atau 0,05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

Dan di sini adalah file GraphPad Prism yang membuat grafik.

Harvey Motulsky
sumber
Saya percaya plot Anda tidak menggunakan distribusi t , karena bug: Anda menetapkan nilai di Tluar loop! Jika Anda ingin melihat kurva yang benar, plot saja secara langsung menggunakan hasil teoritis dalam jawaban saya, seperti yang diberikan pada akhir Rkode saya (daripada mengandalkan hasil simulasi):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber
1
@whuber. Astaga! Tentu saja Anda benar. Memalukan. Saya sudah memperbaikinya. Ketika Anda menunjukkan cakupan lebih tinggi dengan ukuran sampel kecil. (Saya memperbaiki simulasi, dan tidak mencoba fungsi teoretis Anda.)
Harvey Motulsky
Saya senang Anda memperbaikinya, karena sangat menarik seberapa tinggi cakupan untuk ukuran sampel kecil. Kami juga dapat membalikkan pertanyaan Anda dan menggunakan rumus untuk menentukan nilai akan digunakan jika kami ingin memastikan (sebelum melakukan percobaan apa pun), dengan probabilitas (katakanlah), bahwa rata-rata dari Percobaan kedua akan terletak dalam interval kepercayaan dua sisi ditentukan dari yang kedua. Melakukan hal itu, sebagai praktik rutin, dapat menjadi salah satu cara yang menarik untuk mengatasi beberapa kritik terhadap NHST. p = 0,95 1 - αZα/2p=0.951α
Whuber
@whuber Saya pikir langkah selanjutnya adalah melihat distribusi cakupan. Sejauh ini, kami memiliki cakupan rata-rata (rata-rata dari banyak percobaan pertama, dengan rata-rata banyak percobaan kedua). Tetapi tergantung pada apa percobaan pertama, dalam beberapa kasus cakupan rata-rata akan buruk. Akan menarik untuk melihat distribusinya. Saya mencoba belajar R dengan cukup baik untuk mengetahuinya.
Harvey Motulsky
Mengenai distribusi, lihat makalah yang saya tautkan dalam komentar di atas.
Amoeba berkata Reinstate Monica