Mengapa mengumpulkan data sampai memperoleh hasil yang signifikan meningkatkan tingkat kesalahan Tipe I?

60

Saya bertanya-tanya persis mengapa mengumpulkan data sampai hasil yang signifikan (misalnya, ) diperoleh (yaitu, p-hacking) meningkatkan tingkat kesalahan Tipe I?p<.05

Saya juga akan sangat menghargai Rdemonstrasi fenomena ini.

Reza
sumber
6
Anda mungkin berarti "p-hacking," karena "harking" mengacu pada "Hipotesis Setelah Hasil yang Diketahui" dan, meskipun itu bisa dianggap sebagai dosa terkait, itu bukan apa yang tampaknya Anda tanyakan.
whuber
2
Sekali lagi, xkcd menjawab pertanyaan yang bagus dengan gambar. xkcd.com/882
Jason
7
@Jason saya harus tidak setuju dengan tautan Anda; itu tidak berbicara tentang pengumpulan data kumulatif. Fakta bahwa bahkan pengumpulan data kumulatif tentang hal yang sama dan menggunakan semua data yang Anda harus hitung- adalah salah adalah jauh lebih tidak trivial daripada kasus di xkcd itu. p
JiK
1
@JiK, panggilan yang adil. Saya fokus pada aspek "terus berusaha sampai kita mendapatkan hasil yang kita sukai", tetapi Anda benar sekali, ada banyak hal lain dalam pertanyaan yang ada.
Jason
@whuber dan user163778 memberikan balasan yang sangat mirip seperti yang didiskusikan untuk kasus pengujian "A / B (sequential) yang hampir identik" di utas ini: stats.stackexchange.com/questions/244646/… Di sana, kami berdebat dalam hal Family Wise Error tingkat dan kebutuhan untuk penyesuaian nilai-p dalam pengujian berulang. Pertanyaan ini sebenarnya dapat dilihat sebagai masalah pengujian berulang!
Tomka

Jawaban:

87

Masalahnya adalah Anda memberi diri Anda terlalu banyak peluang untuk lulus ujian. Ini hanya versi mewah dari dialog ini:

Saya akan membalik Anda untuk melihat siapa yang membayar makan malam.

OK, saya memanggil kepala.

Tikus, kamu menang. Dua terbaik dari tiga?


Untuk memahami ini lebih baik, pertimbangkan model prosedur sekuensial yang disederhanakan - tetapi realistis - ini . Misalkan Anda akan mulai dengan "percobaan" dari sejumlah pengamatan, tetapi bersedia untuk terus bereksperimen lebih lama untuk mendapatkan nilai p kurang dari . Hipotesis nol adalah bahwa setiap pengamatan berasal (secara independen) dari distribusi Normal standar. Alternatifnya adalah bahwa datang secara independen dari distribusi normal unit-variance dengan rata-rata bukan nol. Uji statistik akan menjadi mean dari semua pengamatan, , dibagi dengan standard error mereka, . Untuk tes dua sisi, nilai kritisnya adalahX i X i n ˉ X 1 / 0.05XiXinX¯ 0,0250,975Zα=±1,961/n0.025 dan poin persentase dari distribusi Normal standar, sekitar .0.975Zα=±1.96

Ini adalah tes yang baik - untuk percobaan tunggal dengan ukuran sampel tetap . Persis memiliki peluang untuk menolak hipotesis nol, tidak peduli apa pun .5 % nn5%n

Mari kita aljabar mengonversikan ini menjadi tes yang setara berdasarkan jumlah semua nilai ,S n = X 1 + X 2 + + X n = n ˉ X .n

Sn=X1+X2++Xn=nX¯.

Dengan demikian, data "signifikan" ketika

|Zα||X¯1/n|=|Snn/n|=|Sn|/n;

itu adalah,

(1)|Zα|n|Sn|.

Jika kita pintar, kita akan memotong kerugian kita dan menyerah begitu tumbuh sangat besar dan data masih belum memasuki wilayah kritis.n

Ini menggambarkan jalan acak . Rumus sama dengan mendirikan "pagar" parabola yang melengkung atau penghalang, di sekitar alur jalan acak : hasilnya "signifikan" jika ada titik jalan acak yang mengenai pagar. ( 1 ) ( n , S n )Sn(1)(n,Sn)

Merupakan sifat berjalan acak bahwa jika kita menunggu cukup lama, sangat mungkin bahwa pada titik tertentu hasilnya akan terlihat signifikan.

Berikut adalah 20 simulasi independen hingga batas sampel. Mereka semua mulai menguji pada sampel, pada titik mana kami memeriksa apakah setiap titik berada di luar hambatan yang telah ditarik sesuai dengan rumus . Dari titik di mana tes statistik pertama "signifikan," data yang disimulasikan berwarna merah.n = 30 ( 1 )n=5000n=30(1)

Angka

Anda dapat melihat apa yang terjadi: jalan acak semakin naik dan turun seiring bertambahnya . Hambatan menyebar terpisah pada tingkat yang sama - tetapi tidak cukup cepat selalu untuk menghindari jalan acak.n

Dalam 20% dari simulasi ini, perbedaan "signifikan" ditemukan - biasanya cukup awal - meskipun dalam setiap dari mereka hipotesis nol benar-benar benar! Menjalankan lebih banyak simulasi jenis ini menunjukkan bahwa ukuran pengujian sebenarnya mendekati daripada nilai yang dimaksudkan dari : yaitu, kesediaan Anda untuk terus mencari "signifikansi" hingga ukuran sampel memberi Anda peluang untuk menolak nol bahkan ketika nol benar.25%α=5%500025%

Perhatikan bahwa dalam keempat kasus "signifikan", saat pengujian berlanjut, data berhenti tampak signifikan di beberapa titik. Dalam kehidupan nyata, seorang eksperimen yang berhenti lebih awal kehilangan kesempatan untuk mengamati "pembalikan" tersebut. Selektivitas ini melalui penghentian opsional bias hasilnya.

Dalam tes sekuensial jujur-untuk-kebaikan, hambatannya adalah garis. Mereka menyebar lebih cepat daripada hambatan lengkung yang ditunjukkan di sini.

library(data.table)
library(ggplot2)

alpha <- 0.05   # Test size
n.sim <- 20     # Number of simulated experiments
n.buffer <- 5e3 # Maximum experiment length
i.min <- 30     # Initial number of observations
#
# Generate data.
#
set.seed(17)
X <- data.table(
  n = rep(0:n.buffer, n.sim),
  Iteration = rep(1:n.sim, each=n.buffer+1),
  X = rnorm((1+n.buffer)*n.sim)
)
#
# Perform the testing.
#
Z.alpha <- -qnorm(alpha/2)
X[, Z := Z.alpha * sqrt(n)]
X[, S := c(0, cumsum(X))[-(n.buffer+1)], by=Iteration]
X[, Trigger := abs(S) >= Z & n >= i.min]
X[, Significant := cumsum(Trigger) > 0, by=Iteration]
#
# Plot the results.
#
ggplot(X, aes(n, S, group=Iteration)) +
  geom_path(aes(n,Z)) + geom_path(aes(n,-Z)) +
  geom_point(aes(color=!Significant), size=1/2) +
  facet_wrap(~ Iteration)
whuber
sumber
12
+1. Apakah ada jalan acak yang diberikan pada akhirnya melewati hambatan dengan probabilitas 1? Saya tahu bahwa jarak yang diharapkan setelah langkah adalah dan saya melihat sekarang bahwa konstanta proporsionalitas adalah , yang kurang dari 1,96. Tapi saya tidak yakin apa yang harus saya lakukan. nO(n)2/π
Amoeba berkata Reinstate Monica
10
@amoeba Itu adalah pertanyaan yang bagus, yang saya coba terbaik untuk menghindar :-). Jika saya bisa menghitung jawabannya dengan cepat (atau langsung tahu), saya akan mempostingnya. Sayangnya saya terlalu sibuk untuk mengatasinya secara analitis sekarang. Simulasi terpanjang yang telah saya lakukan adalah 1.000 iterasi melihat sejauh dengan . Proporsi hasil "signifikan" tampaknya stabil di dekat . n=5,000,000α=0.051/4
whuber
4
Pertanyaan tentang probabilitas mengenai batas menarik. Saya membayangkan bahwa teori Einstein tentang gerak Brown, yang menghubungkannya dengan persamaan difusi, bisa menjadi sudut pandang yang menarik. Kami memiliki fungsi distribusi yang menyebar dengan laju dan "kehilangan partikel" sama dengan separuh nilai fungsi distribusi pada batas ini (setengah bergerak dari nol, melewati batas, separuh lainnya kembali). Ketika fungsi distribusi ini menyebar, dan menjadi lebih tipis, "kerugian" menjadi kurang. Saya membayangkan ini secara efektif akan membuat batas, yaitu 1/4 ini. α=0.05n
Sextus Empiricus
6
Alasan intuitif mengapa Anda akan mendapatkan di beberapa titik hampir pasti: Misalkan dan . Nilai setelah uji coba cukup independen dari nilai setelah uji coba pertama . Jadi, Anda akan memiliki nilai "independen" tak terhingga jumlahnya , sehingga salah satunya dijamin . Tentu saja, konvergensi yang sebenarnya jauh lebih cepat daripada argumen ini. (Dan jika Anda tidak suka , Anda dapat mencoba atau ...)p<0.05n1=10nk+1=10nkpnk+1pnkp<0.0510nkA(nk)BB(nk)
JiK
10
@CL. Saya mengantisipasi keberatan Anda beberapa tahun yang lalu: 17 adalah benih publik saya. Bahkan, pada awal (lebih lama) percobaan saya secara konsisten mendapatkan lebih besar tingkat signifikansi secara substansial lebih besar dari 20%. Saya menetapkan seed pada 17 untuk membuat gambar akhir dan kecewa karena efeknya tidak begitu dramatis. C'est la vie. Pos terkait (menggambarkan poin Anda) ada di stats.stackexchange.com/a/38067/919 .
whuber
18

Orang yang baru dalam pengujian hipotesis cenderung berpikir bahwa begitu nilai p turun di bawah 0,05, menambahkan lebih banyak peserta hanya akan menurunkan nilai p lebih lanjut. Tetapi ini tidak benar. Di bawah hipotesis nol, nilai ap terdistribusi secara seragam antara 0 dan 1 dan dapat memantul sedikit di kisaran itu.

Saya telah mensimulasikan beberapa data dalam R (keterampilan R saya cukup mendasar). Dalam simulasi ini, saya mengumpulkan 5 poin data - masing-masing dengan keanggotaan grup yang dipilih secara acak (0 atau 1) dan masing-masing dengan ukuran hasil yang dipilih secara acak ~ N (0,1). Mulai dari peserta 6, saya melakukan uji-t di setiap iterasi.

for (i in 6:150) {
  df[i,1] = round(runif(1))
  df[i,2] = rnorm(1)
  p = t.test(df[ , 2] ~ df[ , 1], data = df)$p.value
  df[i,3] = p
}

Nilai p ada dalam gambar ini. Perhatikan bahwa saya menemukan hasil yang signifikan ketika ukuran sampel sekitar 70-75. Jika saya berhenti di situ, saya akan akhirnya percaya bahwa temuan saya signifikan karena saya akan kehilangan fakta bahwa nilai p saya melonjak kembali dengan sampel yang lebih besar (ini benar-benar terjadi pada saya sekali dengan data nyata). Karena saya tahu kedua populasi memiliki rata-rata 0, ini pasti positif palsu. Ini adalah masalah dengan menambahkan data sampai p <.05. Jika Anda menambahkan cukup melakukan tes, p akhirnya akan melewati ambang 0,05 dan Anda dapat menemukan efek signifikan adalah kumpulan data apa pun.

masukkan deskripsi gambar di sini

TPM
sumber
1
Terima kasih tetapi Rkode Anda tidak berjalan sama sekali.
Reza
3
@Reza Anda harus membuat dfdulu (lebih disukai pada ukuran akhirnya). Karena kode mulai menulis pada baris 6 implikasinya (yang sesuai dengan teks jawaban) adalah bahwa df sudah ada dengan 5 baris yang sudah diisi. Mungkin sesuatu seperti ini dimaksudkan: n150<-vector("numeric",150); df<-data.frame(gp=n150,val=n150,pval=n150); init<-1:5; df[init,1]<-c(0,1,0,1,0); df[init,2]<-rnorm(5)(lalu jalankan kode di atas) maka mungkin: plot(df$pv[6:150])
Glen_b
@ user263778 jawaban yang sangat berguna dan relevan. Tapi ada terlalu banyak kebingungan tentang menafsirkan nilai-p yang disebut - menari keindahan.
Subhash C. Davar
@ user163778 - Anda harus memasukkan kode untuk menginisialisasi semuanya juga
Dason
17

Jawaban ini hanya menyangkut kemungkinan akhirnya mendapatkan hasil "signifikan" dan distribusi waktu ke acara ini di bawah model @ whuber.

Seperti dalam model @whuber, misalkan menunjukkan nilai statistik uji setelah observasi dikumpulkan dan menganggap bahwa pengamatan adalah standar normal iid . Kemudian sedemikian rupa sehingga berperilaku seperti gerakan Brown standar waktu terus-menerus, jika saat ini kita mengabaikannya fakta bahwa kami memiliki proses waktu diskrit (plot kiri di bawah).S(t)=X1+X2++XttX1,X2,

(1)S(t+h)|S(t)=s0N(s0,h),
S(t)

Misalkan menunjukkan waktu bagian pertama melintasi hambatan tergantung (jumlah pengamatan yang diperlukan sebelum tes menjadi signifikan).TS(t)±zα/2t

Pertimbangkan proses transformasi diperoleh dengan penskalaan dengan deviasi standarnya pada waktu dan dengan membiarkan skala waktu baru sedemikian sehingga Dari (1) dan (2) berikut bahwa secara normal didistribusikan dengan dan Y(τ)S(t)tτ=lnt

(2)Y(τ)=S(t(τ))t(τ)=eτ/2S(eτ).
Y(τ+δ)
E(Y(τ+δ)|Y(τ)=y0)=E(e(τ+δ)/2S(eτ+δ)|S(eτ)=y0eτ/2)(3)=y0eδ/2
Var(Y(τ+δ)|Y(τ)=y0)=Var(e(τ+δ)/2S(eτ+δ)|S(eτ)=y0eτ/2)(4)=1eδ,
yaitu, adalah proses Ornstein-Uhlenbeck (OU) nol-mean dengan varian stasioner 1 dan waktu balik 2 (plot kanan di bawah).Y(τ)

masukkan deskripsi gambar di sini

Untuk model yang ditransformasikan, hambatannya menjadi konstanta bebas-waktu yang sama dengan . Kemudian diketahui ( Nobile et. Al. 1985 ; Ricciardi & Sato, 1988 ) bahwa bagian-waktu pertama dari proses OU melintasi hambatan-hambatan ini kira-kira didistribusikan secara eksponensial dengan beberapa parameter (tergantung pada hambatan pada ) (diperkirakan untuk bawah). Ada juga titik massa tambahan dalam ukuran in . "Penolakan" dari±zα/2TY(τ)λ±zα/2λ^=0.125α=0.05ατ=0H0akhirnya terjadi dengan probabilitas 1. Oleh karena itu, (jumlah pengamatan yang perlu dikumpulkan sebelum mendapatkan hasil "signifikan") kira-kira mengikuti distribusi log eksponensial dengan nilai yang diharapkan Dengan demikian, memiliki ekspektasi terbatas hanya jika (untuk cukup tingkat signifikansi yang besar ).T=eT

(5)ET1+(1α)0eτλeλτdτ.
Tλ>1α

Di atas mengabaikan fakta bahwa untuk model nyata adalah diskrit dan bahwa proses nyata adalah diskrit - bukan waktu kontinu. Oleh karena itu, model di atas melebih-lebihkan probabilitas bahwa penghalang telah dilintasi (dan meremehkan ) karena jalur sampel waktu kontinu dapat melintasi penghalang hanya sementara di antara dua titik waktu diskrit berdekatan dan . Tetapi kejadian seperti itu harus memiliki probabilitas yang dapat diabaikan untuk besar . E T t t + 1 tTETtt+1t

Gambar berikut menunjukkan estimasi Kaplan-Meier dari pada skala log-log bersama dengan kurva survival untuk perkiraan waktu kontinu eksponensial (garis merah).P(T>t)

masukkan deskripsi gambar di sini

Kode R:

# Fig 1
par(mfrow=c(1,2),mar=c(4,4,.5,.5))
set.seed(16)
n <- 20
npoints <- n*100 + 1
t <- seq(1,n,len=npoints)
subset <- 1:n*100-99
deltat <- c(1,diff(t))
z <- qnorm(.975)
s <- cumsum(rnorm(npoints,sd=sqrt(deltat)))
plot(t,s,type="l",ylim=c(-1,1)*z*sqrt(n),ylab="S(t)",col="grey")
points(t[subset],s[subset],pch="+")
curve(sqrt(t)*z,xname="t",add=TRUE)
curve(-sqrt(t)*z,xname="t",add=TRUE)
tau <- log(t)
y <- s/sqrt(t)
plot(tau,y,type="l",ylim=c(-2.5,2.5),col="grey",xlab=expression(tau),ylab=expression(Y(tau)))
points(tau[subset],y[subset],pch="+")
abline(h=c(-z,z))

# Fig 2
nmax <- 1e+3
nsim <- 1e+5
alpha <- .05
t <- numeric(nsim)
n <- 1:nmax
for (i in 1:nsim) {
  s <- cumsum(rnorm(nmax))
  t[i] <- which(abs(s) > qnorm(1-alpha/2)*sqrt(n))[1]
}
delta <- ifelse(is.na(t),0,1)
t[delta==0] <- nmax + 1
library(survival)
par(mfrow=c(1,1),mar=c(4,4,.5,.5))
plot(survfit(Surv(t,delta)~1),log="xy",xlab="t",ylab="P(T>t)",conf.int=FALSE)
curve((1-alpha)*exp(-.125*(log(x))),add=TRUE,col="red",from=1,to=nmax)
Jarle Tufto
sumber
Terima kasih! Apakah Anda memiliki referensi (standar) untuk hasil ini? Misalnya, mengapa proses Y adalah Ornstein-Uhlenbeck dan di mana kita dapat menemukan hasil waktu bagian dinyatakan?
Grassie
1
Saya belum melihat transformasi ini di tempat lain tetapi saya percaya (3) dan (4) yang mengikuti dengan mudah dari (1) dan (2) dan normalitas sepenuhnya mencirikan proses OU. Google scholar mengembalikan banyak hasil dengan perkiraan eksponensial dari distribusi waktu lintas pertama untuk proses OU. Tetapi saya percaya bahwa dalam kasus ini (dalam perkiraan waktu kontinu) terdistribusi secara eksponensial (kecuali untuk massa titik ekstra dalam ) karena berasal dari distribusi stasioner dari proses . τ = 0 Y ( 0 )Tτ=0Y(0)
Jarle Tufto
@Grassie Juga lihat math.stackexchange.com/questions/1900304/...
Jarle Tufto
@ Grassie Sebenarnya, argumen saya berdasarkan memori tidak cacat. Durasi kunjungan jauh dari batas tidak terdistribusi secara eksponensial. Oleh karena itu, berdasarkan argumen yang sama seperti pada stats.stackexchange.com/questions/298828/… , meskipun berasal dari distribusi stasioner, waktu lintasan pertama tidak terdistribusi secara eksponensial secara tepat. Y(0)
Jarle Tufto
5

Perlu dikatakan bahwa diskusi di atas adalah untuk pandangan dunia yang sering muncul yang mana multiplisitas berasal dari peluang Anda memberikan data menjadi lebih ekstrem, bukan dari peluang Anda memberi efek untuk eksis. Akar penyebab masalahnya adalah bahwa kesalahan nilai-p dan tipe I menggunakan pengkondisian aliran mundur-waktu mundur-informasi, yang menjadikannya penting "bagaimana Anda sampai di sini" dan apa yang bisa terjadi sebagai gantinya. Di sisi lain, paradigma Bayes menyandikan skeptisisme tentang efek pada parameter itu sendiri, bukan pada data. Itu membuat setiap probabilitas posterior diinterpretasikan sama apakah Anda menghitung probabilitas posterior lain dari efek 5 menit yang lalu atau tidak. Rincian lebih lanjut dan simulasi sederhana dapat ditemukan di http://www.fharrell.com/2017/10/continuous-learning-from-data-no.

Frank Harrell
sumber
1
Mari kita bayangkan sebuah laboratorium yang dipimpin oleh Dr B, yang adalah seorang Bayesian yang taat. Laboratorium mempelajari priming sosial dan telah menghasilkan aliran kertas yang menunjukkan berbagai efek priming, setiap kali didukung oleh faktor Bayes BF> 10. Jika mereka tidak pernah melakukan pengujian sekuensial, itu terlihat cukup meyakinkan. Tetapi katakanlah saya belajar bahwa mereka selalu melakukan pengujian berurutan dan terus mendapatkan subjek baru sampai mereka memperoleh BF> 10 yang mendukung efek priming . Maka jelas seluruh badan kerja ini tidak berharga. Fakta bahwa mereka melakukan seleksi + pengujian berurutan membuat perbedaan besar, tidak peduli apakah itu didasarkan pada nilai-p dari BF.
Amoeba berkata Reinstate Monica
1
Saya tidak menggunakan faktor Bayes. Tetapi jika mereka menggunakan probabilitas posterior dan telah menjalankan setiap percobaan sampai probabilitas posterior dari efek positif , sama sekali tidak ada yang salah dengan probabilitas ini. Lihatlah kutipan di awal artikel blog saya - lihat tautan di jawaban saya di atas. Tingkat kepercayaan tentang efek priming berasal dari data dan keyakinan sebelumnya. Jika Anda (seperti saya) sangat meragukan efek priming seperti itu, Anda sebaiknya menggunakan yang sebelumnya skeptis ketika menghitung probabilitas posterior. Itu dia. 0.95
Frank Harrell
1
Saya membaca posting blog Anda, memperhatikan kutipan, dan melihat kertas yang sama ( Opsional berhenti: Tidak ada masalah untuk Bayesians ) bahwa orang lain terhubung ke dalam komentar untuk jawaban lain. Saya masih belum mengerti. Jika "null" (tidak ada efek priming) benar, maka jika Dr B bersedia mengambil sampel cukup lama, ia akan bisa mendapatkan probabilitas posterior> 0,95 setiap kali ia menjalankan percobaan (persis seperti Dr F akan dapat dapatkan p <0,05 setiap kali). Jika ini "sama sekali tidak ada yang salah" maka saya tidak tahu apa itu.
Amoeba mengatakan Reinstate Monica
2
Yah, saya membantah "titik lebih besar" ini. Saya pikir ini tidak benar. Ketika saya terus mengulang, di bawah nol dari efek nol dan dengan apapun yang diberikan sebelumnya (katakanlah beberapa terus menerus luas sebelumnya berpusat di nol), pengambilan sampel berulang akan selalu cepat atau lambat menghasilkan> 0,98 probabilitas posterior terkonsentrasi di atas nol. Seseorang yang mengambil sampel hingga ini terjadi (yaitu menerapkan aturan berhenti ini), akan salah setiap saat . Bagaimana Anda dapat mengatakan bahwa orang ini akan salah hanya 0,02 waktu? Saya tidak mengerti. Dalam keadaan khusus ini, tidak dia tidak akan, dia akan selalu salah.
Amoeba berkata Reinstate Monica
2
Saya rasa saya tidak. Poin saya yang lebih besar adalah bahwa tidak adil & tidak konsisten untuk secara bersamaan menyalahkan prosedur yang sering terjadi karena menderita pengujian sekuensial dan mempertahankan prosedur Bayesian sebagai tidak terpengaruh oleh pengujian sekuensial. Maksud saya (yang merupakan fakta matematika) adalah bahwa keduanya sama-sama terpengaruh dengan cara yang sama, artinya pengujian berurutan dapat meningkatkan kesalahan Bayesian tipe I hingga 100%. Tentu saja jika Anda mengatakan bahwa Anda, pada prinsipnya, tidak tertarik pada tingkat kesalahan tipe I, maka itu tidak relevan. Tetapi prosedur frequentist juga tidak boleh disalahkan untuk itu.
Amoeba berkata Reinstate Monica
3

Kami menganggap seorang peneliti mengumpulkan sampel berukuran , , untuk menguji beberapa hipotesis . Dia menolak jika statistik uji yang cocok melebihi nilai kritis level- . Jika tidak, ia mengumpulkan sampel lain berukuran , , dan menolak jika tes menolak untuk sampel gabungan . Jika ia masih tidak mendapatkan penolakan, ia melanjutkan dengan cara ini, hingga total kali.x 1 θ = θ 0 t α c n x 2 ( x 1 , x 2 ) Knx1θ=θ0tαcnx2(x1,x2)K

Masalah ini tampaknya sudah diatasi oleh P. Armitage, CK McPherson dan BC Rowe (1969), Jurnal Masyarakat Statistik Kerajaan. Seri A (132), 2, 235-244: "Tes Signifikansi Berulang pada Data Akumulasi" .

Sudut pandang Bayesian tentang masalah ini, juga dibahas di sini, adalah, omong-omong, dibahas dalam Berger dan Wolpert (1988), "The Likelihood Principle" , Bagian 4.2.

Berikut adalah replikasi parsial hasil Armitage et al (kode di bawah), yang menunjukkan bagaimana tingkat signifikansi mengembang ketika , serta kemungkinan faktor koreksi untuk mengembalikan nilai kritis level- . Catatan pencarian grid membutuhkan waktu untuk berjalan --- implementasi mungkin agak tidak efisien.αK>1α

Ukuran aturan penolakan standar sebagai fungsi dari jumlah upayaK

masukkan deskripsi gambar di sini

Ukuran sebagai fungsi meningkatkan nilai kritis untuk berbedaK

masukkan deskripsi gambar di sini

Nilai kritis yang disesuaikan untuk mengembalikan tes 5% sebagai fungsi dariK

masukkan deskripsi gambar di sini

reps <- 50000

K <- c(1:5, seq(10,50,5), seq(60,100,10)) # the number of attempts a researcher gives herself
alpha <- 0.05
cv <- qnorm(1-alpha/2)

grid.scale.cv <- cv*seq(1,1.5,by=.01) # scaled critical values over which we check rejection rates
max.g <- length(grid.scale.cv)
results <- matrix(NA, nrow = length(K), ncol=max.g)

for (kk in 1:length(K)){
  g <- 1
  dev <- 0
  K.act <- K[kk]
  while (dev > -0.01 & g <= max.g){
    rej <- rep(NA,reps)
    for (i in 1:reps){
      k <- 1
      accept <- 1
      x <- rnorm(K.act)
      while(k <= K.act & accept==1){
        # each of our test statistics for "samples" of size n are N(0,1) under H0, so just scaling their sum by sqrt(k) gives another N(0,1) test statistic
        rej[i] <- abs(1/sqrt(k)*sum(x[1:k])) > grid.scale.cv[g] 
        accept <- accept - rej[i]
        k <- k+1
      }
    }
    rej.rate <- mean(rej)
    dev <- rej.rate-alpha
    results[kk,g] <- rej.rate
    g <- g+1
  }
}
plot(K,results[,1], type="l")
matplot(grid.scale.cv,t(results), type="l")
abline(h=0.05)

cv.a <- data.frame(K,adjusted.cv=grid.scale.cv[apply(abs(results-alpha),1,which.min)])
plot(K,cv.a$adjusted.cv, type="l")
Christoph Hanck
sumber