Apakah pengacakan dapat diandalkan dengan sampel kecil?

11

Jerome Cornfield telah menulis:

Salah satu buah terbaik dari revolusi Nelayan adalah gagasan pengacakan, dan ahli statistik yang menyetujui beberapa hal lain setidaknya telah menyetujui hal ini. Namun terlepas dari kesepakatan ini dan meskipun penggunaan prosedur alokasi acak yang meluas secara klinis dan dalam bentuk eksperimen lainnya, status logisnya, yaitu, fungsi tepatnya yang dijalankannya, masih belum jelas.

Cornfield, Jerome (1976). "Kontribusi Metodologis Terbaru untuk Uji Klinis" . American Journal of Epidemiology 104 (4): 408–421.

Sepanjang situs ini dan dalam berbagai literatur saya secara konsisten melihat klaim percaya diri tentang kekuatan pengacakan. Terminologi yang kuat seperti "itu menghilangkan masalah variabel perancu" adalah umum. Lihat di sini , misalnya. Namun, banyak kali percobaan dijalankan dengan sampel kecil (3-10 sampel per kelompok) karena alasan praktis / etis. Ini sangat umum dalam penelitian praklinis menggunakan hewan dan kultur sel dan para peneliti umumnya melaporkan nilai p dalam mendukung kesimpulan mereka.

Ini membuat saya bertanya-tanya, seberapa bagus pengacakan pada keseimbangan. Untuk plot ini saya memodelkan situasi yang membandingkan kelompok perlakuan dan kelompok kontrol dengan satu pembaur yang dapat mengambil dua nilai dengan peluang 50/50 (misalnya type1 / type2, pria / wanita). Ini menunjukkan distribusi "% Tidak Seimbang" (Perbedaan # type1 antara sampel perlakuan dan kontrol dibagi dengan ukuran sampel) untuk studi berbagai ukuran sampel kecil. Garis merah dan sumbu sisi kanan menunjukkan ecdf.

Probabilitas berbagai tingkat keseimbangan dalam pengacakan untuk ukuran sampel kecil: masukkan deskripsi gambar di sini

Dua hal yang jelas dari plot ini (kecuali saya mengacaukan suatu tempat).

1) Peluang mendapatkan sampel yang persis seimbang berkurang karena ukuran sampel meningkat.

2) Probabilitas mendapatkan sampel yang sangat tidak seimbang berkurang dengan meningkatnya ukuran sampel.

3) Dalam kasus n = 3 untuk kedua kelompok, ada peluang 3% untuk mendapatkan kelompok kelompok yang sama sekali tidak seimbang (semua tipe1 dalam kontrol, semua tipe2 dalam pengobatan). N = 3 adalah umum untuk percobaan biologi molekuler (misalnya mengukur mRNA dengan PCR, atau protein dengan western blot)

Ketika saya memeriksa kasus n = 3 lebih lanjut, saya mengamati perilaku aneh dari nilai p dalam kondisi ini. Sisi kiri menunjukkan distribusi keseluruhan nilai-nilai yang dihitung menggunakan uji-t dalam kondisi sarana yang berbeda untuk subkelompok type2. Mean untuk type1 adalah 0, dan sd = 1 untuk kedua grup. Panel kanan menunjukkan tingkat positif palsu yang sesuai untuk "cutoff signifikansi" nominal dari 0,05 hingga,0001.

Distribusi nilai-p untuk n = 3 dengan dua subkelompok dan cara yang berbeda dari subkelompok kedua bila dibandingkan melalui uji t (10000 berjalan monte carlo): masukkan deskripsi gambar di sini

Ini adalah hasil untuk n = 4 untuk kedua grup: masukkan deskripsi gambar di sini

Untuk n = 5 untuk kedua grup: masukkan deskripsi gambar di sini

Untuk n = 10 untuk kedua grup: masukkan deskripsi gambar di sini

Seperti dapat dilihat dari grafik di atas tampaknya ada interaksi antara ukuran sampel dan perbedaan antara subkelompok yang menghasilkan berbagai distribusi nilai-p di bawah hipotesis nol yang tidak seragam.

Jadi dapatkah kita menyimpulkan bahwa nilai-p tidak dapat diandalkan untuk eksperimen acak dan terkontrol dengan baik dengan ukuran sampel yang kecil?

Kode R untuk plot pertama

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

Kode R untuk plot 2-5

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()
Labu
sumber
Saya menemukan deskripsi Anda tentang kondisi dan masalah agak sulit dipahami pada awalnya. Tipe I dan tipe II adalah istilah teknis yang berbeda dengan penggunaan subkelompok type1 dan type2 Anda. Sejauh yang saya tahu Anda menerapkan uji-t untuk data dari distribusi dengan campuran cara. Apakah itu benar?
Michael Lew
Ya, campuran dua distribusi normal. "type1" mengacu pada N (0,1), type2 adalah N (mean2,1). Di mana mean2 = (2,3,10, atau 100). Maaf saya bisa mengubahnya ke typeA, typeB jika Anda pikir itu akan membantu?
Flask

Jawaban:

4

Anda benar untuk menunjukkan keterbatasan pengacakan dalam berurusan dengan variabel pengganggu yang tidak diketahui untuk sampel yang sangat kecil. Namun, masalahnya bukan bahwa nilai-P tidak dapat diandalkan, tetapi bahwa maknanya bervariasi dengan ukuran sampel dan dengan hubungan antara asumsi metode dan sifat aktual populasi.

Menurut saya, hasil Anda adalah bahwa nilai-P berkinerja cukup baik sampai perbedaan dalam rata-rata subkelompok sangat besar sehingga setiap eksperimen yang masuk akal akan tahu bahwa ada masalah sebelum melakukan percobaan.

Gagasan bahwa percobaan dapat dilakukan dan dianalisis tanpa mengacu pada pemahaman yang tepat tentang sifat data salah. Sebelum menganalisis dataset kecil, Anda harus cukup tahu tentang data untuk dapat mempertahankan asumsi yang tersirat dalam analisis. Pengetahuan seperti itu biasanya berasal dari studi sebelumnya yang menggunakan sistem yang sama atau serupa, studi yang dapat berupa karya-karya yang diterbitkan secara formal atau eksperimen 'pendahuluan' informal.

Michael Lew
sumber
Saya setuju dengan semua yang Anda katakan, namun uji-t sering dilakukan "secara ritual" seperti yang dikatakan Gerd Gigerenzer. Dalam prakteknya orang yang melakukan tes ini tidak memiliki waktu / kecenderungan untuk memahami nuansa apa yang mereka lakukan. Untuk alasan itu saya pikir kata sifat "tidak dapat diandalkan" mungkin tepat. Saya tahu peneliti yang ketika Anda bertanya tentang distribusi (apakah ada satu yang tinggi, atau apa yang menyebabkan bar kesalahan besar?) Tidak pernah melihatnya.
Flask
1
Nah, apa yang benar-benar 'nilai-P' agak berbeda dari apa yang diasumsikan kebanyakan orang. Bahkan banyak makalah yang mengkritik nilai-P sebagai 'tidak dapat didamaikan dengan bukti' dan sejenisnya adalah keliru. Saya mengunggah kertas ke arXiv kemarin yang mengeksplorasi properti nilai-P dan menunjukkan bagaimana mereka berhubungan dengan jenis bukti yang dapat digunakan oleh para peneliti. Judulnya adalah 'To P or not to P: pada sifat bukti nilai-P dan tempat mereka dalam inferensi ilmiah' dan nomor pengajuan arXiv adalah 826269. Ini harus tersedia mulai hari Senin.
Michael Lew
Bisakah Anda melihat pertanyaan ini yang tidak mendapatkan cinta karena alasan apa pun? . Saya setuju bahwa nilai p adalah sesuatu dan makalah Anda dapat membantu menjelaskan hal itu, tetapi sebagai seorang peneliti saya harus menjelaskan bahwa sepatu bot di tanah pov adalah bahwa mereka telah mengecewakan kami. Baik karena penyalahgunaan atau ketidaksesuaian bawaan, ini tidak jelas. Saya telah mengajukan serangkaian pertanyaan di sini mencoba untuk mendapatkan sudut pandang para ahli statistik di atasnya.
Flask
2

Dalam penelitian ekologi, penugasan non-acak perawatan ke unit eksperimental (subjek) adalah praktik standar ketika ukuran sampel kecil dan ada bukti satu atau lebih variabel perancu. Tugas nonrandom ini "menyelingi" subyek di seluruh spektrum dari variabel-variabel yang mungkin membingungkan, yang persisnya yang seharusnya dilakukan oleh tugas acak. Tetapi pada ukuran sampel yang kecil, pengacakan lebih mungkin untuk berkinerja buruk pada ini (seperti yang ditunjukkan di atas) dan karena itu bisa menjadi ide yang buruk untuk mengandalkan itu.

Karena pengacakan sangat dianjurkan di sebagian besar bidang (dan memang seharusnya demikian), mudah untuk melupakan bahwa tujuan akhirnya adalah mengurangi bias daripada mematuhi pengacakan yang ketat. Namun, adalah tugas peneliti untuk mengkarakterisasi rangkaian variabel pengganggu secara efektif dan untuk melaksanakan tugas nonrandom dengan cara yang dapat dipertahankan yang buta terhadap hasil eksperimen dan memanfaatkan semua informasi dan konteks yang tersedia.

Untuk ringkasan, lihat hlm. 192-198 dalam Hurlbert, Stuart H. 1984. Pseudoreplication dan desain percobaan lapangan. Ecological Monographs 54 (2) hal.187-211.

Darren James
sumber
Saya senang membaca ini, tetapi saya khawatir bahwa penggunaan "bias" Anda pada paragraf kedua dari belakang mungkin salah dibaca karena istilah itu memiliki makna statistik spesifik yang akan membuat pernyataan Anda salah. Tidakkah Anda lebih suka mengatakan bahwa pengacakan dimaksudkan untuk mencegah perancu (suatu bentuk "bias" dalam arti bahasa sehari-hari) daripada mengurangi bias (sebagai ukuran ketidaktepatan penduga)?
Whuber
Saya mengacu pada bias dalam arti statistik. Dalam statistik, "bias" adalah perbedaan antara statistik dan parameter yang diperkirakannya. Seperti yang Anda sebutkan, bias dari estimator adalah perbedaan antara nilai yang diharapkan dari estimator dan nilai sebenarnya dari parameter yang diestimasikan. Dalam posting saya, dengan "bias" saya merujuk pada perbedaan antara statistik yang dihitung dari data dan parameter yang mereka perkirakan — misalnya, antara mean sampel (x bar) dan mean sebenarnya (mu).
Darren James
Sejauh yang saya ketahui, pengambilan sampel acak tidak digunakan untuk mengurangi bias, juga dalam banyak keadaan tidak dapat secara sah diklaim bahwa itu mengurangi bias.
whuber
Anda salah. Tujuan utama pengacakan adalah untuk mensimulasikan efek independensi. Hal ini dilakukan dengan menghilangkan bias yang muncul melalui penugasan perawatan yang sistematis kepada subyek. Bias ini menghasilkan estimasi yang tidak akurat - yang paling penting, estimasi varians yang bias - dan hilangnya kontrol atas kesalahan Tipe I dan II. Bahkan variabel perancu (yang benar-benar berjumlah kurangnya independensi) hanyalah sebuah kasus bias variabel yang dihilangkan. Tetapi Anda tidak perlu mengambil kata-kata saya untuk ini ... Jika Anda tidak yakin dengan makalah Hurlburt di atas, berikut adalah beberapa sumber daya lain untuk berkonsultasi:
Darren James
Cochran, WG dan GM Cox. 1957. Desain Eksperimental. New York: Wiley. Federer, WT 1955. Desain Eksperimental. New York: Macmillan. Hinkelmann, K., dan Kempthorne, O. 1994. Desain dan Analisis Eksperimen. Wiley: New York. Kuehl, RO 2000. Desain Eksperimen: Prinsip Statistik desain dan analisis penelitian. Belmont, CA: Brooks / Cole.
Darren James