Saya menghadiri pertemuan Masyarakat untuk Kepribadian dan Psikologi Sosial minggu lalu di mana saya melihat ceramah oleh Uri Simonsohn dengan premis bahwa menggunakan analisis kekuatan a priori untuk menentukan ukuran sampel pada dasarnya tidak berguna karena hasilnya sangat sensitif terhadap asumsi.
Tentu saja, klaim ini bertentangan dengan apa yang saya ajarkan di kelas metode saya dan bertentangan dengan rekomendasi dari banyak metodologi terkemuka (terutama Cohen, 1992 ), jadi Uri menyajikan beberapa bukti yang mendukung klaimnya. Saya telah mencoba untuk membuat ulang beberapa bukti di bawah ini.
Untuk kesederhanaan, mari kita bayangkan situasi di mana Anda memiliki dua kelompok pengamatan dan menebak bahwa ukuran efek (yang diukur dengan perbedaan rata-rata standar) adalah . Perhitungan daya standar (dilakukan dengan menggunakan paket di bawah) akan memberi tahu Anda akan membutuhkan 128 pengamatan untuk mendapatkan daya 80% dengan desain ini.R
pwr
require(pwr)
size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")
Namun, biasanya, dugaan kami tentang ukuran efek yang diantisipasi adalah (setidaknya dalam ilmu sosial, yang merupakan bidang studi saya), hanya itu - tebakan yang sangat kasar. Apa yang terjadi kemudian jika tebakan kita tentang ukuran efeknya sedikit mati? Perhitungan daya cepat memberi tahu Anda bahwa jika ukuran efeknya adalah bukannya 0,5 , Anda perlu 200 pengamatan - 1,56 kali jumlah yang Anda perlukan untuk memiliki daya yang memadai untuk ukuran efek sebesar 0,5 . Demikian juga, jika ukuran efeknya adalah 0,6 , Anda hanya perlu 90 pengamatan, 70% dari apa yang Anda perlukan untuk memiliki kekuatan yang memadai untuk mendeteksi ukuran efek, 50. Secara praktis, kisaran dalam pengamatan yang diestimasikan cukup besar - hingga 200 .
Salah satu respons terhadap masalah ini adalah, alih-alih membuat perkiraan murni tentang seberapa besar efek itu, Anda mengumpulkan bukti tentang ukuran efeknya, baik melalui literatur sebelumnya atau melalui uji coba pilot. Tentu saja, jika Anda melakukan uji coba, Anda ingin uji coba menjadi cukup kecil sehingga Anda tidak hanya menjalankan versi studi Anda hanya untuk menentukan ukuran sampel yang diperlukan untuk menjalankan studi (yaitu, Anda akan ingin ukuran sampel yang digunakan dalam uji coba lebih kecil dari ukuran sampel studi Anda).
Uri Simonsohn berpendapat bahwa uji coba pilot untuk tujuan menentukan ukuran efek yang digunakan dalam analisis daya Anda tidak berguna. Pertimbangkan simulasi berikut yang saya jalankan R
. Simulasi ini mengasumsikan bahwa ukuran efek populasi adalah . Kemudian melakukan 1000 "uji coba" ukuran 40 dan mentabulasi N yang direkomendasikan dari masing-masing uji coba 10.000.
set.seed(12415)
reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)
for(i in 1:reps)
{
x <- rep(c(-.5, .5), pilot_n_per_group)
y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
# Calculate the standardized mean difference
size <- (mean(y[x == -.5]) - mean(y[x == .5])) /
sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)
n <- 2 * pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")$n
ns[i] <- n
}
Di bawah ini adalah plot kerapatan berdasarkan simulasi ini. Saya telah menghilangkan uji coba yang merekomendasikan sejumlah pengamatan di atas 500 untuk membuat gambar lebih dapat ditafsirkan. Bahkan berfokus pada hasil simulasi yang kurang ekstrim, ada variasi besar dalam N yang direkomendasikan oleh 1000 uji coba.
Tentu saja, saya yakin sensitivitas terhadap masalah asumsi hanya bertambah buruk karena desain seseorang menjadi lebih rumit. Sebagai contoh, dalam desain yang membutuhkan spesifikasi struktur efek acak, sifat struktur efek acak akan memiliki implikasi dramatis bagi kekuatan desain.
Jadi, apa pendapat Anda tentang argumen ini? Apakah analisis kekuatan apriori pada dasarnya tidak berguna? Jika ya, lalu bagaimana seharusnya para peneliti merencanakan ukuran studi mereka?
sumber
Jawaban:
Masalah mendasar di sini adalah benar dan cukup terkenal dalam statistik. Namun, interpretasi / klaimnya ekstrem. Ada beberapa masalah yang akan dibahas:
Kedua, mengenai klaim yang lebih luas bahwa analisis kekuasaan (a-priori atau lainnya) mengandalkan asumsi, tidak jelas apa yang harus dibuat dari argumen itu. Tentu saja mereka lakukan. Begitu juga yang lainnya. Tidak menjalankan analisis daya, tetapi hanya mengumpulkan sejumlah data berdasarkan jumlah yang Anda pilih, dan kemudian menganalisis data Anda, tidak akan memperbaiki situasi. Selain itu, analisis Anda yang dihasilkan masih akan bergantung pada asumsi, sama seperti semua analisis (kekuasaan atau yang lain) selalu lakukan. Jika sebaliknya Anda memutuskan bahwa Anda akan terus mengumpulkan data dan menganalisis kembali sampai Anda mendapatkan gambar yang Anda sukai atau bosan, itu akan menjadi jauh kurang valid (dan masih akan memerlukan asumsi yang mungkin tidak terlihat oleh pembicara, tetapi tetap ada). Sederhananya,tidak ada jalan keluar pada kenyataan bahwa asumsi sedang dibuat dalam penelitian dan analisis data .
Anda mungkin menemukan sumber daya yang menarik ini:
Kraemer, HC, Mintz, J., Noda, A., Tinklenberg, J., & Yesavage, JA (2006). Perhatian tentang penggunaan studi percontohan untuk memandu perhitungan daya untuk proposal studi , Archives of General Psychiatry, 63 , 5, hlm. 484-489.
Uebersax, JA (2007). Analisis Daya Tanpa Syarat Bayesian. http://www.john-uebersax.com/stat/bpower.htm
sumber