Potensi membingungkan dalam desain percobaan

12

Ikhtisar pertanyaan

Peringatan: Pertanyaan ini membutuhkan banyak pengaturan. Tolong bersamaku.

Seorang kolega saya dan saya sedang mengerjakan desain eksperimen. Desainnya harus mengatasi sejumlah besar kendala, yang akan saya sebutkan di bawah ini. Saya telah mengembangkan desain yang memenuhi kendala dan memberi kami perkiraan yang tidak memihak tentang efek yang kami minati. Namun, kolega saya percaya bahwa ada yang membingungkan dalam desain. Kami telah memperdebatkan poin ini ad nauseum tanpa mencapai resolusi, jadi pada titik ini saya ingin beberapa pendapat dari luar.

Saya akan menjelaskan tujuan dari penelitian ini, kendala kita, potensi yang membingungkan, dan mengapa saya percaya "kekacauan" ini bukanlah masalah di bawah ini. Saat Anda membaca setiap bagian, ingatlah pertanyaan saya secara keseluruhan:

Apakah ada kebingungan dalam desain yang saya jelaskan?

[Detail percobaan ini telah dimodifikasi, tetapi elemen-elemen penting yang diperlukan untuk mengajukan pertanyaan saya tetap sama]

Tujuan percobaan

Kami ingin menentukan apakah esai yang ditulis oleh laki-laki kulit putih dievaluasi lebih baik daripada esai yang ditulis oleh perempuan kulit putih, laki-laki kulit hitam, atau perempuan kulit hitam ( variabel penulis esai ). Kami juga ingin menentukan apakah bias yang kami temukan muncul lebih banyak dalam hibah berkualitas tinggi atau rendah ( variabel kualitas ). Akhirnya, kami ingin menyertakan esai yang ditulis tentang 12 topik berbeda ( variabel topik ). Namun, hanya dua variabel pertama yang menarik secara substantif; meskipun topik harus berbeda-beda di esai, kami tidak secara substansial tertarik pada bagaimana evaluasi bervariasi antar topik.

Kendala

  1. Ada batasan jumlah peserta dan jumlah esai yang dapat kami kumpulkan. Hasilnya adalah bahwa kepenulisan tidak dapat dimanipulasi sepenuhnya antara peserta, juga tidak dapat dimanipulasi sepenuhnya antara esai (yaitu, setiap esai individu harus ditugaskan ke berbagai kondisi).
  2. Meskipun setiap esai dapat memiliki versi pria kulit putih, wanita kulit putih, pria kulit hitam, dan wanita kulit hitam, setiap esai hanya dapat memiliki kualitas tinggi dan rendah dan hanya bisa mengenai satu topik. Atau, untuk menempatkan batasan ini dengan cara yang berbeda, baik kualitas maupun topik tidak dapat dimanipulasi dalam esai, karena mereka merupakan karakteristik inheren dari esai yang diberikan.
  3. Karena kelelahan, ada batasan jumlah esai yang bisa dievaluasi peserta.
  4. Semua esai yang dibaca seseorang harus tentang satu topik. Dengan kata lain, esai tidak dapat ditugaskan sepenuhnya secara acak kepada peserta, karena kita perlu memastikan bahwa setiap peserta hanya membaca esai dari topik yang sama.
  5. Setiap peserta hanya dapat melihat satu esai yang konon ditulis oleh penulis bukan pria kulit putih, karena kami tidak ingin peserta curiga tentang tujuan percobaan karena terlalu banyak esai mereka ditulis oleh penulis kulit hitam atau wanita.

Desain yang diusulkan

Desain yang saya usulkan pertama-tama memanipulasi setiap esai ke dalam 4 versi kepengarangan yang berbeda (pria kulit putih, wanita kulit putih, dll). Empat esai dari topik yang sama kemudian digunakan untuk mendefinisikan "set", yang masing-masing terdiri dari dua esai berkualitas tinggi dan dua. Setiap peserta menerima tiga esai dari set yang diberikan sebagai berikut pada gambar yang diberikan di bawah ini. Setiap peserta kemudian memberikan peringkat tunggal untuk masing-masing dari tiga esai yang ditugaskan padanya.

Desain percobaan

Potensi membingungkan

Rekan saya percaya bahwa desain di atas mengandung pembaur. Masalahnya, katanya, adalah bahwa, ketika esai berkualitas tinggi ditugaskan untuk ditulis oleh seorang penulis non-pria kulit putih, ia selalu dipasangkan dengan satu esai berkualitas tinggi dan satu esai berkualitas rendah (untuk Esai 1, lihat Peserta 1-3 dalam gambar). Di sisi lain, ketika esai yang sama ditugaskan untuk ditulis oleh penulis pria kulit putih, itu dipasangkan dengan satu esai berkualitas tinggi dan satu esai berkualitas rendah tiga kali (untuk Esai 1, Peserta 4-6) dan dua esai berkualitas rendah tiga kali (untuk Esai 1, Peserta 7-9).

Masalah serupa ada untuk esai berkualitas rendah. Ketika esai berkualitas rendah memiliki penulis pria non-kulit putih, esai itu selalu terlihat dengan esai berkualitas rendah dan esai berkualitas tinggi (untuk Esai 3, lihat Peserta 7-9). Namun, ketika esai yang sama memiliki penulis pria kulit putih, itu terlihat dengan satu esai berkualitas tinggi dan satu esai berkualitas rendah tiga kali (untuk Esai 3, Peserta 10-12) dan dengan dua esai berkualitas tinggi tiga kali (untuk Esai 3, Peserta 1-3).

Alasan pola di atas bisa bermasalah adalah jika kita mengasumsikan adanya "efek kontras". Khususnya, jika esai berkualitas tinggi dievaluasi lebih menguntungkan rata-rata ketika mereka dipasangkan dengan dua esai berkualitas rendah daripada ketika mereka dipasangkan dengan satu esai berkualitas rendah dan satu esai berkualitas tinggi (asumsi yang masuk akal), esai pria kulit putih mungkin menerima peringkat lebih tinggi daripada Perempuan kulit putih, laki-laki kulit hitam, dan esai perempuan kulit hitam untuk alasan lain selain kepenulisan.

Efek kontras untuk esai berkualitas tinggi dapat atau tidak seimbang dengan efek kontras untuk esai berkualitas rendah; artinya, mungkin atau tidak mungkin bahwa esai berkualitas rendah yang dipasangkan dengan dua esai berkualitas tinggi dievaluasi secara tidak menguntungkan. Bagaimanapun, klaim kolega saya, potensi efek kontras dalam bentuk apa pun membuat desain ini bermasalah untuk tujuan menentukan apakah esai yang ditulis oleh pria kulit putih dievaluasi lebih menguntungkan daripada esai penulis lain.

Mengapa saya percaya potensi pengganggu tidak menjadi masalah

Yang penting bagi saya adalah apakah kita dapat memperkirakan sejauh mana esai pria kulit putih dievaluasi secara berbeda dari esai lain (yaitu, apakah kita dapat memperkirakan efek yang kita minati), bahkan di hadapan efek kontras. Karena itu saya melakukan simulasi di mana saya mensimulasikan 50 dataset yang berisi efek kontras dan cocok dengan model yang menguji efek kami yang menarik.

Model spesifik adalah model efek campuran dengan penyadapan acak untuk esai (setiap esai dievaluasi oleh beberapa peserta) dan peserta (setiap peserta mengevaluasi beberapa esai). Level esai juga mengandung kemiringan acak untuk ras, jenis kelamin, dan interaksinya (kedua variabel dimanipulasi dalam esai) dan level partisipan berisi kemiringan acak untuk kualitas (kualitas dimanipulasi di dalam peserta). Efek yang menarik adalah efek ras, jenis kelamin, interaksi antara ras dan jenis kelamin, dan interaksi tingkat tinggi antara masing-masing variabel dan kualitas ini. Tujuan dari simulasi ini adalah untuk menentukan apakah memasukkan efek kontras ke dalam data akan menciptakan efek palsu dari ras, jenis kelamin, interaksi antara ras dan jenis kelamin, dan interaksi tingkat tinggi antara variabel dan kualitas ini. Lihat potongan kode di bawah ini untuk lebih jelasnya.

Menurut simulasi, kehadiran efek kontras tidak membiaskan perkiraan dari salah satu efek kami yang menarik. Selain itu, ukuran efek kontras dapat diperkirakan dalam model statistik yang sama dengan efek lainnya dalam desain; bagi saya, ini sudah menunjukkan bahwa "efek kontras" yang diidentifikasi oleh kolega saya tidak membingungkan. Rekan saya, bagaimanapun, tetap skeptis.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Sekali lagi, pertanyaan keseluruhan saya adalah, apakah ada kebingungan dalam desain yang saya jelaskan? Jika tidak ada yang membingungkan, saya akan tertarik pada deskripsi mengapa "efek kontras" potensial tidak membingungkan sehingga saya dapat menjelaskan hal ini kepada kolega saya.

Patrick S. Forscher
sumber
2
Hanya komentar: bagaimana esai akan dinilai? Saya bertanya karena jika beberapa penilai akan dipekerjakan, maka Anda harus ingat bahwa peringkat penilai yang berbeda tidak sangat konsisten sehingga Anda juga harus ingat variabilitas antara penilai.
Tim
Setiap peserta memberikan satu peringkat untuk masing-masing dari tiga esai yang ditugaskan padanya.
Patrick S. Forscher
Saya telah menambahkan detail tentang prosedur peringkat ke tubuh pertanyaan.
Patrick S. Forscher
Bagi kita yang tidak terbiasa dengan lmer (), dapatkah Anda menjelaskan analisis dan "efek menarik" secara singkat?
Anthony
Tidak masalah, @Anthony. Saya telah menambahkan detail itu ke pertanyaan.
Patrick S. Forscher

Jawaban:

1

Saya khawatir dengan masalah yang terkait - 'Setiap peserta hanya dapat melihat satu esai yang seharusnya ditulis oleh penulis pria kulit putih, karena kami tidak ingin peserta curiga tentang tujuan percobaan karena terlalu banyak esai mereka ditulis oleh penulis Hitam atau perempuan. '

Ini berarti bahwa apa pun hasilnya, Anda tidak akan dapat menentukan apakah itu karena perbedaan antara penulis pria kulit putih dan penulis lainnya, atau hanya antara 'penulis mayoritas' dan 'penulis minoritas'.

Jika desain seperti yang ditunjukkan juga mencerminkan urutan presentasi (saya anggap tidak, tetapi lebih baik untuk memeriksa) maka tampaknya menjadi masalah lain.

Charlie
sumber
Angka tersebut tidak mencerminkan urutan presentasi.
Patrick S. Forscher
1
Saya berasumsi oleh kepengarangan "mayoritas" dan "minoritas", maksud Anda proporsi esai yang merupakan kombinasi ras / gender (yaitu, 2/3 Pria kulit putih, 1/3 lainnya)? Memang benar bahwa untuk setiap peserta, esai pria kulit putih menyusun proporsi esai yang lebih besar daripada yang lain. Namun, pria kulit putih menyusun proporsi yang lebih besar dari populasi penulis esai yang ingin kita pelajari. Kami telah memutuskan bahwa "pengganggu" ini (yang sebenarnya mungkin menjadi bagian dari masalah) kurang bermasalah daripada menciptakan situasi buatan di mana ada tepat setengah dari esai pria kulit putih dan tulisan minoritas.
Patrick S. Forscher
1

Bukankah desainnya akan lebih sederhana jika setiap peserta hanya menilai dua esai (satu laki-laki kulit putih dan satu lainnya)? Begitulah, minta peserta menilai dua esai tetapi mintalah mereka percaya bahwa tumpukan itu kebanyakan berisi esai laki-laki. Mereka kebetulan mendapatkan keduanya secara kebetulan. Pesulap kartu menyebut ini "pemaksaan". Jika ini membutuhkan terlalu banyak peserta, ujilah kurang dari 12 topik. Dua belas banyak.

dragice
sumber
1

Dengan ukuran sampel ini, bagaimana Anda bisa menyimpulkan sesuatu? Jika Anda mengulangi percobaan ini berkali-kali, maka empat penanda yang mendapatkan laki-laki kulit putih dan laki-laki kulit hitam semuanya akan memberi nilai laki-laki kulit putih yang lebih baik dalam satu percobaan dari 16 percobaan.

Hugh Morris
sumber
Ini adalah versi yang sangat kecil dari penelitian ini. Studi lengkap memiliki 432 orang yang mengevaluasi esai.
Patrick S. Forscher