Cara memperlakukan beberapa titik data dengan benar setiap subjek

10

Saat ini saya sedang berdebat dengan seseorang tentang cara memperlakukan data dengan benar dengan berbagai pengukuran untuk setiap subjek. Dalam hal ini data dikumpulkan untuk setiap subjek dalam waktu singkat untuk kondisi yang berbeda dalam setiap subjek. Semua pengukuran mengumpulkan variabel yang sama persis, hanya beberapa.

Salah satu opsi sekarang adalah hanya mengelompokkan data berdasarkan kondisi dan tidak peduli bahwa beberapa titik data berasal dari satu subjek. Namun poin data dari masing-masing subjek mungkin tidak sepenuhnya independen.

Alternatif lainnya adalah, pertama-tama mengambil mean dari semua pengukuran untuk setiap kondisi dari setiap subjek dan kemudian membandingkan rata-rata. Namun ini mungkin akan berdampak signifikansi, karena dalam analisis akhir tidak diperhitungkan, bahwa berarti memiliki kesalahan yang lebih sedikit.

Bagaimana Anda bisa menganalisis data seperti itu dengan benar? Apakah ini entah bagaimana dirawat di SPSS? Pada prinsipnya adalah mungkin untuk menghitung margin kesalahan ketika menghitung rata-rata dan daripada mempertimbangkan ini dalam analisis akhir, tetapi saya tidak menduga bahwa SPSS entah bagaimana melakukan perhitungan ini di belakang saya.

LiKao
sumber
1
Apakah ini langkah-langkah desain berulang sedemikian sehingga setiap subjek berjalan di semua, atau banyak, dari kondisi? Atau, apakah itu hanya kelompok independen, atau ukuran, desain di mana setiap subjek berada dalam satu kondisi?
John
Dalam desain ini setiap subjek berjalan dalam semua kondisi. Namun ada beberapa titik data, yang harus ditolak, karena subjek gagal pada tugas yang dihadapi. Tidak mungkin bahwa subjek akan gagal di semua subtugas untuk kondisi tunggal (ada sekitar 40 pengulangan per kondisi), sehingga kemungkinan besar setiap subjek akan memiliki titik data untuk semua kondisi.
LiKao

Jawaban:

9

Ini akan menjadi pelanggaran independensi untuk "mengelompokkan data berdasarkan kondisi dan tidak peduli bahwa beberapa titik data berasal dari satu subjek". Jadi itu tidak perlu. Salah satu pendekatan adalah "untuk mengambil rata-rata dari semua pengukuran untuk setiap kondisi dari setiap subjek dan kemudian membandingkan rata-rata". Anda bisa melakukannya dengan cara itu, Anda tidak akan melanggar independensi, tetapi Anda kehilangan beberapa informasi secara agregat karena level level subjek.

Di depannya, ini terdengar seperti desain campuran dengan kondisi antara subjek dan beberapa periode waktu yang diukur dalam subjek. Namun, itu menimbulkan pertanyaan, mengapa Anda mengumpulkan data pada beberapa titik waktu? Apakah efek waktu, atau perkembangan suatu variabel dari waktu ke waktu diharapkan berbeda antara kondisi? Jika jawabannya adalah ya untuk salah satu dari pertanyaan-pertanyaan itu, maka dengan diberikan struktur datanya, saya berharap bahwa yang Anda minati adalah ANOVA campuran. ANOVA campuran akan mempartisi varians subjek dari SSTotal "di belakang Anda". Tetapi apakah pemartisian itu membantu pengujian kondisi subjek tergantung pada beberapa faktor lain.

Bagaimanapun, dalam SPSS / PASW 18 Analisis -> Model Linear Umum -> Tindakan Berulang. Anda akan memiliki satu baris untuk setiap subjek dan satu kolom untuk setiap titik waktu serta satu sebagai pengidentifikasi kondisi mereka. Pengidentifikasi kondisi akan masuk ke bagian "antara" dan langkah-langkah yang diulang akan diatasi ketika Anda menentukan faktor ukuran yang diulang.

russellpierce
sumber
Ok, ini yang saya pikirkan. Beberapa titik data per kondisi dikumpulkan karena dua alasan. Salah satunya adalah bahwa data harus lebih dapat diandalkan dengan cara ini. Alasan lainnya adalah, bahwa beberapa titik data harus dibuang (subjek tidak mengikuti instruksi dengan benar setiap saat). Syarat-syaratnya lengkap dalam subjek, jadi kami tidak memiliki desing campuran dalam hal ini sama sekali. Sayangnya langkah yang diulang tidak dipertanyakan, karena kami memiliki sekitar 40 pengulangan per kondisi di setiap subjek. Namun tingginya jumlah pengulangan berarti, kami kehilangan banyak informasi saat menggunakan mean.
LiKao
Maka saya merekomendasikan jawaban John. Model campuran kemungkinan lebih disukai. Itu bisa memodelkan baik mean dan variabilitas dalam setiap subjek dan menghormati bersarang. Satu masalah dengan analisis semacam itu adalah bahwa derajat kebebasan yang 'benar' tidak jelas dan dengan demikian ambang batas untuk signifikansi statistik juga tidak jelas. Berbeda dengan kode yang disediakan oleh John, saya akan merekomendasikan pemasangan kemiringan acak untuk efek kondisi Anda (subjek yang berbeda menampilkan efek yang berbeda). Saya telah melihat beberapa simulasi yang menyarankan gagal melakukannya dapat meningkatkan tingkat kesalahan Tipe I Anda.
russellpierce
4

Desain tindakan berulang adalah cara tradisional untuk menangani hal ini, seperti yang dikatakan drknexus. Ketika melakukan analisis semacam itu, Anda harus mengumpulkan satu skor / kondisi / subjek. Ini sensitif terhadap pelanggaran asumsi kebulatan dan masalah lainnya. Namun, teknik yang lebih modern adalah dengan menggunakan pemodelan multi-level atau efek campuran linier. Dengan menggunakan teknik ini Anda tidak mengumpulkan data. Ada beberapa perawatan yang tersedia ini tetapi saya saat ini tidak tahu tutorial dasar terbaik. Baayen (2008) Bab 7 baik. Pinheiro & Bates (2000) sangat baik tetapi dari suara hal-hal mengikuti saran mereka di intro dan membaca bit yang direkomendasikan untuk pemula.

Jika Anda hanya ingin mendapatkan hasil gaya ANOVA, dengan asumsi semua data Anda dalam format panjang (satu baris / titik data) dan Anda memiliki kolom yang menunjukkan subjek, respons (y), dan variabel kondisi (x), Anda bisa mencoba melihat sesuatu seperti ini di R (pastikan paket lme4 diinstal).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

Anda tentu saja dapat memiliki lebih banyak kolom variabel kondisi, mungkin berinteraksi. Maka Anda dapat mengubah perintah lmer ke sesuatu seperti ...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(BTW, saya percaya bahwa tidak mengumpulkan langkah-langkah berulang untuk meningkatkan kekuatan adalah kekeliruan formal. Adakah yang ingat namanya?)

John
sumber
Saya pikir kesalahan gagal untuk mengagregasi dan menggunakan df dari jumlah respon daripada jumlah subjek adalah pelanggaran independensi. Atau, (saya pikir) mungkin dianggap membuat kesimpulan pada tingkat respon item individu untuk satu set mata pelajaran yang tetap.
russellpierce