Saya telah melakukan percobaan di mana saya telah mengumpulkan pengukuran dari sejumlah peserta. Setiap titik data yang relevan memiliki dua variabel, keduanya kategorikal: pada kenyataannya, setiap variabel memiliki dua nilai yang mungkin (jawaban untuk dua pertanyaan ya / tidak). Saya ingin uji hipotesis statistik untuk memeriksa apakah tampaknya ada korelasi antara kedua variabel ini.
Jika saya memiliki satu titik data per peserta, saya bisa menggunakan tes Fisher pada hasilnya tabel kontingensi. Namun, saya memiliki beberapa titik data per peserta. Akibatnya, uji eksak Fisher tampaknya tidak berlaku, karena titik data dari satu peserta tidak independen. Misalnya, jika saya memiliki 10 titik data dari Alice, itu mungkin tidak independen, karena semuanya berasal dari orang yang sama. Uji eksak Fisher mengasumsikan bahwa semua titik data diambil sampelnya secara independen, sehingga asumsi uji eksak Fisher tidak terpenuhi dan tidak tepat untuk digunakan dalam pengaturan ini (mungkin memberikan laporan yang tidak dapat dibenarkan tentang signifikansi statistik).
Apakah ada teknik untuk menangani situasi ini?
Pendekatan yang saya pertimbangkan:
Salah satu alternatif yang masuk akal adalah menggabungkan semua data dari masing-masing peserta menjadi satu nomor, dan kemudian menggunakan beberapa tes independensi lainnya. Misalnya, untuk setiap peserta, saya bisa menghitung fraksi jawaban Ya untuk pertanyaan pertama dan fraksi jawaban Ya untuk pertanyaan kedua, memberi saya dua bilangan real per peserta, dan kemudian menggunakan uji momen produk Pearson untuk menguji korelasi antara dua angka ini. Namun, saya tidak yakin apakah ini pendekatan yang baik. (Sebagai contoh, saya khawatir bahwa rata-rata / menghitung membuang data dan ini mungkin kehilangan daya, karena agregasi; atau bahwa tanda-tanda ketergantungan mungkin hilang setelah agregasi.)
Saya sudah membaca tentang model multi-level, yang kedengarannya dimaksudkan untuk menangani situasi ini ketika variabel yang mendasarinya kontinu (misalnya, bilangan real) dan ketika model linier sesuai. Namun, di sini saya memiliki dua variabel kategori (jawaban untuk pertanyaan Ya / Tidak), sehingga tampaknya tidak berlaku di sini. Apakah ada teknik setara yang dapat diterapkan pada data kategorikal?
Saya juga telah membaca sedikit tentang desain tindakan berulang di Wikipedia, tetapi artikel Wikipedia berfokus pada studi longitudinal. Itu tampaknya tidak berlaku di sini: jika saya memahaminya dengan benar, tindakan berulang tampaknya berfokus pada efek karena berlalunya waktu (di mana perkembangan waktu mempengaruhi variabel). Namun, dalam kasus saya, perjalanan waktu seharusnya tidak memiliki efek yang relevan. Beritahu saya jika saya salah paham.
Pada refleksi lebih lanjut, pendekatan lain yang terjadi pada saya adalah dengan menggunakan tes permutasi. Untuk setiap peserta, kami dapat secara acak mengubah jawaban mereka ke pertanyaan 1 dan (secara mandiri) mengijinkan jawaban mereka untuk pertanyaan 2, menggunakan permutasi yang berbeda untuk setiap peserta. Namun, tidak jelas bagi saya statistik uji apa yang cocok di sini, untuk mengukur hasil mana yang "setidaknya sama ekstrimnya" dengan hasil yang diamati.
Terkait: Bagaimana memperlakukan dengan benar beberapa titik data per masing-masing subjek (tetapi itu juga berfokus pada model linier untuk variabel kontinu, bukan data kategorikal), Apakah Pengukuran dilakukan pada pasien yang sama independen? (sama)
Jawaban:
Konteks jawaban saya
Saya mempelajari sendiri pertanyaan ini kemarin (bagian mengenai kemungkinan untuk menggunakan model campuran di sini). Saya tanpa malu membuang pemahaman baru saya pada pendekatan ini untuk tabel 2x2 dan menunggu rekan-rekan yang lebih maju untuk memperbaiki ketidaktepatan atau kesalahpahaman saya. Jawaban saya akan panjang dan terlalu didaktik (setidaknya mencoba menjadi didaktik) untuk membantu tetapi juga mengungkapkan kekurangan saya sendiri. Pertama-tama, saya harus mengatakan bahwa saya membagikan kebingungan Anda yang Anda nyatakan di sini.
Saya mempelajari semua contoh dari makalah ini efek acak pemodelan data respon kategoris . Judul itu sendiri bertentangan dengan pemikiran ini. Untuk masalah kita dengan tabel 2x2 dengan pengukuran berulang, contoh di bagian 3.6 sangat cocok untuk diskusi kita. Ini hanya untuk referensi karena tujuan saya adalah menjelaskannya. Saya dapat mengedit bagian ini di masa mendatang jika konteks ini tidak diperlukan lagi.
Model
Gagasan Umumπi adalah probabilitas untuk menjawab ya pada pertanyaan itu i , kemudian logit(πi)=FixedEffectsi+RandomEffecti . Model ini adalah efek linear dan acak dapat diekspresikan dalam cara numerik klasik seperti misalnya
Hal pertama yang harus dipahami adalah bahwa efek acak dimodelkan tidak dengan cara yang sangat berbeda seperti dalam regresi terhadap variabel kontinu. Memang regresi atas variabel kategori tidak lain adalah regresi linier atas logit (atau fungsi tautan lain seperti probit) dari probabilitas yang terkait dengan berbagai tingkat variabel kategori ini. Jika
Kasus kamiπijv probabilitas subjek untuk menjawab "ya" untuk variabel v pada waktu wawancara j. Logit variabel ini dimodelkan sebagai kombinasi efek tetap dan efek acak terkait subjek.
Untuk masalah kami, kami ingin membuat model
Tentang efek yang diperbaiki
Efek tetap kemudian dikaitkan dengan probabilitas untuk menjawab "ya" pada waktu j pada pertanyaan v. Menurut tujuan ilmiah Anda, Anda dapat menguji dengan rasio kemungkinan untuk menguji apakah persamaan efek tetap tertentu harus ditolak. Misalnya, model manaβ1v=β2v=β3v... berarti bahwa tidak ada kecenderungan perubahan dalam jawaban dari waktu 1 ke waktu 2. Jika Anda menganggap bahwa kecenderungan global ini tidak ada, yang tampaknya merupakan kasus untuk studi Anda, Anda dapat membatalkan i langsung dalam model Anda βjv menjadi βv . Dengan analogi, Anda bisa menguji dengan rasio kemungkinan jika kesetaraanβ1=β2 harus ditolak.
Tentang efek acak
Saya tahu mungkin untuk memodelkan efek acak dengan sesuatu selain kesalahan normal, tetapi saya lebih memilih untuk menjawab berdasarkan efek acak normal demi kesederhanaan. Efek acak dapat dimodelkan dengan berbagai cara. Dengan notasiuij Saya berasumsi bahwa efek acak diambil dari distribusinya setiap kali subjek menjawab pertanyaan. Ini adalah tingkat variasi yang paling spesifik. Jika saya menggunakanui sebaliknya, itu akan berarti bahwa efek acak diambil untuk setiap subjek i dan sama untuk setiap pertanyaan v ia harus menjawab (beberapa subjek kemudian memiliki kecenderungan untuk menjawab ya lebih sering). Anda harus membuat pilihan. Jika saya mengerti dengan baik, Anda juga dapat memiliki kedua efek acak ui∼N(0,σ1) yang ditarik subjek dan uij∼N(0,σ2) yang merupakan subjek + jawaban yang ditarik. Saya pikir pilihan Anda tergantung pada detail kasus Anda. Tetapi jika saya mengerti dengan baik, risiko overfitting dengan menambahkan efek acak tidak besar, jadi ketika seseorang memiliki keraguan, kita dapat memasukkan banyak level.
Proposisi
Saya menyadari betapa anehnya jawaban saya, ini hanya mengoceh memalukan tentu lebih bermanfaat bagi saya daripada orang lain. Mungkin saya akan mengedit 90% dari itu. Saya tidak lebih percaya diri, tetapi lebih cenderung untuk langsung ke intinya. Saya akan menyarankan untuk membandingkan model dengan efek acak bersarang (ui+uiv ) versus model dengan hanya efek acak kombinasi (uiv ). Idenya adalah bahwaui Istilah adalah satu-satunya yang bertanggung jawab atas ketergantungan antara jawaban. Menolak kemandirian berarti menolak kehadiranui . Menggunakan glmer untuk menguji ini akan menghasilkan sesuatu seperti:
Pertanyaan adalah variabel dummy yang menunjukkan apakah pertanyaan 1 atau 2 ditanyakan. Jika saya mengerti dengan baik,ui+uiv dan uiv .
(1 | Subject/Question )
terkait dengan struktur bersarang(1 |Subject:Question)
hanya kombinasianova
menghitung uji rasio kemungkinan antara kedua model.sumber