Saya telah menghasilkan tes pengguna untuk membandingkan dua metode: M1 dan M2. Saya menghasilkan 40 kasus uji dan menunjukkan hasil masing-masing metode pada kasus uji kepada 20 orang, berdampingan, orang-orang tidak tahu hasil apa yang datang dari metode mana. Untuk setiap kasus uji, setiap orang harus mengatakan apakah hasil yang dihitung oleh M1 lebih baik atau M2 lebih baik atau sama-sama baik.
Saya ingin tahu apakah M1 lebih baik dari M2. Saya menjumlahkan semua hasil dan menghasilkan histogram 3-D, suara untuk M1, suara untuk dasi, dan suara untuk M2.
Jika saya hanya melihat M1 dan M2 sebagai histogram 2-D. Saya tahu bahwa jika M1 dan M2 sama-sama bagus, histogram ini akan seragam. Maka saya hanya akan melakukan .
Apa yang saya tidak tahu bagaimana memodelkan adalah suara untuk dasi. Berikut adalah dua opsi yang saya pikirkan:
- Dasar dari uji chi-squared adalah bahwa histogram saling eksklusif dan menambahkan hingga satu. Sepertinya suara untuk dasi dapat dibagi dua dan ditambahkan ke masing-masing M1 dan M2 (dan ikatan dilepas), tetapi ini tampaknya tidak terlalu berprinsip.
- Pilihan lain adalah saya bisa mengabaikan ikatan, yang tampaknya cacat karena merusak properti "tambah satu". Sebagai contoh jika saya punya (M1: 2, ties: 98 M2: 0) perbedaan antara kedua metode tidak signifikan secara statistik.
Apa lagi yang bisa saya lakukan? Apakah saya salah melihatnya? Ini sepertinya masalah umum yang akan dihadapi orang saat memodelkan suara pengguna. Apa cara yang benar untuk memodelkan ikatan?
sumber
Jawaban:
Model yang bermakna secara psikologis dapat membimbing kita.
Turunnya tes yang berguna
Setiap variasi dalam pengamatan dapat dikaitkan dengan variasi di antara subyek. Kita mungkin membayangkan bahwa setiap subjek, pada tingkat tertentu, muncul dengan nilai numerik untuk hasil metode 1 dan nilai numerik untuk hasil metode 2. Mereka kemudian membandingkan hasil ini. Jika keduanya cukup berbeda, subjek membuat pilihan yang pasti, tetapi sebaliknya subjek menyatakan dasi. (Ini terkait dengan keberadaan ambang diskriminasi .)
Variasi di antara subjek menyebabkan variasi dalam pengamatan eksperimental. Akan ada peluang tertentu untuk memilih metode 1, peluang tertentu untuk memilih metode 2, dan peluang tertentu untuk dasi.π1 π2 π0
Adalah adil untuk menganggap subjek merespons secara independen satu sama lain. Dengan demikian, kemungkinan mengamati subyek yang menyukai metode 1, subyek yang mendukung metode 2, dan subyek yang memberikan ikatan, bersifat multinomial . Terlepas dari konstanta normalisasi (tidak relevan), logaritma kemungkinan sama dengann1 n2 n0
Mengingat bahwa , ini dimaksimalkan ketika mana adalah jumlah subjek.π0+π1+π2=0 πi=ni/n n=n0+n1+n2
Untuk menguji hipotesis nol bahwa kedua metode ini dianggap sama-sama baik, kami memaksimalkan kemungkinan dikenakan pembatasan yang disiratkan oleh hipotesis ini. Mengingat model psikologis dan permohonannya terhadap ambang hipotetis, kita harus hidup dengan kemungkinan bahwa (kemungkinan ikatan) adalah nol. Satu-satunya cara untuk mendeteksi kecenderungan lebih menyukai satu model daripada yang lain terletak pada bagaimana dan terpengaruh: jika model 1 disukai, maka harus meningkat dan berkurang, dan sebaliknya . Dengan asumsi variasi simetris , situasi tanpa preferensi terjadi ketikaπ0 π1 π2 π1 π2 π1=π2 . (Ukuran akan memberi tahu kami sesuatu tentang ambang - tentang kemampuan diskriminatif - tetapi jika tidak memberikan informasi tentang preferensi.)π0
Ketika tidak ada model yang disukai, kemungkinan maksimum terjadi ketika dan, sekali lagi, . Menghubungkan dua solusi sebelumnya, kami menghitung perubahan dalam kemungkinan maksimum, :π1=π2=n1+n22/n π0=n0/n G
Ukuran nilai ini - yang tidak boleh negatif - memberi tahu kita seberapa kredibel hipotesis nol: ketika kecil, data "dijelaskan" hampir sama dengan hipotesis nol (restriktif) seperti pada umumnya; ketika nilainya besar, hipotesis nol kurang kredibel.G
Teori estimasi kemungkinan maksimum (asimptotik) mengatakan bahwa ambang batas yang masuk akal untuk perubahan ini adalah setengah dari quantile dari distribusi chi-square dengan satu derajat kebebasan (karena pembatasan tunggal dikenakan oleh hipotesis nol). Seperti biasa, adalah ukuran dari tes ini, sering dianggap 5% ( ) atau 1% ( ). sesuai adalah dan .1−α π1=π2 α 0.05 0.01 3.841459 6.634897
Contoh
Misalkan dari subjek, metode nikmat 1 dan metode nikmat 2. Itu menyiratkan ada ikatan. Kemungkinan dimaksimalkan, untuk dan , di mana ia memiliki nilai . Di bawah hipotesis nol kemungkinan malah dimaksimalkan untuk , di mana nilainya hanya . Perbedaan adalah kurang dari satu-setengah threshold 5% dari . Karena itu kami melakukannyan=20 n1=3 n2=9 n0=20−3−9=8 π1=3/20=0.15 π2=9/20=0.45 −20.208… π1=π2=6/20=0.30 −21.778 G=−20.208−(−21.778)=1.57 α= 3.84 tidak menolak hipotesis nol.
Tentang ikatan dan tes alternatif
Melihat kembali rumus untuk , perhatikan bahwa jumlah ikatan ( ) tidak muncul . Dalam contoh, jika kita telah mengamati subjek dan di antara mereka metode disukai 1, metode disukai 2, dan sisanya diikat, hasilnya akan sama.G n0 n=100 3 9 100−3−9=88
Memisahkan ikatan dan menetapkan setengah ke metode 1 dan setengah ke metode 2 secara intuitif masuk akal, tetapi menghasilkan tes yang kurang kuat . Misalnya, misalkan dan . Pertimbangkan dua kasus:n1=5 n2=15
Akhirnya, mari kita pertimbangkan pendekatan tabel kontingensi3×1 disarankan dalam jawaban lain. Pertimbangkan subjek dengan metode favorit 1, metode favorit 2, dan dengan ikatan. "Tabel" hanyalah vektor . Statistik chi-squared-nya adalah dengan dua derajat kebebasan. Nilai p adalah , yang akan menyebabkan kebanyakan orang menyimpulkan tidak ada perbedaan antara metode. Hasil kemungkinan maksimum sebagai gantinya memberikan nilai-p , yang akan menolak kesimpulan ini pada tingkat 5%.n=20 n1=3 n2=10 n0=7 (n0,n1,n2)=(7,3,10) 3.7 0.1572 0.04614 α=
Dengan subyek anggaplah bahwa hanya metode disukai 1, hanya metode disukai 2, dan ada ikatan. Secara intuitif ada sedikit bukti bahwa salah satu metode ini cenderung disukai. Tetapi kali ini statistik chi-kuadrat dari dengan jelas, tidak terbantahkan, (tapi sangat salah) menunjukkan ada perbedaan (nilai p kurang dari ).n=100 1 2 97 182.42 10−15
Dalam kedua situasi , pendekatan chi-squared mendapatkan jawaban yang sepenuhnya salah: dalam kasus pertama tidak memiliki kekuatan untuk mendeteksi perbedaan substansial sementara dalam kasus kedua (dengan banyak ikatan) sangat percaya diri tentang perbedaan yang tidak penting. Masalahnya bukan bahwa tes chi-squared itu buruk; masalahnya adalah ia menguji hipotesis yang berbeda: yaitu, apakah . Menurut model konseptual kami, hipotesis ini adalah omong kosong psikologis, karena ini membingungkan informasi tentang preferensi (yaitu, dan ) dengan informasi tentang ambang batas diskriminasi (yaitu, ).π1=π2=π0 π1 π2 π0 Ini adalah demonstrasi yang bagus tentang perlunya menggunakan konteks penelitian dan pengetahuan materi pelajaran (betapapun disederhanakan) dalam memilih tes statistik.
sumber
Saya menduga jawaban whuber adalah (seperti biasa) lebih lengkap daripada apa yang akan saya ketik. Saya akui, saya mungkin tidak sepenuhnya memahami jawaban whuber ... jadi apa yang saya katakan mungkin tidak unik atau berguna. Namun, saya tidak memperhatikan di mana dalam jawaban Whuber, bersarang preferensi di bawah individu serta bersarang preferensi dalam kasus uji dipertimbangkan. Saya pikir diberikan klarifikasi pertanyaan penanya bahwa:
... ini adalah pertimbangan penting. Oleh karena itu, mungkin yang paling tepat bukanlah tetapi model logistik multi-level. Khususnya di RI mungkin melemparkan sesuatu seperti:χ2
PreferenceForM1 akan dikodekan sebagai 1 (ya) dan 0 (tidak). Di sini intersep lebih dari 0 akan menunjukkan preferensi rata-rata penilai untuk metode 1 pada kasus uji rata-rata. Dengan sampel di dekat batas bawah kegunaan untuk teknik ini, saya mungkin juga akan menggunakan pvals.fnc dan pengaruh. Saya untuk menyelidiki asumsi saya dan efek outlier.
Pertanyaan dasar tentang ikatan di sini tampaknya dijawab dengan baik oleh whuber. Namun, saya akan (kembali) menyatakan bahwa ikatan mengurangi kemampuan Anda untuk mengamati perbedaan yang signifikan secara statistik antara metode-metode tersebut. Selain itu, saya akan mengklaim bahwa menghapusnya dapat menyebabkan Anda terlalu tinggi memperkirakan preferensi individu untuk satu metode dibandingkan yang lain. Untuk alasan selanjutnya, saya akan meninggalkan mereka.
sumber
R
notasi, tetapi tidakkah saran Anda memiliki lebih banyak parameter daripada data? Kebingungan ini bukan karena Anda: Saya telah memahami bahwa ada subjek dan hanya satu hasil per subjek (M1, M2, atau tie), tetapi interpretasi yang tersirat dalam jawaban Anda adalah bahwa mungkin ada pengamatan. Carlosdc, bisakah Anda menjelaskan ini untuk kami?