menguji preferensi pengguna

8

Saya telah menghasilkan tes pengguna untuk membandingkan dua metode: M1 dan M2. Saya menghasilkan 40 kasus uji dan menunjukkan hasil masing-masing metode pada kasus uji kepada 20 orang, berdampingan, orang-orang tidak tahu hasil apa yang datang dari metode mana. Untuk setiap kasus uji, setiap orang harus mengatakan apakah hasil yang dihitung oleh M1 lebih baik atau M2 lebih baik atau sama-sama baik.

Saya ingin tahu apakah M1 lebih baik dari M2. Saya menjumlahkan semua hasil dan menghasilkan histogram 3-D, suara untuk M1, suara untuk dasi, dan suara untuk M2.

Jika saya hanya melihat M1 dan M2 sebagai histogram 2-D. Saya tahu bahwa jika M1 dan M2 sama-sama bagus, histogram ini akan seragam. Maka saya hanya akan melakukan .χ2

Apa yang saya tidak tahu bagaimana memodelkan adalah suara untuk dasi. Berikut adalah dua opsi yang saya pikirkan:

  • Dasar dari uji chi-squared adalah bahwa histogram saling eksklusif dan menambahkan hingga satu. Sepertinya suara untuk dasi dapat dibagi dua dan ditambahkan ke masing-masing M1 dan M2 (dan ikatan dilepas), tetapi ini tampaknya tidak terlalu berprinsip.
  • Pilihan lain adalah saya bisa mengabaikan ikatan, yang tampaknya cacat karena merusak properti "tambah satu". Sebagai contoh jika saya punya (M1: 2, ties: 98 M2: 0) perbedaan antara kedua metode tidak signifikan secara statistik.

Apa lagi yang bisa saya lakukan? Apakah saya salah melihatnya? Ini sepertinya masalah umum yang akan dihadapi orang saat memodelkan suara pengguna. Apa cara yang benar untuk memodelkan ikatan?

carlosdc
sumber
Kedengarannya seperti Anda berurusan dengan model preferensi (perbandingan) berpasangan , kan?
chl
Saya tidak mengerti mengapa bermasalah bahwa M1: 2 Dasi: 98 M2: 0 seharusnya tidak signifikan secara statistik. Intinya, Anda akan memiliki sampel 2 orang yang memiliki preferensi dan tidak ada tabel dengan hanya 2 orang yang stat. sig.
Peter Flom
2
Tidak, keduanya menjawab pertanyaan yang berbeda, sehingga mereka mendapat jawaban yang berbeda. Meninggalkan ikatan tampaknya bagi saya untuk menjawab pertanyaan yang ingin Anda tanyakan
Peter Flom
1
Sebagai catatan tambahan, ulang: "Jika saya hanya melihat M1 dan M2 sebagai histogram 2-D. Saya tahu bahwa jika M1 dan M2 sama-sama bagus, histogram ini akan sama", ini adalah kesalahpahaman umum. Tes hanya memeriksa apakah baris & kolom independen, yaitu setiap baris mirip dengan baris lainnya; mereka tidak harus seragam. χ2
gung - Reinstate Monica
2
Memang benar bahwa distribusi die adil adalah seragam diskrit, & bahwa die tertentu dapat diuji terhadap "distribusi teoritis tertentu" ini untuk keadilan. Tapi goodness of fit tes juga dapat dilakukan terhadap lainnya (non-seragam) distribusi teoritis, & yang tes kemerdekaan (yang Anda akan menggunakan) tentu tidak memerlukan ini. χ2 χ2
gung - Reinstate Monica

Jawaban:

6

Model yang bermakna secara psikologis dapat membimbing kita.

Turunnya tes yang berguna

Setiap variasi dalam pengamatan dapat dikaitkan dengan variasi di antara subyek. Kita mungkin membayangkan bahwa setiap subjek, pada tingkat tertentu, muncul dengan nilai numerik untuk hasil metode 1 dan nilai numerik untuk hasil metode 2. Mereka kemudian membandingkan hasil ini. Jika keduanya cukup berbeda, subjek membuat pilihan yang pasti, tetapi sebaliknya subjek menyatakan dasi. (Ini terkait dengan keberadaan ambang diskriminasi .)

Variasi di antara subjek menyebabkan variasi dalam pengamatan eksperimental. Akan ada peluang tertentu untuk memilih metode 1, peluang tertentu untuk memilih metode 2, dan peluang tertentu untuk dasi.π1π2π0

Adalah adil untuk menganggap subjek merespons secara independen satu sama lain. Dengan demikian, kemungkinan mengamati subyek yang menyukai metode 1, subyek yang mendukung metode 2, dan subyek yang memberikan ikatan, bersifat multinomial . Terlepas dari konstanta normalisasi (tidak relevan), logaritma kemungkinan sama dengann1n2n0

n1log(π1)+n2log(π2)+n0log(π0).

Mengingat bahwa , ini dimaksimalkan ketika mana adalah jumlah subjek.π0+π1+π2=0πi=ni/nn=n0+n1+n2

Untuk menguji hipotesis nol bahwa kedua metode ini dianggap sama-sama baik, kami memaksimalkan kemungkinan dikenakan pembatasan yang disiratkan oleh hipotesis ini. Mengingat model psikologis dan permohonannya terhadap ambang hipotetis, kita harus hidup dengan kemungkinan bahwa (kemungkinan ikatan) adalah nol. Satu-satunya cara untuk mendeteksi kecenderungan lebih menyukai satu model daripada yang lain terletak pada bagaimana dan terpengaruh: jika model 1 disukai, maka harus meningkat dan berkurang, dan sebaliknya . Dengan asumsi variasi simetris , situasi tanpa preferensi terjadi ketikaπ0π1π2π1π2π1=π2 . (Ukuran akan memberi tahu kami sesuatu tentang ambang - tentang kemampuan diskriminatif - tetapi jika tidak memberikan informasi tentang preferensi.)π0

Ketika tidak ada model yang disukai, kemungkinan maksimum terjadi ketika dan, sekali lagi, . Menghubungkan dua solusi sebelumnya, kami menghitung perubahan dalam kemungkinan maksimum, :π1=π2=n1+n22/nπ0=n0/nG

G=(n1logn1n+n2logn2n+n0logn0n)(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.

Ukuran nilai ini - yang tidak boleh negatif - memberi tahu kita seberapa kredibel hipotesis nol: ketika kecil, data "dijelaskan" hampir sama dengan hipotesis nol (restriktif) seperti pada umumnya; ketika nilainya besar, hipotesis nol kurang kredibel.G

Teori estimasi kemungkinan maksimum (asimptotik) mengatakan bahwa ambang batas yang masuk akal untuk perubahan ini adalah setengah dari quantile dari distribusi chi-square dengan satu derajat kebebasan (karena pembatasan tunggal dikenakan oleh hipotesis nol). Seperti biasa, adalah ukuran dari tes ini, sering dianggap 5% ( ) atau 1% ( ). sesuai adalah dan .1απ1=π2α0.050.013.8414596.634897


Contoh

Misalkan dari subjek, metode nikmat 1 dan metode nikmat 2. Itu menyiratkan ada ikatan. Kemungkinan dimaksimalkan, untuk dan , di mana ia memiliki nilai . Di bawah hipotesis nol kemungkinan malah dimaksimalkan untuk , di mana nilainya hanya . Perbedaan adalah kurang dari satu-setengah threshold 5% dari . Karena itu kami melakukannyan=20n1=3n2=9n0=2039=8π1=3/20=0.15π2=9/20=0.4520.208π1=π2=6/20=0.3021.778G=20.208(21.778)=1.57α=3.84tidak menolak hipotesis nol.


Tentang ikatan dan tes alternatif

Melihat kembali rumus untuk , perhatikan bahwa jumlah ikatan ( ) tidak muncul . Dalam contoh, jika kita telah mengamati subjek dan di antara mereka metode disukai 1, metode disukai 2, dan sisanya diikat, hasilnya akan sama.Gn0n=1003910039=88

Memisahkan ikatan dan menetapkan setengah ke metode 1 dan setengah ke metode 2 secara intuitif masuk akal, tetapi menghasilkan tes yang kurang kuat . Misalnya, misalkan dan . Pertimbangkan dua kasus:n1=5n2=15

  1. n=20 subjek, jadi ada ikatan. Tes kemungkinan maksimum akan menolak nol untuk nilai lebih besar dari . Tes lain yang sering digunakan dalam situasi ini (karena tidak ada ikatan) adalah tes binomial; itu akan menolak nol untuk setiap nilai lebih besar dari . Oleh karena itu dua tes biasanya akan memberikan hasil yang sama, karena nilai kritis ini cukup dekat.n0=0α0.02217α0.02660

  2. n=100 subjek, jadi ada ikatan. Tes kemungkinan maksimum masih akan menolak nol untuk nilai lebih besar dari . Uji binomial akan menolak nol hanya untuk nilai lebih besar dari . Dua tes memberikan hasil yang sama sekali berbeda. Secara khusus, ikatan telah melemahkan kemampuan uji binomial untuk membedakan perbedaan yang disarankan teori kemungkinan maksimum adalah nyata.n0=80α0.02217α0.319780

Akhirnya, mari kita pertimbangkan pendekatan tabel kontingensi3×1 disarankan dalam jawaban lain. Pertimbangkan subjek dengan metode favorit 1, metode favorit 2, dan dengan ikatan. "Tabel" hanyalah vektor . Statistik chi-squared-nya adalah dengan dua derajat kebebasan. Nilai p adalah , yang akan menyebabkan kebanyakan orang menyimpulkan tidak ada perbedaan antara metode. Hasil kemungkinan maksimum sebagai gantinya memberikan nilai-p , yang akan menolak kesimpulan ini pada tingkat 5%.n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=

Dengan subyek anggaplah bahwa hanya metode disukai 1, hanya metode disukai 2, dan ada ikatan. Secara intuitif ada sedikit bukti bahwa salah satu metode ini cenderung disukai. Tetapi kali ini statistik chi-kuadrat dari dengan jelas, tidak terbantahkan, (tapi sangat salah) menunjukkan ada perbedaan (nilai p kurang dari ).n=1001297182.421015

Dalam kedua situasi , pendekatan chi-squared mendapatkan jawaban yang sepenuhnya salah: dalam kasus pertama tidak memiliki kekuatan untuk mendeteksi perbedaan substansial sementara dalam kasus kedua (dengan banyak ikatan) sangat percaya diri tentang perbedaan yang tidak penting. Masalahnya bukan bahwa tes chi-squared itu buruk; masalahnya adalah ia menguji hipotesis yang berbeda: yaitu, apakah . Menurut model konseptual kami, hipotesis ini adalah omong kosong psikologis, karena ini membingungkan informasi tentang preferensi (yaitu, dan ) dengan informasi tentang ambang batas diskriminasi (yaitu, ). π1=π2=π0π1π2π0Ini adalah demonstrasi yang bagus tentang perlunya menggunakan konteks penelitian dan pengetahuan materi pelajaran (betapapun disederhanakan) dalam memilih tes statistik.

whuber
sumber
Anda mengatakan "Melihat kembali rumus untuk G, perhatikan bahwa jumlah ikatan (n0) tidak muncul" ... tapi saya melihat n0 sebagai istilah dalam rumus untuk perubahan log-lik. Apakah itu bukan G?
russellpierce
1
@dr Lihat ungkapan final untuk : ini adalah perbedaan dalam kemungkinan log. Meskipun kedua kemungkinan tergantung pada , pembatalan menghapus ketergantungan itu sama sekali. Gn0
whuber
Ah, saya mengerti sekarang. Saya melewatkan tanda sama dengan yang menunjukkan pengurangan persamaan.
russellpierce
Bagaimana solusi Anda dibandingkan dengan pendekatan tabel kontingensi 2x2 tidak termasuk ikatan?
russellpierce
1
@dr Ini harus identik. Inti dari derivasi ini adalah untuk membenarkan pendekatan ini menggunakan prinsip-prinsip dasar inferensi statistik dan psikologi, karena tampaknya inti dari masalah ini menyangkut cara yang tepat untuk menangani ikatan.
Whuber
1

Saya menduga jawaban whuber adalah (seperti biasa) lebih lengkap daripada apa yang akan saya ketik. Saya akui, saya mungkin tidak sepenuhnya memahami jawaban whuber ... jadi apa yang saya katakan mungkin tidak unik atau berguna. Namun, saya tidak memperhatikan di mana dalam jawaban Whuber, bersarang preferensi di bawah individu serta bersarang preferensi dalam kasus uji dipertimbangkan. Saya pikir diberikan klarifikasi pertanyaan penanya bahwa:

Kasus-kasus tersebut memang merupakan sampel acak dari semua kasus yang mungkin. Saya pikir analogi adalah sebagai berikut: pemilihan ditentukan oleh apa yang terjadi pada pemungutan suara, tapi saya punya untuk setiap pemilih afiliasi partai mereka. Jadi hampir dapat dipastikan bahwa seorang kandidat dari satu partai mengajukan banding kepada para pemilih yang berafiliasi dengan partai itu, tetapi ini belum tentu diberikan, seorang kandidat yang hebat dapat menang dalam partainya dan memenangkan orang dari partai lainnya.

... ini adalah pertimbangan penting. Oleh karena itu, mungkin yang paling tepat bukanlah tetapi model logistik multi-level. Khususnya di RI mungkin melemparkan sesuatu seperti:χ2

lmer(PreferenceForM1~1+(1|RaterID)+(1|TestCaseID),family=binomial)

PreferenceForM1 akan dikodekan sebagai 1 (ya) dan 0 (tidak). Di sini intersep lebih dari 0 akan menunjukkan preferensi rata-rata penilai untuk metode 1 pada kasus uji rata-rata. Dengan sampel di dekat batas bawah kegunaan untuk teknik ini, saya mungkin juga akan menggunakan pvals.fnc dan pengaruh. Saya untuk menyelidiki asumsi saya dan efek outlier.

Pertanyaan dasar tentang ikatan di sini tampaknya dijawab dengan baik oleh whuber. Namun, saya akan (kembali) menyatakan bahwa ikatan mengurangi kemampuan Anda untuk mengamati perbedaan yang signifikan secara statistik antara metode-metode tersebut. Selain itu, saya akan mengklaim bahwa menghapusnya dapat menyebabkan Anda terlalu tinggi memperkirakan preferensi individu untuk satu metode dibandingkan yang lain. Untuk alasan selanjutnya, saya akan meninggalkan mereka.

russellpierce
sumber
Saya mungkin bingung dengan Rnotasi, tetapi tidakkah saran Anda memiliki lebih banyak parameter daripada data? Kebingungan ini bukan karena Anda: Saya telah memahami bahwa ada subjek dan hanya satu hasil per subjek (M1, M2, atau tie), tetapi interpretasi yang tersirat dalam jawaban Anda adalah bahwa mungkin ada pengamatan. Carlosdc, bisakah Anda menjelaskan ini untuk kami? 20800=2040
whuber
OP menyatakan bahwa "Saya menghasilkan 40 kasus uji dan menunjukkan hasil masing-masing metode pada kasus uji kepada 20 orang"; "Untuk setiap kasus uji, setiap orang harus mengatakan apakah hasil yang dihitung oleh M1 lebih baik atau M2 lebih baik atau mereka sama-sama baik." Jadi, saya menafsirkan OP yang mengatakan ada 20 * 40 pengamatan.
russellpierce
Anda benar, akan ada banyak parameter yang diperkirakan dalam data ini. Jumlah persis yang saya tidak jelas (tempat paket statistik memungkinkan saya puas dengan pemahaman saya tentang persamaan yang mendasarinya).
russellpierce