Perbandingan daftar peringkat

15

Misalkan dua kelompok, terdiri dari dan masing-masing peringkat satu set 25 item dari yang paling penting sampai yang paling tidak penting. Apa cara terbaik untuk membandingkan peringkat ini?n1n2

Jelas, dimungkinkan untuk melakukan 25 tes Mann-Whitney U, tetapi ini akan menghasilkan 25 hasil tes untuk ditafsirkan, yang mungkin terlalu banyak (dan, dalam penggunaan yang ketat, memunculkan pertanyaan dari beberapa perbandingan). Juga tidak sepenuhnya jelas bagi saya bahwa peringkat memenuhi semua asumsi tes ini.

Saya juga akan tertarik pada pointer ke literatur tentang rating vs peringkat.

Beberapa konteks: 25 item ini semuanya berhubungan dengan pendidikan dan kedua kelompok adalah tipe pendidik yang berbeda. Kedua kelompok itu kecil.

EDIT sebagai respons terhadap @ttnphns:

Saya tidak bermaksud membandingkan peringkat total item dalam grup 1 dengan grup 2 - itu akan menjadi konstan, seperti yang ditunjukkan oleh @ttnphns. Tetapi peringkat di grup 1 dan grup 2 akan berbeda; yaitu, grup 1 dapat memberi peringkat item 1 lebih tinggi dari grup 2.

Saya dapat membandingkan mereka, item demi item, mendapatkan rerata atau median peringkat setiap item dan melakukan 25 tes, tetapi saya bertanya-tanya apakah ada cara yang lebih baik untuk melakukan ini.

Peter Flom - Pasang kembali Monica
sumber
1
Jika setiap orang memberi peringkat 25 item daripada jumlah seluruh 25 variabel adalah konstan (325). Mengingat itu, apa maksud Anda katakan the best ways to compare these rankings- apa jenis perbedaan dengan 2 kelompok yang ingin Anda ketahui?
ttnphns
2
Mungkin untuk menghitung Median Kemeny untuk setiap grup? Saya belum melakukannya sendiri dan tidak tahu apakah 2 hasilnya bisa dibandingkan secara statistik (yaitu dengan inferensi terhadap populasi).
ttnphns
1
Pilihan lain mungkin diulang ukuran regresi ordinal (di mana interaksi dengan faktor kelompok dan faktor rm akan menjadi minat Anda); ini dapat dilakukan melalui model GEE dengan distribusi multinomial dan tautan logit. Tapi, sekali lagi, karena jumlah 25 item adalah konstan, saya tidak bisa mengatakan sekarang apakah itu valid secara matematis.
ttnphns
2
Saya tidak memiliki buku tentang saya, tetapi "Teori dan Praktek Pengukuran" oleh D Hand membahas beberapa masalah yang terdengar mirip dengan ini. Apa yang khususnya ingin Anda ketahui tentang "perbedaan" dalam peringkat. Misalnya, tidak bisakah Anda membuat peringkat agregat untuk setiap kelompok, dan kemudian mengambil korelasi peringkat?
Corone
2
@PeterFlom Apakah Anda akhirnya menemukan solusi untuk perbandingan peringkat? Jika ya, maukah Anda mempostingnya? :)
Mark Heckmann

Jawaban:

6

Ringkasan

Saya membagikan pemikiran saya di bagian Detail . Saya pikir mereka berguna dalam mengidentifikasi apa yang benar-benar ingin kita capai.

Saya pikir bahwa masalah utama di sini adalah bahwa Anda belum mendefinisikan apa arti kesamaan peringkat. Oleh karena itu, tidak ada yang tahu metode pengukuran perbedaan antara peringkat yang lebih baik.

Secara efektif, ini membuat kita secara ambigu memilih metode berdasarkan dugaan.

Apa yang saya benar-benar sarankan adalah pertama mendefinisikan tujuan optimasi matematis. Hanya dengan begitu kita akan yakin apakah kita benar-benar tahu apa yang kita inginkan.

Kecuali kita melakukan itu, benar-benar tidak tahu apa yang kita inginkan. Kita mungkin hampir tahu apa yang kita inginkan, tetapi hampir tahu mengetahui .

Teks saya di Detail pada dasarnya adalah langkah menuju mencapai definisi matematis kesamaan peringkat . Setelah kami mengatasi hal ini, kami dapat dengan percaya diri bergerak maju untuk memilih metode terbaik untuk mengukur kesamaan tersebut.

Detail

Berdasarkan salah satu komentar Anda:

  • " Tujuannya adalah untuk melihat apakah peringkat kedua kelompok berbeda ", Peter Flom.

Untuk menjawab ini sambil secara ketat menafsirkan tujuannya:

  • saya{1,2,...,25}sayaSebuahsayabsayaSebuahsayasayaSebuahbsayab .
  • Selain itu, jajarannya tidak berbeda.

Tetapi saya tidak berpikir bahwa Anda benar-benar menginginkan interpretasi yang ketat itu . Karena itu, saya pikir apa yang ingin Anda katakan adalah:

  • Sebuahb

Sebuahb .

n13Sebuahb3

Tetapi apakah metode ini cocok? Untuk menjawab ini, mari kita lihat sedikit lebih dalam:

  • Sebuah,b3c,d123Sebuah,bc,dc,d

  • Diasumsikan bahwa biaya setiap pengeditan adalah linier sehubungan dengan jumlah hop. Apakah ini berlaku untuk domain aplikasi kami? Mungkinkah hubungan logistik lebih cocok? Atau yang eksponensial ?

  • 15

Setelah kita membahas poin-poin di atas, dan mencapai ukuran kesamaan yang sesuai antara dua peringkat, kita kemudian perlu mengajukan pertanyaan yang lebih menarik, seperti:

  • Sebuahb
manusia gua
sumber
5

Ini terdengar seperti 'Tes peringkat bertanda Willcoxon' ( tautan wikipedia ). Dengan asumsi bahwa nilai-nilai peringkat Anda berasal dari set yang sama (yaitu[1, 25] ) maka ini adalah uji beda berpasangan (dengan hipotesis nol adalah pasangan ini dipilih secara acak). NB ini skor dis-kesamaan!

Ada keduanya Rdan Pythonimplementasi yang ditautkan ke dalam halaman wiki itu.

danodonovan
sumber
Menarik. Saya belum pernah mendengar tentang perbedaan pasangan Wilcoxon.
Peter Flom - Reinstate Monica
3

Peringatan: ini pertanyaan yang bagus dan saya tidak tahu jawabannya, jadi ini benar-benar lebih dari "apa yang akan saya lakukan jika saya harus":

Dalam masalah ini ada banyak derajat kebebasan dan banyak perbandingan yang bisa dilakukan, tetapi dengan data terbatas itu benar-benar masalah pengumpulan data secara efisien. Jika Anda tidak tahu tes apa yang harus dijalankan, Anda selalu dapat "menciptakan" yang menggunakan permutasi:

Pertama kita mendefinisikan dua fungsi:

  • Fungsi Voting : cara menilai peringkat sehingga kami dapat menggabungkan semua peringkat dari satu kelompok. Misalnya, Anda dapat menetapkan 1 poin ke item berperingkat teratas, dan 0 untuk semua lainnya. Anda akan kehilangan banyak informasi, jadi mungkin lebih baik menggunakan sesuatu seperti: item berperingkat teratas mendapat 1 poin, peringkat kedua 2 poin, dll.

  • Fungsi perbandingan : Cara membandingkan dua skor gabungan antara dua kelompok. Karena keduanya akan menjadi vektor, mengambil norma perbedaan yang sesuai akan berhasil.

Sekarang lakukan hal berikut:

  1. Pertama menghitung statistik uji dengan menghitung skor rata-rata menggunakan fungsi pemungutan suara untuk setiap item di kedua kelompok, ini harus mengarah ke dua vektor ukuran 25.
  2. Kemudian membandingkan dua hasil menggunakan fungsi perbandingan, ini akan menjadi statistik pengujian Anda.

Masalahnya adalah kita tidak tahu distribusi statistik uji di bawah nol bahwa kedua kelompok itu sama. Tetapi jika mereka sama, kita dapat secara acak mengocok pengamatan antar kelompok.

n1

Ulangi proses ini sekitar 1000 kali, dan sekarang gunakan statistik uji permutasi sebagai distribusi nol empiris. Ini akan memungkinkan Anda untuk menghitung nilai p, dan jangan lupa untuk membuat histogram yang bagus dan menggambar garis untuk statistik pengujian Anda seperti:

uji permutasi histogram l1

l1l1 norm and this is the same data with an l2 norm:

histogram permutation test l2

But depending on the setting, I expect there can be a lot of intrinsic randomness and you'll need a fairly large sample size to have a catch-all method work. If you have prior knowledge about specific things you think might be different between the two groups (say specific items), then use that to tailor your two functions. (Of course, the usual do this before you run the test and don't cherry-pick designs till you get something significant applies)

PS shoot me a message if you are interested in my (messy) code. It's a bit too long to add here but I'd be happy to upload it.

Sven
sumber
I really like this idea.
Peter Flom - Reinstate Monica