Misalkan dua kelompok, terdiri dari dan masing-masing peringkat satu set 25 item dari yang paling penting sampai yang paling tidak penting. Apa cara terbaik untuk membandingkan peringkat ini?
Jelas, dimungkinkan untuk melakukan 25 tes Mann-Whitney U, tetapi ini akan menghasilkan 25 hasil tes untuk ditafsirkan, yang mungkin terlalu banyak (dan, dalam penggunaan yang ketat, memunculkan pertanyaan dari beberapa perbandingan). Juga tidak sepenuhnya jelas bagi saya bahwa peringkat memenuhi semua asumsi tes ini.
Saya juga akan tertarik pada pointer ke literatur tentang rating vs peringkat.
Beberapa konteks: 25 item ini semuanya berhubungan dengan pendidikan dan kedua kelompok adalah tipe pendidik yang berbeda. Kedua kelompok itu kecil.
EDIT sebagai respons terhadap @ttnphns:
Saya tidak bermaksud membandingkan peringkat total item dalam grup 1 dengan grup 2 - itu akan menjadi konstan, seperti yang ditunjukkan oleh @ttnphns. Tetapi peringkat di grup 1 dan grup 2 akan berbeda; yaitu, grup 1 dapat memberi peringkat item 1 lebih tinggi dari grup 2.
Saya dapat membandingkan mereka, item demi item, mendapatkan rerata atau median peringkat setiap item dan melakukan 25 tes, tetapi saya bertanya-tanya apakah ada cara yang lebih baik untuk melakukan ini.
sumber
the best ways to compare these rankings
- apa jenis perbedaan dengan 2 kelompok yang ingin Anda ketahui?Jawaban:
Ringkasan
Saya membagikan pemikiran saya di bagian Detail . Saya pikir mereka berguna dalam mengidentifikasi apa yang benar-benar ingin kita capai.
Saya pikir bahwa masalah utama di sini adalah bahwa Anda belum mendefinisikan apa arti kesamaan peringkat. Oleh karena itu, tidak ada yang tahu metode pengukuran perbedaan antara peringkat yang lebih baik.
Secara efektif, ini membuat kita secara ambigu memilih metode berdasarkan dugaan.
Apa yang saya benar-benar sarankan adalah pertama mendefinisikan tujuan optimasi matematis. Hanya dengan begitu kita akan yakin apakah kita benar-benar tahu apa yang kita inginkan.
Kecuali kita melakukan itu, benar-benar tidak tahu apa yang kita inginkan. Kita mungkin hampir tahu apa yang kita inginkan, tetapi hampir tahu mengetahui .≠
Teks saya di Detail pada dasarnya adalah langkah menuju mencapai definisi matematis kesamaan peringkat . Setelah kami mengatasi hal ini, kami dapat dengan percaya diri bergerak maju untuk memilih metode terbaik untuk mengukur kesamaan tersebut.
Detail
Berdasarkan salah satu komentar Anda:
Untuk menjawab ini sambil secara ketat menafsirkan tujuannya:
Tetapi saya tidak berpikir bahwa Anda benar-benar menginginkan interpretasi yang ketat itu . Karena itu, saya pikir apa yang ingin Anda katakan adalah:
Tetapi apakah metode ini cocok? Untuk menjawab ini, mari kita lihat sedikit lebih dalam:
Diasumsikan bahwa biaya setiap pengeditan adalah linier sehubungan dengan jumlah hop. Apakah ini berlaku untuk domain aplikasi kami? Mungkinkah hubungan logistik lebih cocok? Atau yang eksponensial ?
Setelah kita membahas poin-poin di atas, dan mencapai ukuran kesamaan yang sesuai antara dua peringkat, kita kemudian perlu mengajukan pertanyaan yang lebih menarik, seperti:
sumber
Ini terdengar seperti 'Tes peringkat bertanda Willcoxon' ( tautan wikipedia ). Dengan asumsi bahwa nilai-nilai peringkat Anda berasal dari set yang sama (yaitu
[1, 25]
) maka ini adalah uji beda berpasangan (dengan hipotesis nol adalah pasangan ini dipilih secara acak). NB ini skor dis-kesamaan!Ada keduanya
R
danPython
implementasi yang ditautkan ke dalam halaman wiki itu.sumber
Peringatan: ini pertanyaan yang bagus dan saya tidak tahu jawabannya, jadi ini benar-benar lebih dari "apa yang akan saya lakukan jika saya harus":
Dalam masalah ini ada banyak derajat kebebasan dan banyak perbandingan yang bisa dilakukan, tetapi dengan data terbatas itu benar-benar masalah pengumpulan data secara efisien. Jika Anda tidak tahu tes apa yang harus dijalankan, Anda selalu dapat "menciptakan" yang menggunakan permutasi:
Pertama kita mendefinisikan dua fungsi:
Fungsi Voting : cara menilai peringkat sehingga kami dapat menggabungkan semua peringkat dari satu kelompok. Misalnya, Anda dapat menetapkan 1 poin ke item berperingkat teratas, dan 0 untuk semua lainnya. Anda akan kehilangan banyak informasi, jadi mungkin lebih baik menggunakan sesuatu seperti: item berperingkat teratas mendapat 1 poin, peringkat kedua 2 poin, dll.
Fungsi perbandingan : Cara membandingkan dua skor gabungan antara dua kelompok. Karena keduanya akan menjadi vektor, mengambil norma perbedaan yang sesuai akan berhasil.
Sekarang lakukan hal berikut:
Masalahnya adalah kita tidak tahu distribusi statistik uji di bawah nol bahwa kedua kelompok itu sama. Tetapi jika mereka sama, kita dapat secara acak mengocok pengamatan antar kelompok.
Ulangi proses ini sekitar 1000 kali, dan sekarang gunakan statistik uji permutasi sebagai distribusi nol empiris. Ini akan memungkinkan Anda untuk menghitung nilai p, dan jangan lupa untuk membuat histogram yang bagus dan menggambar garis untuk statistik pengujian Anda seperti:
But depending on the setting, I expect there can be a lot of intrinsic randomness and you'll need a fairly large sample size to have a catch-all method work. If you have prior knowledge about specific things you think might be different between the two groups (say specific items), then use that to tailor your two functions. (Of course, the usual do this before you run the test and don't cherry-pick designs till you get something significant applies)
PS shoot me a message if you are interested in my (messy) code. It's a bit too long to add here but I'd be happy to upload it.
sumber