Desain penilaian rekan - memilih grafik, untuk mendapatkan peringkat / peringkat yang akurat

9

Latar Belakang. Saya menulis beberapa kode untuk penilaian semi-otomatis, menggunakan penilaian rekan sebagai bagian dari proses penilaian. Siswa diberi pasangan esai sekaligus, dan siswa memiliki bilah geser untuk memilih mana yang lebih baik dan seberapa baik. mis. slider mungkin terlihat seperti ini:

A---X-B

Berdasarkan hasil penilaian sejawat, esai diberi peringkat dan guru kemudian akan menilai X% atas dan X% bawah dan skor untuk semua esai akan dihitung secara otomatis berdasarkan ini. Saya sudah menemukan metode untuk melakukan proses pemeringkatan / penilaian ini; bagian itu berfungsi dengan baik.

Pertanyaan saya. Bagaimana saya harus memilih pasangan esai yang akan diberikan kepada siswa?

Simulasi menyarankan kita perlu esai untuk dinilai sejawat setidaknya 3 kali, untuk mendapatkan peringkat yang akurat. Dengan demikian, setiap esai harus muncul dalam setidaknya 3 dari pasangan yang disajikan untuk penilaian teman sebaya.

Kita dapat menganggap ini sebagai masalah grafik. Pikirkan esai sebagai simpul. Setiap sisi mewakili sepasang esai yang disajikan selama proses penilaian rekan. Hasil akurasi di atas menunjukkan bahwa derajat setiap node (atau sebagian besar node) setidaknya harus 3. Jenis grafik apa yang harus saya gunakan? Bagaimana saya harus menghasilkan grafik untuk digunakan selama penilaian rekan?

Salah satu tantangan adalah bahwa jika Anda memiliki kelompok dalam grafik, ini akan memiringkan peer-grading. Sebagai contoh, kami tidak ingin memiliki esai berkualitas tinggi yang sebagian besar dinilai esai terhadap esai berkualitas tinggi, karena itu akan memengaruhi hasil penilaian rekan.

Apa yang akan kamu rekomendasikan?

Saya pikir masalah ini dapat dimodelkan dengan grafik yang tidak diarahkan menggunakan sesuatu seperti berikut:

  • Mulailah dengan mengambil simpul dengan derajat paling rendah dan hubungkan dengan simpul paling bawah
  • Lanjutkan sampai tingkat rata-rata Anda minimal 3
  • Maksimalkan konektivitas node
  • Minimalkan jumlah klik

Apakah ini pendekatan yang baik? Jika tidak, apa yang akan Anda rekomendasikan?

ismail
sumber
Ini mungkin aplikasi yang menarik untuk ekspander . Sudahkah Anda mencoba mengatur penugasan di expander?
Shaull
ide Anda tentang tepian tampaknya setengah benar. ujung-ujungnya hanya menunjukkan perbandingan terjadi, bukan hasil perbandingan. jadi hanya ada / tidak adanya edge tidak mengkodekan banyak informasi, hanya perbandingan yang terjadi. cara alami untuk menangani masalah melibatkan tepi tertimbang / terarah di mana arah misalnya menuju disukai ... tampaknya mirip dengan masalah aliran ... Anda mengatakan "slider", apakah itu multivalued? atau biner? "slider" terdengar multinilai bagi saya, seperti peringkat.
vzn
Bisakah Anda menjelaskan apa pertanyaan Anda? Apakah Anda bertanya tentang cara memilih grafik? Atau apakah Anda bertanya tentang, diberi grafik dan satu set peringkat untuk setiap sisi, bagaimana peringkat semua esai? Yang pertama berada di bawah kategori umum "desain eksperimental" (dan jawaban saya mengatasinya); yang terakhir, di bawah kategori umum "analisis data" (dan baik jawaban saya maupun jawaban vzn memberikan beberapa sumber daya yang bermanfaat untuk itu).
DW
Sebenarnya kami telah menyusun peringkat dan skor, tetapi akan mencoba pendekatan di bawah ini.
ismail
dalam beberapa analisis masalah yang sama, kata "peringkat" dan "penilaian" dapat dipertukarkan. sekarang muncul dari ulasan & pengeditan lebih lanjut, di sistem Anda, Anda menyebut "peringkat" sebagai estimasi peringkat berdasarkan komputer berdasarkan data perbandingan, dan "penilaian" sebagai keputusan subyektif berbasis manusia pada kualitas esai (juga biasanya disebut "grading") yang mengikuti proses pemeringkatan. & Anda terutama tertarik untuk mendistribusikan pasangan perbandingan ...
vzn

Jawaban:

7

Ada dua bagian untuk ini: (a) memilih grafik ( desain eksperimental ) untuk menentukan pasangan esai yang akan dievaluasi siswa dalam proses penilaian teman sebaya, dan (b) memberi peringkat semua esai, berdasarkan nilai teman sejawat siswa, untuk tentukan peringkat guru yang mana. Saya akan menyarankan beberapa metode untuk masing-masing.

Memilih grafik

Pernyataan masalah. Langkah pertama adalah membuat grafik. Dengan kata lain, Anda perlu memilih pasangan esai yang akan ditunjukkan kepada siswa, selama latihan penilaian teman sebaya.

G

d

n

Untungnya, ada algoritma yang dikenal untuk melakukan ini. Pada dasarnya, Anda melakukan hal berikut:

  1. 3nn3n3n

  2. n

  3. Selanjutnya, uji apakah grafik yang dihasilkan sederhana (yaitu, tidak memiliki loop otomatis dan tidak ada ujung yang berulang). Jika tidak sederhana, buang grafik dan kembali ke langkah 1. Jika sederhana, Anda sudah selesai; Keluarkan grafik ini.

O(1)

Saya telah melihat pendekatan ini dikreditkan ke Bollobas, Bender, dan Canfield. Pendekatan ini juga diringkas secara singkat di Wikipedia . Anda juga dapat menemukan diskusi di posting blog ini .

nnn

Beri peringkat semua esai

Pernyataan masalah. OK, jadi sekarang Anda memiliki grafik, dan Anda telah mempresentasikan pasangan esai ini (seperti yang ditunjukkan oleh tepi dalam grafik) kepada siswa untuk mereka nilai selama latihan penilaian teman sebaya. Anda memiliki hasil dari setiap perbandingan esai. Sekarang tugas Anda adalah menyimpulkan peringkat linear pada semua esai, untuk membantu Anda menentukan mana yang harus dievaluasi oleh guru.

Larutan. Saya menyarankan Anda menggunakan model Bradley-Terry . Ini adalah pendekatan matematika yang memecahkan masalah ini dengan tepat. Itu dirancang untuk pemain peringkat di beberapa olahraga, berdasarkan hasil pertandingan antara beberapa pasangan pemain. Diasumsikan bahwa setiap pemain memiliki kekuatan (tidak diketahui), yang dapat dikuantifikasi sebagai bilangan real, dan probabilitas bahwa Alice mengalahkan Bob ditentukan oleh beberapa fungsi halus dari perbedaan kekuatan mereka. Kemudian, mengingat catatan menang / kalah berpasangan, itu memperkirakan kekuatan masing-masing pemain.

Ini harusnya cocok untuk Anda. Anda dapat memperlakukan setiap esai sebagai pemain. Setiap perbandingan antara dua esai (selama proses penilaian sejawat) seperti hasil dari kecocokan di antara mereka. Model Bradley-Terry akan memungkinkan Anda untuk mengambil semua data itu, dan menyimpulkan kekuatan untuk setiap esai, di mana kekuatan yang lebih tinggi sesuai dengan esai yang lebih baik. Sekarang Anda dapat menggunakan kekuatan-kekuatan itu untuk menyusun urutan semua esai.

ij

Ada beberapa cara alternatif untuk menyimpulkan peringkat atau peringkat untuk semua esai, mengingat data yang Anda miliki. Sebagai contoh, metode Elo adalah metode lain. Saya merangkum beberapa dari mereka dalam jawaban saya untuk pertanyaan yang berbeda ; baca jawaban itu untuk lebih jelasnya.

Satu komentar lain: Model Bradley-Terry mengasumsikan bahwa hasil dari setiap perbandingan antara dua pemain adalah menang atau kalah (yaitu, hasil biner). Namun, sepertinya Anda akan benar-benar memiliki data yang lebih terperinci: slider Anda akan memberikan perkiraan kasar tentang seberapa baik siswa kelas menilai satu esai daripada yang lain. Pendekatan paling sederhana adalah dengan hanya memetakan setiap slider ke hasil biner. Namun, jika Anda benar-benar ingin, Anda mungkin dapat menggunakan semua data, dengan menggunakan analisis yang lebih canggih. Model Bradley-Terry melibatkan melakukan regresi logistik. Jika Anda menggeneralisasi untuk menggunakan logit yang dipesan , saya yakin Anda dapat mengambil keuntungan dari informasi tambahan yang Anda miliki dari setiap slider, mengingat bahwa hasil dari slider tidak biner tetapi merupakan salah satu dari beberapa kemungkinan.

Penggunaan guru yang efisien

Anda menyarankan agar guru secara manual memberi peringkat X% atas dan X% bawah dari semua esai (menggunakan peringkat yang disimpulkan dari hasil penilaian teman sebaya). Ini bisa berhasil, tetapi saya curiga itu bukan penggunaan waktu guru yang paling efisien. Sebaliknya, saya ingin menyarankan pendekatan alternatif.

Saya menyarankan agar Anda memberi nilai kepada guru bagian dari esai, dengan bagian yang dipilih dengan cermat untuk mencoba memberikan kalibrasi terbaik untuk semua esai yang tidak dinilai oleh guru. Untuk ini, saya pikir mungkin akan membantu jika Anda memilih sampel esai yang mencakup berbagai kemungkinan jawaban (jadi untuk setiap esai, ada beberapa esai bertingkat guru yang tidak terlalu jauh dari itu). Untuk ini, saya dapat memikirkan dua pendekatan yang dapat Anda pertimbangkan untuk mencoba:

  • nkkk

  • kd(ei,ej)eiejSd(e,S)=mineSd(e,e)menjadi jarak dari ke esai terdekat di . Algoritma pertama titik terjauh menghitung daftar esai , , sebagai berikut: adalah esai yang memaksimalkan (dari semua esai sehingga ). Algoritma ini menghasilkan satu set esai yang mungkin berbeda satu sama lain - yang berarti bahwa masing-masing esai yang tersisa cukup mirip dengan setidaknya salah satu dari mereka . Oleh karena itu, masuk akal untuk meminta guru memberi nilaieSke1,e2,,ekei+1d(e,{e1,e2,,ei})ek k ke{e1,e2,,ei}kkk esai dipilih oleh algoritma FPF.

Saya menduga salah satu dari pendekatan ini mungkin memberikan skor yang lebih akurat daripada meminta guru menilai X% tertinggi dan X% esai terendah - karena esai terbaik dan terburuk mungkin tidak mewakili massa esai di tengah.

Dalam kedua pendekatan, Anda bisa menggunakan fungsi jarak yang lebih canggih yang memperhitungkan tidak hanya perkiraan kekuatan berdasarkan penilaian rekan kerja tetapi juga faktor-faktor lain yang berasal dari esai. Fungsi jarak sesederhana mungkin hanya akan mempertimbangkan hasil dari model Terry-Bradley, yaitu, mana adalah kekuatan dari esai seperti yang diperkirakan oleh model Terry-Bradley berdasarkan hasil gradasi rekan. Namun, Anda dapat melakukan sesuatu yang lebih canggih. Misalnya, Anda dapat menghitung jarak edit Levenshtein yang dinormalisasi antara esai dan s ( e ) e e 1 e 2 kd(e1,e2)=(s(e1)s(e2))2s(e)ee1e2(memperlakukan mereka sebagai string teks, menghitung jarak edit, dan membaginya dengan panjang yang lebih besar dari keduanya) dan menggunakannya sebagai faktor lain dalam fungsi jarak. Anda juga dapat menghitung vektor fitur menggunakan model bag-of-words pada kata-kata dalam esai, dan menggunakan jarak L2 antara vektor fitur ini (dengan fitur yang dinormalisasi menggunakan tf-idf) sebagai faktor lain dalam fungsi jarak. Anda mungkin menggunakan fungsi jarak yang merupakan rata-rata tertimbang dari perbedaan kekuatan (berdasarkan perkiraan Terry-Bradley), jarak edit yang dinormalisasi, dan hal lain yang tampaknya membantu. A seperti lebih canggih fungsi jarak kekuatan bantuan melakukan pekerjaan yang lebih baik membantu algoritma pengelompokan pilih yang terbaik esai untuk memiliki kelas guru.k

DW
sumber
sulit untuk mengikuti relatif terhadap pernyataan masalah asli. apakah Anda menyelesaikan masalah dengan mendistribusikan secara merata?
vzn
2
@ vz, saya sudah mengedit jawaban saya untuk mengklarifikasi. Pertanyaannya tampaknya bertanya tentang bagaimana memilih grafik, yaitu, pasang esai mana yang diminta siswa untuk dibandingkan selama penilaian teman sebaya. Bagian pertama dari jawaban saya memberikan solusi untuk pertanyaan itu. Bagian kedua dari jawaban saya menjelaskan bagaimana menggunakan hasil penilaian teman sebaya untuk menyusun urutan semua esai, untuk membantu guru memilih esai mana yang akan dinilai.
DW
0

beberapa ide berdasarkan uraian Anda tentang input dan output yang tidak tepat dan apa yang harus dihitung (mungkin Anda dapat merevisi pertanyaan Anda dengan itu dalam pikiran).

rupanya ini pada dasarnya adalah masalah "panas atau tidak" "facemash" yang berawal dari pendirian Facebook (seperti yang digambarkan dalam film "jejaring sosial"). dalam "gim" asli, pengguna memiliki dua gambar dan memilih di antara perempuan yang lebih menarik. dalam sistem Anda, pilihannya adalah antara dua esai, yang salah satunya lebih baik.

dari near-cyber-folklore ternyata algoritma peringkat Elo yang digunakan dalam sistem penilaian pertandingan catur dapat digunakan untuk menghitung solusi konvergen (dalam hal ini pada dasarnya memperkirakan skor esai yang konsisten dengan grafik preferensi yang diarahkan yang diungkapkan), tetapi belum melihat dengan hati-hati deskripsi / penulisan ini.

Pilihan lain adalah menggunakan Pagerank. yang menghitung perkiraan pengaruh suatu halaman berdasarkan grafik tautan yang diarahkan. preferensi untuk esai analog dengan tautan ke halaman web.

masalahnya juga tampak mirip dengan analisis kutipan di mana makalah ilmiah mengutip makalah lain dan pengaruh makalah diperkirakan. [tapi perhatikan Pagerank juga merupakan algoritma terkemuka di bidang ini.]

[1] mengapa menggunakan peringkat Elo untuk algoritma facemash? stackoverflow

[2] Sistem peringkat Elo , wikipedia

[3] Pagerank , wikipedia

[4] analisis kutipan , wikipedia

vzn
sumber
sketsa cara menerapkan Elo: pertandingan game seperti perbandingan esai. esai memiliki skor dan esai penilaian yang lebih tinggi harus memenangkan lebih banyak pertandingan. algoritma menghitung skor yang paling konsisten dengan semua kecocokan.
vzn
perhatikan gagasan kutipan cenderung mengasumsikan bahwa semua perbandingan agak merata di semua esai jika tidak, jika satu esai lebih banyak perbandingan mungkin meningkatkan kesukaan relatifnya. jadi bagian dari pendekatan itu juga menyeimbangkan perbandingan, yang tampaknya Anda
rujuk