Latar Belakang. Saya menulis beberapa kode untuk penilaian semi-otomatis, menggunakan penilaian rekan sebagai bagian dari proses penilaian. Siswa diberi pasangan esai sekaligus, dan siswa memiliki bilah geser untuk memilih mana yang lebih baik dan seberapa baik. mis. slider mungkin terlihat seperti ini:
A---X-B
Berdasarkan hasil penilaian sejawat, esai diberi peringkat dan guru kemudian akan menilai X% atas dan X% bawah dan skor untuk semua esai akan dihitung secara otomatis berdasarkan ini. Saya sudah menemukan metode untuk melakukan proses pemeringkatan / penilaian ini; bagian itu berfungsi dengan baik.
Pertanyaan saya. Bagaimana saya harus memilih pasangan esai yang akan diberikan kepada siswa?
Simulasi menyarankan kita perlu esai untuk dinilai sejawat setidaknya 3 kali, untuk mendapatkan peringkat yang akurat. Dengan demikian, setiap esai harus muncul dalam setidaknya 3 dari pasangan yang disajikan untuk penilaian teman sebaya.
Kita dapat menganggap ini sebagai masalah grafik. Pikirkan esai sebagai simpul. Setiap sisi mewakili sepasang esai yang disajikan selama proses penilaian rekan. Hasil akurasi di atas menunjukkan bahwa derajat setiap node (atau sebagian besar node) setidaknya harus 3. Jenis grafik apa yang harus saya gunakan? Bagaimana saya harus menghasilkan grafik untuk digunakan selama penilaian rekan?
Salah satu tantangan adalah bahwa jika Anda memiliki kelompok dalam grafik, ini akan memiringkan peer-grading. Sebagai contoh, kami tidak ingin memiliki esai berkualitas tinggi yang sebagian besar dinilai esai terhadap esai berkualitas tinggi, karena itu akan memengaruhi hasil penilaian rekan.
Apa yang akan kamu rekomendasikan?
Saya pikir masalah ini dapat dimodelkan dengan grafik yang tidak diarahkan menggunakan sesuatu seperti berikut:
- Mulailah dengan mengambil simpul dengan derajat paling rendah dan hubungkan dengan simpul paling bawah
- Lanjutkan sampai tingkat rata-rata Anda minimal 3
- Maksimalkan konektivitas node
- Minimalkan jumlah klik
Apakah ini pendekatan yang baik? Jika tidak, apa yang akan Anda rekomendasikan?
sumber
Jawaban:
Ada dua bagian untuk ini: (a) memilih grafik ( desain eksperimental ) untuk menentukan pasangan esai yang akan dievaluasi siswa dalam proses penilaian teman sebaya, dan (b) memberi peringkat semua esai, berdasarkan nilai teman sejawat siswa, untuk tentukan peringkat guru yang mana. Saya akan menyarankan beberapa metode untuk masing-masing.
Memilih grafik
Pernyataan masalah. Langkah pertama adalah membuat grafik. Dengan kata lain, Anda perlu memilih pasangan esai yang akan ditunjukkan kepada siswa, selama latihan penilaian teman sebaya.
Untungnya, ada algoritma yang dikenal untuk melakukan ini. Pada dasarnya, Anda melakukan hal berikut:
Selanjutnya, uji apakah grafik yang dihasilkan sederhana (yaitu, tidak memiliki loop otomatis dan tidak ada ujung yang berulang). Jika tidak sederhana, buang grafik dan kembali ke langkah 1. Jika sederhana, Anda sudah selesai; Keluarkan grafik ini.
Saya telah melihat pendekatan ini dikreditkan ke Bollobas, Bender, dan Canfield. Pendekatan ini juga diringkas secara singkat di Wikipedia . Anda juga dapat menemukan diskusi di posting blog ini .
Beri peringkat semua esai
Pernyataan masalah. OK, jadi sekarang Anda memiliki grafik, dan Anda telah mempresentasikan pasangan esai ini (seperti yang ditunjukkan oleh tepi dalam grafik) kepada siswa untuk mereka nilai selama latihan penilaian teman sebaya. Anda memiliki hasil dari setiap perbandingan esai. Sekarang tugas Anda adalah menyimpulkan peringkat linear pada semua esai, untuk membantu Anda menentukan mana yang harus dievaluasi oleh guru.
Larutan. Saya menyarankan Anda menggunakan model Bradley-Terry . Ini adalah pendekatan matematika yang memecahkan masalah ini dengan tepat. Itu dirancang untuk pemain peringkat di beberapa olahraga, berdasarkan hasil pertandingan antara beberapa pasangan pemain. Diasumsikan bahwa setiap pemain memiliki kekuatan (tidak diketahui), yang dapat dikuantifikasi sebagai bilangan real, dan probabilitas bahwa Alice mengalahkan Bob ditentukan oleh beberapa fungsi halus dari perbedaan kekuatan mereka. Kemudian, mengingat catatan menang / kalah berpasangan, itu memperkirakan kekuatan masing-masing pemain.
Ini harusnya cocok untuk Anda. Anda dapat memperlakukan setiap esai sebagai pemain. Setiap perbandingan antara dua esai (selama proses penilaian sejawat) seperti hasil dari kecocokan di antara mereka. Model Bradley-Terry akan memungkinkan Anda untuk mengambil semua data itu, dan menyimpulkan kekuatan untuk setiap esai, di mana kekuatan yang lebih tinggi sesuai dengan esai yang lebih baik. Sekarang Anda dapat menggunakan kekuatan-kekuatan itu untuk menyusun urutan semua esai.
Ada beberapa cara alternatif untuk menyimpulkan peringkat atau peringkat untuk semua esai, mengingat data yang Anda miliki. Sebagai contoh, metode Elo adalah metode lain. Saya merangkum beberapa dari mereka dalam jawaban saya untuk pertanyaan yang berbeda ; baca jawaban itu untuk lebih jelasnya.
Satu komentar lain: Model Bradley-Terry mengasumsikan bahwa hasil dari setiap perbandingan antara dua pemain adalah menang atau kalah (yaitu, hasil biner). Namun, sepertinya Anda akan benar-benar memiliki data yang lebih terperinci: slider Anda akan memberikan perkiraan kasar tentang seberapa baik siswa kelas menilai satu esai daripada yang lain. Pendekatan paling sederhana adalah dengan hanya memetakan setiap slider ke hasil biner. Namun, jika Anda benar-benar ingin, Anda mungkin dapat menggunakan semua data, dengan menggunakan analisis yang lebih canggih. Model Bradley-Terry melibatkan melakukan regresi logistik. Jika Anda menggeneralisasi untuk menggunakan logit yang dipesan , saya yakin Anda dapat mengambil keuntungan dari informasi tambahan yang Anda miliki dari setiap slider, mengingat bahwa hasil dari slider tidak biner tetapi merupakan salah satu dari beberapa kemungkinan.
Penggunaan guru yang efisien
Anda menyarankan agar guru secara manual memberi peringkat X% atas dan X% bawah dari semua esai (menggunakan peringkat yang disimpulkan dari hasil penilaian teman sebaya). Ini bisa berhasil, tetapi saya curiga itu bukan penggunaan waktu guru yang paling efisien. Sebaliknya, saya ingin menyarankan pendekatan alternatif.
Saya menyarankan agar Anda memberi nilai kepada guru bagian dari esai, dengan bagian yang dipilih dengan cermat untuk mencoba memberikan kalibrasi terbaik untuk semua esai yang tidak dinilai oleh guru. Untuk ini, saya pikir mungkin akan membantu jika Anda memilih sampel esai yang mencakup berbagai kemungkinan jawaban (jadi untuk setiap esai, ada beberapa esai bertingkat guru yang tidak terlalu jauh dari itu). Untuk ini, saya dapat memikirkan dua pendekatan yang dapat Anda pertimbangkan untuk mencoba:
Saya menduga salah satu dari pendekatan ini mungkin memberikan skor yang lebih akurat daripada meminta guru menilai X% tertinggi dan X% esai terendah - karena esai terbaik dan terburuk mungkin tidak mewakili massa esai di tengah.
Dalam kedua pendekatan, Anda bisa menggunakan fungsi jarak yang lebih canggih yang memperhitungkan tidak hanya perkiraan kekuatan berdasarkan penilaian rekan kerja tetapi juga faktor-faktor lain yang berasal dari esai. Fungsi jarak sesederhana mungkin hanya akan mempertimbangkan hasil dari model Terry-Bradley, yaitu, mana adalah kekuatan dari esai seperti yang diperkirakan oleh model Terry-Bradley berdasarkan hasil gradasi rekan. Namun, Anda dapat melakukan sesuatu yang lebih canggih. Misalnya, Anda dapat menghitung jarak edit Levenshtein yang dinormalisasi antara esai dan s ( e ) e e 1 e 2 kd(e1,e2)=(s(e1)−s(e2))2 s(e) e e1 e2 (memperlakukan mereka sebagai string teks, menghitung jarak edit, dan membaginya dengan panjang yang lebih besar dari keduanya) dan menggunakannya sebagai faktor lain dalam fungsi jarak. Anda juga dapat menghitung vektor fitur menggunakan model bag-of-words pada kata-kata dalam esai, dan menggunakan jarak L2 antara vektor fitur ini (dengan fitur yang dinormalisasi menggunakan tf-idf) sebagai faktor lain dalam fungsi jarak. Anda mungkin menggunakan fungsi jarak yang merupakan rata-rata tertimbang dari perbedaan kekuatan (berdasarkan perkiraan Terry-Bradley), jarak edit yang dinormalisasi, dan hal lain yang tampaknya membantu. A seperti lebih canggih fungsi jarak kekuatan bantuan melakukan pekerjaan yang lebih baik membantu algoritma pengelompokan pilih yang terbaik esai untuk memiliki kelas guru.k
sumber
beberapa ide berdasarkan uraian Anda tentang input dan output yang tidak tepat dan apa yang harus dihitung (mungkin Anda dapat merevisi pertanyaan Anda dengan itu dalam pikiran).
rupanya ini pada dasarnya adalah masalah "panas atau tidak" "facemash" yang berawal dari pendirian Facebook (seperti yang digambarkan dalam film "jejaring sosial"). dalam "gim" asli, pengguna memiliki dua gambar dan memilih di antara perempuan yang lebih menarik. dalam sistem Anda, pilihannya adalah antara dua esai, yang salah satunya lebih baik.
dari near-cyber-folklore ternyata algoritma peringkat Elo yang digunakan dalam sistem penilaian pertandingan catur dapat digunakan untuk menghitung solusi konvergen (dalam hal ini pada dasarnya memperkirakan skor esai yang konsisten dengan grafik preferensi yang diarahkan yang diungkapkan), tetapi belum melihat dengan hati-hati deskripsi / penulisan ini.
Pilihan lain adalah menggunakan Pagerank. yang menghitung perkiraan pengaruh suatu halaman berdasarkan grafik tautan yang diarahkan. preferensi untuk esai analog dengan tautan ke halaman web.
masalahnya juga tampak mirip dengan analisis kutipan di mana makalah ilmiah mengutip makalah lain dan pengaruh makalah diperkirakan. [tapi perhatikan Pagerank juga merupakan algoritma terkemuka di bidang ini.]
[1] mengapa menggunakan peringkat Elo untuk algoritma facemash? stackoverflow
[2] Sistem peringkat Elo , wikipedia
[3] Pagerank , wikipedia
[4] analisis kutipan , wikipedia
sumber