Sekitar 600 siswa memiliki skor pada penilaian yang luas, yang dapat dianggap memiliki keandalan / validitas yang baik. Penilaian dinilai dari 100, dan ini merupakan tes pilihan ganda yang ditandai oleh komputer.
Ke-600 siswa itu juga mendapat nilai pada penilaian kedua, minor,. Dalam penilaian kedua ini, mereka dipisahkan menjadi 11 kohort dengan 11 siswa kelas yang berbeda, dan terdapat variasi variasi yang tidak dapat dihindari antara siswa kelas dalam hal 'kedermawanan' mereka dalam memberi tanda, atau kekurangannya. Penilaian kedua ini juga mendapat skor 100.
Siswa tidak ditugaskan untuk kohort secara acak, dan ada alasan bagus untuk mengharapkan perbedaan tingkat keterampilan antara kohort.
Saya diberi tugas untuk memastikan bahwa perbedaan antara penanda kohort pada tugas kedua tidak secara material menguntungkan / merugikan siswa secara individual.
Ide saya adalah untuk mendapatkan skor kohort pada penilaian kedua untuk menyatu dengan skor kohort pada yang pertama, sambil mempertahankan perbedaan individu dalam kohort. Kita harus berasumsi bahwa saya memiliki alasan kuat untuk meyakini bahwa kinerja pada dua tugas akan sangat berkorelasi, tetapi bahwa penanda sangat berbeda dalam kemurahan hati mereka.
Apakah ini pendekatan terbaik? Jika tidak, apa itu?
Akan sangat dihargai jika penjawab dapat memberikan beberapa tips praktis tentang bagaimana menerapkan solusi yang baik, katakan dalam R atau SPSS atau Excel.
sumber
Jawaban:
Mengetahui bagaimana siswa kelas berbeda baik, tapi masih tidak memberitahu Anda apa yang harus mengkompensasi nilai untuk . Untuk kesederhanaan bayangkan hanya dua siswa kelas. Sekalipun kita menyimpulkan bahwa siswa kelas 1 secara konsisten 5 nilai lebih murah daripada siswa kelas 2, itu tidak memberi tahu Anda apa yang harus dilakukan dengan dua siswa yang masing-masing dinilai 70, satu per kelas 1 dan satu per kelas 2. Kita katakan bahwa siswa kelas 2 adalah penanda yang keras, dan menaikkan 70 ke 75, sambil mempertahankan 70 yang ditandai oleh siswa kelas 1 tidak berubah? Atau apakah kita menganggap siswa kelas 1 terlalu lunak, menjatuhkan muridnya menjadi 65, dan mempertahankan nilai siswa kelas 2 70 tidak berubah? Apakah kita berkompromi di tengah jalan antara - memperluas ke kasus Anda, berdasarkan rata-rata dari 11 siswa kelas? Nilai absolutlah yang penting, jadi mengetahui kedermawanan relatif tidak cukup.
Kesimpulan Anda mungkin bergantung pada seberapa "objektif" Anda merasakan tanda absolut final seharusnya. Satu model mental adalah mengusulkan setiap siswa memiliki nilai "benar" - nilai yang akan diberikan oleh Penilai Utama jika mereka punya waktu untuk menandai setiap kertas secara individual - yang nilai yang diamati adalah perkiraan. Dalam model ini, nilai yang diamati perlu dikompensasi untuk kelas mereka, untuk membawa mereka sedekat mungkin ke kelas "benar" yang tidak teramati. Model lain mungkin bahwa semua penilaian bersifat subyektif, dan kami berusaha untuk mengubah setiap nilai yang diamati ke nilai yang kami perkirakan akan diberikan jika semua siswa menilai kertas yang sama dan mencapai semacam kompromi atau nilai rata-rata untuknya. Saya menemukan model kedua kurang meyakinkan sebagai solusi bahkan jika pengakuan subjektivitas lebih realistis. Dalam lingkungan pendidikan biasanya ada seseorang yang memikul tanggung jawab utama untuk penilaian, untuk memastikan bahwa siswa menerima "nilai yang pantas mereka dapatkan", tetapi peran utama ini pada dasarnya membebaskan tanggung jawab kepada siswa kelas yang sudah kita kenal sangat tidak setuju. Dari sini saya berasumsi di sanaadalah satu nilai "benar" yang kami perkirakan untuk ditaksir, tetapi ini adalah proposisi yang dapat diperebutkan dan mungkin tidak sesuai dengan keadaan Anda.
Misalkan siswa A, B, C dan D, semuanya dalam kohort yang sama, "harus" dinilai masing-masing 75, 80, 85 dan 90 tetapi siswa mereka yang murah hati secara konsisten menandai 5 nilai terlalu tinggi. Kami mengamati 80, 85, 90 dan 95 dan harus mengurangi 5, tetapi menemukan angka untuk mengurangi itu bermasalah. Itu tidak dapat dilakukan dengan membandingkan hasil antara kohort karena kami berharap kohort bervariasi dalam kemampuan rata-rata. Salah satu kemungkinan adalah menggunakan hasil tes pilihan ganda untuk memprediksi skor yang benar pada tugas kedua, kemudian gunakan ini untuk menilai variasi antara setiap kelas dan nilai yang benar. Tetapi membuat prediksi ini tidak sepele - jika Anda mengharapkan perbedaan mean dan standar deviasi antara kedua penilaian, Anda tidak bisa hanya berasumsi bahwa nilai penilaian kedua harus cocok dengan yang pertama.
Juga, siswa berbeda dalam bakat relatif pada penilaian pilihan ganda dan tertulis. Anda bisa memperlakukan itu sebagai semacam efek acak, membentuk komponen nilai "diamati" dan "benar" siswa, tetapi tidak ditangkap oleh nilai "prediksi" mereka. Jika kohort berbeda secara sistematis dan siswa dalam kohort cenderung serupa, maka kita seharusnya tidak mengharapkan efek ini rata-rata menjadi nol dalam setiap kohort. Jika sebuah kohort mengamati nilai rata-rata +5 versus yang diprediksi, tidak mungkinuntuk menentukan apakah ini disebabkan oleh seorang siswa kelas yang murah hati, suatu kelompok yang secara khusus lebih cocok untuk penilaian tertulis daripada pilihan ganda, atau kombinasi keduanya. Dalam kasus yang ekstrim, kohort bahkan mungkin memiliki bakat yang lebih rendah pada penilaian kedua tetapi memiliki ini lebih dari dikompensasi oleh siswa kelas yang sangat murah hati - atau sebaliknya. Anda tidak dapat memisahkan ini. Itu membingungkan.
Saya juga meragukan kecukupan model aditif sederhana untuk data Anda. Grader mungkin berbeda dari Lead Assessor tidak hanya berdasarkan pergeseran lokasi, tetapi juga penyebaran - meskipun karena kohort cenderung berbeda dalam homogenitas, Anda tidak bisa hanya memeriksa penyebaran nilai yang diamati di setiap kohort untuk mendeteksi hal ini. Selain itu, sebagian besar distribusi memiliki skor tinggi, cukup dekat maksimum teoretis 100. Saya mengantisipasi ini memperkenalkan non-linearitas karena kompresi mendekati maksimum - grader yang sangat murah hati dapat memberikan tanda A, B, C dan D seperti 85, 90, 94, 97. Ini lebih sulit untuk dibalikkan daripada hanya mengurangkan konstanta. Lebih buruk lagi, Anda mungkin melihat "kliping" - siswa kelas yang sangat dermawan dapat menilai mereka sebagai 90, 95, 100, 100. Ini tidak mungkinuntuk membalikkan, dan informasi tentang kinerja relatif C dan D hilang secara tak terpulihkan.
Siswa kelas Anda berperilaku sangat berbeda. Apakah Anda yakin mereka berbeda hanya dalam kemurahan hati mereka secara keseluruhan, daripada dalam kemurahan hati mereka dalam berbagai komponen penilaian? Ini mungkin layak untuk diperiksa, karena dapat menimbulkan berbagai komplikasi - misalnya tingkat yang diamati untuk B mungkin lebih buruk daripada A, meskipun B menjadi 5 poin "lebih baik", bahkan jika tanda yang dialokasikan grader untuk setiap komponen adalah fungsi yang meningkat secara monoton dari Assessor Utama! Misalkan penilaian dibagi antara Q1 (A harus skor 30/50, B 45/50) dan Q2 (A harus skor 45/50, B 35/50). Bayangkan gradernya sangat lunak pada Q1 (nilai yang diamati: A 40/50, B 50/50) tetapi keras pada Q2 (diamati: A 42/50, 30/50), maka kita amati total 82 untuk A dan 80 untuk B. Jika Anda harus mempertimbangkan skor komponen,
Bisa dibilang ini adalah komentar yang diperluas daripada jawaban, dalam arti itu tidak mengusulkan solusi tertentu dalam batas-batas asli masalah Anda. Tetapi jika siswa Anda sudah menangani masing-masing sekitar 55 makalah, apakah sangat buruk bagi mereka untuk melihat lima atau sepuluh lagi untuk tujuan kalibrasi? Anda sudah memiliki gagasan yang bagus tentang kemampuan siswa, sehingga dapat memilih sampel kertas dari berbagai kelas. Anda kemudian dapat menilai apakah Anda perlu mengkompensasi kemurahan hati grader di seluruh tes atau di setiap komponen, dan apakah akan melakukannya hanya dengan menambahkan / mengurangi konstanta atau dengan sesuatu yang lebih canggih seperti interpolasi (misalnya jika Anda khawatir tentang non- linearitas mendekati 100). Tapi satu kata peringatan tentang interpolasi: misalkan Penilai Utama menandai lima makalah sampel sebagai 70, 75, 80, 85 dan 90, sementara grader menandai mereka sebagai 80, 88, 84, 93 dan 96 sehingga ada beberapa ketidaksepakatan tentang ketertiban. Anda mungkin ingin memetakan nilai yang diamati dari 96 hingga 100 ke interval 90 hingga 100, dan nilai yang diamati dari 93 hingga 96 ke interval 85 hingga 90. Tetapi beberapa pemikiran diperlukan untuk tanda di bawahnya. Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati". Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati". Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati".
sumber
Model yang sangat sederhana:
Setiap kelompok bias oleh kekuatan siswa dan kemudahan siswa. Dengan asumsi ini adalah efek aditif, kami mundur dengan cara berikut: kami akan mengurangi skor rata-rata kohort pada tes pertama, dan menambahkan skor rata-rata kohort pada tes kedua.
Kelemahannya adalah bahwa seorang siswa dapat dihukum jika orang-orang dalam kelompoknya kebetulan beruntung pada tes kedua. Tetapi teknik statistik apa pun akan membawa potensi penurunan yang tidak adil ini.
sumber
Kamu tidak bisa Setidaknya, bukan tanpa mengumpulkan data tambahan. Untuk mengetahui alasannya, baca banyak komentar terunggah di @ whuber di sepanjang utas ini.
sumber
Edit
Masalah yang dipecahkan dalam jawaban ini adalah menemukan siswa kelas yang kurang memberikan poin kepada siswa yang tidak mereka sukai.
Pos asli
Pendekatan saya, yang menurut saya mudah diimplementasikan, adalah sebagai berikut:
1
Asumsikan model
2
Dan lakukan 11 estimasi individuG dan σ
3
Sekarang pengamatan yang tidak biasa adalah sedemikian rupa sehingga jumlahnya
Catatan
Semuae Diasumsikan sebagai Gaussian. Nilai tidak terdistribusi secara normal sehingga pedoman ukuranT sulit untuk diberikan.
Kode-R
Di bawah ini adalah kode dalam R. Perhatikan bahwa dalam kasus Anda, baik mu dan y akan diberikan sehingga baris yang menghasilkan ketika mereka ditugaskan rnorm-angka harus diabaikan. Saya memasukkan mereka untuk dapat mengevaluasi naskah tanpa data.
sumber
Mengulang masalah: Cara terbaik untuk mendekati menetapkan tanda dua bagian ujian dengan ketentuan yang mengharuskan bagian kedua terkena ketidakpastian yang lebih besar karena berbagai penilaian kualitatif Penanda Delegasi.
Di mana: Master Tester = orang yang bertanggung jawab untuk ujian Delegated Tester = orang (1 dari 11) yang ditugaskan untuk menandai par # 2 dari ujian Siswa = pria yang bersenang-senang duduk ujian
Sasaran meliputi: A) Siswa menerima tanda yang mencerminkan pekerjaan mereka B) Mengelola ketidakpastian bagian kedua untuk menyelaraskan dengan maksud Master Tester
Pendekatan yang disarankan (jawaban): 1. Master Tester secara acak memilih satu set sampel yang representatif dari ujian, menandai bagian # 2 dan mengembangkan korelasi dengan bagian # 1 2. Memanfaatkan korelasi untuk menilai semua data Penanda Delegasi (Bagian # 1 vs skor # 2) 3. Di mana korelasi secara signifikan berbeda dari Master Tester - signifikansi yang dapat diterima oleh Master Tester - periksa ujian sebagai Master Tester untuk menetapkan kembali hasilnya.
Pendekatan ini memastikan bahwa Master Tester bertanggung jawab atas korelasi dan signifikansi yang dapat diterima. Korelasi dapat sesederhana skor untuk bagian # 1 vs # 2 atau skor relatif untuk pertanyaan tes # 1 vs # 2.
Master Tester juga akan dapat menetapkan kualitas hasil untuk Bagian # 2 berdasarkan "karet-ness" dari korelasi.
sumber