mendeteksi plagiarisme pada tes pilihan ganda

8

Misalkan invigilator mencurigai satu siswa menyalin jawaban dari kertas siswa lain selama ujian pilihan ganda. Dia kemudian memeriksa jawaban mereka dan menemukan beberapa kesamaan — tetapi di sisi lain, pasti ada kesamaan karena sifat ujian. Bagaimana seharusnya dia menentukan apakah kecurigaannya terbukti?

Dengan kata lain, dia pasti harus membandingkan ujian dengan ujian siswa lain (yang, mari kita asumsikan, tidak selingkuh). Tetapi jika ukuran kelas sangat besar, apakah masuk akal untuk mengambil sampel acak untuk perbandingan? Berapa banyak yang akan dia ambil? Jika ada banyak pertanyaan pada ujian, apakah masuk akal untuk mengambil sampel pertanyaan untuk perbandingan? Apakah itu membuat perbedaan yang signifikan apakah setiap pertanyaan memiliki 2 kemungkinan jawaban (benar / salah) atau, katakanlah, 4?

Saya tidak memiliki nomor tertentu karena saya ingin tahu bagaimana ini akan bekerja secara umum. Saya memiliki latar belakang matematika tetapi sedikit pelatihan dalam statistik. Bagaimana Anda menggambarkan analisis ini dalam istilah statistik?

Terima kasih.

Théophile
sumber
1
Saya merasa Anda harus membuat asumsi di sini bahwa baik penipu maupun penipu tidak memiliki jawaban yang benar mayoritas. Misalnya, jika keduanya mendapat jawaban yang benar di sekitar, Anda tidak dapat membuktikan apa pun. Tapi katakanlah mereka berdua mendapat jawaban yang salah yang sama di sekitar, mungkin ada kemungkinan kecurangan yang sangat tinggi. Saya pikir Anda harus berkonsentrasi pada jawaban yang salah untuk melakukan pengukuran ini.
Spacey
Saya akan berpikir bahwa Anda mungkin ingin selektif dan memilih pertanyaan yang kemungkinan besar akan disalin. Mereka mungkin akan menjadi orang-orang yang tampaknya paling sulit. Tetapi ada juga kemungkinan bahwa orang yang menyontek hanya memilih pertanyaan yang mencakup topik yang tidak dia pelajari dan itu akan sulit untuk dilihat. Tetapi memiliki jawaban yang sama pada pertanyaan mudah benar-benar tidak akan memberi tahu Anda apa pun karena kedua belah pihak akan tahu jawaban yang benar.
Michael R. Chernick
2
Tidak mengherankan, banyak orang telah melihat deteksi kecurangan di masa lalu, termasuk Steven Levitt, penulis Freakonomics. Jika Anda ingin mengetahui apakah seseorang menipu dari jawaban sendiri, jangan berikan tes pilihan ganda, dan proctor ujian sendiri. Anda mungkin dapat menolak hipotesis bahwa pekerjaan siswa tidak berhubungan, tetapi Anda akan mengalami kesulitan untuk membuktikan bahwa mereka tidak hanya belajar bersama. Apakah Anda memiliki tabel tempat duduk dan apakah Anda memverifikasi ID siswa, bahwa mereka duduk sesuai dengan tabel tempat duduk? Bisakah Anda menguji kembali para siswa?
Douglas Zare
1
Mengambil sampel pertanyaan tampak seperti ide yang buruk karena Anda dapat dengan mudah menganalisis semua pertanyaan, dan Anda akan kehilangan indikator penyalinan seperti serangkaian jawaban yang diimbangi oleh 1 dari jawaban yang benar. Misalnya, jawaban yang benar adalah 30) A 31) B 32) C 33) D 34) E dan satu siswa memiliki 30) A 31) B 32) C 33) D 34) B, dan yang lain memiliki 30) B 31) C 32) D 33) B. Jika jawaban ini adalah jawaban yang salah sangat tidak populer, maka mereka cocok dengan model yang siswa kedua salin pertama, dan membuat kesalahan kelalaian. Sulit, meskipun mungkin, untuk menjelaskan jawaban ini tanpa menyalin.
Douglas Zare
1
Dengan perangkat lunak saat ini, relatif mudah dan efisien untuk membuat serangkaian ujian dengan pertanyaan yang sama, tetapi urutan pertanyaan dan urutan jawaban diijinkan. Umumnya yang paling Anda butuhkan hanya 4 versi.
R. Schumacher

Jawaban:

8

Berikut ini adalah daftar indeks penyalinan jawaban yang mengejutkan, dengan sedikit pembahasan tentang kelebihannya: http://www.bjournal.co.uk/paper/BJASS_01_01_06.pdf .

Ada bidang psikologi (pendidikan) yang disebut teori respons item (IRT) yang menyediakan latar belakang statistik untuk pertanyaan seperti ini. Jika Anda seorang Amerika, dan mengikuti SAT, ACT atau GRE, Anda berurusan dengan tes yang dikembangkan dengan IRT. Postulat dasar IRT adalah bahwa setiap siswa dicirikan oleh kemampuan mereka ; setiap pertanyaan ditandai dengan kesulitannya ; dan probabilitas untuk menjawab pertanyaan dengan benar adalah mana adalah cdf dari standar normal, daniaibj

π(ai,bj;c)=Prob[student i answers question j correctly]=Φ(c(aibj))
Φ(z)cadalah parameter sensitivitas / diskriminasi tambahan (kadang-kadang, dibuat khusus pertanyaan, , jika ada informasi yang cukup, yaitu, peserta tes yang cukup, untuk mengidentifikasi perbedaan). Asumsi tersembunyi di sini bahwa mengingat kemampuan siswa , jawaban atas berbagai pertanyaan independen. Asumsi ini dilanggar jika Anda memiliki banyak pertanyaan tentang mengatakan paragraf teks yang sama, tetapi mari kita abstraksi darinya sebentar.cji

Untuk pertanyaan "Ya / Tidak", ini mungkin akhir dari cerita. Untuk lebih dari dua pertanyaan kategori, kita dapat membuat asumsi tambahan bahwa semua pilihan yang salah memiliki kemungkinan yang sama; untuk pertanyaan dengan pilihan , probabilitas setiap pilihan yang salah adalah .jkjπ(ai,bj;c)=[1π(ai,bj;c)]/(kj1)

Untuk siswa kemampuan dan , probabilitas bahwa mereka cocok dengan jawaban mereka untuk pertanyaan dengan kesulitan adalah Jika Anda suka, Anda dapat memecah ini menjadi probabilitas pencocokan pada jawaban yang benar, , dan probabilitas untuk mencocokkan jawaban yang salah, , meskipun dari kerangka kerja konseptual IRT, perbedaan ini hampir tidak material.aiakbj

ψ(ai,ak;bj,c)=π(ai,bj;c)π(ak,bj;c)+(k1)π(ai,bj;c)π(ak,bj;c)
ψc(ai,ak;bj,c)=π(ai,bj;c)π(ak,bj;c)ψi(ai,ak;bj,c)=(k1)π(ai,bj;c)π(ak,bj;c)

Sekarang, Anda dapat menghitung probabilitas pencocokan, tetapi mungkin sangat kecil secara kombinasi. Ukuran yang lebih baik mungkin rasio informasi dalam pola tanggapan berpasangan, dan hubungkan ke entropi Anda dapat melakukan ini untuk semua pasangan siswa, plot mereka atau rangking mereka, dan selidiki rasio informasi terbesar untuk entropi.

I(i,k)=j1{matchj}lnψ(ai,ak;bj,c)+1{non-matchj}ln[1ψ(ai,ak;bj,c)]
E(i,k)=E[I(i,k)]=jψ(ai,ak;bj,c)lnψ(ai,ak;bj,c)+(1ψ(ai,ak;bj,c))ln[1ψ(ai,ak;bj,c)]

Parameter tes dan kemampuan siswa tidak akan jatuh dari langit biru, tetapi mereka mudah diperkirakan dalam perangkat lunak modern seperti R dengan atau paket serupa:{c,bj,j=1,2,}{ai}lme4

    irt <- glmer( answer ~ 1 + (1|student) + (1|question), family = binomial)

atau sesuatu yang sangat dekat dengan ini.

Tugas
sumber