Mendeteksi pola kecurangan pada ujian multi-pertanyaan

25

PERTANYAAN:

Saya memiliki data biner pada pertanyaan ujian (benar / salah). Beberapa individu mungkin memiliki akses sebelumnya ke subset pertanyaan dan jawaban yang benar. Saya tidak tahu siapa, berapa banyak, atau yang mana. Jika tidak ada kecurangan, anggaplah saya akan memodelkan kemungkinan respons yang benar untuk item sebagai , di mana \ beta_i mewakili kesulitan pertanyaan dan z adalah kemampuan laten individu. Ini adalah model respons barang yang sangat sederhana yang dapat diperkirakan dengan fungsi seperti ltm's rasch () di R. Selain perkiraan \ hat {z} _j (di mana j indeks individu) dari variabel laten, saya memiliki akses ke perkiraan terpisah \ hat {q} _jilogit((pi=1|z))=βi+zβizj q jz^jjq^j dari variabel laten yang sama yang berasal dari dataset lain di mana kecurangan tidak dimungkinkan.

Tujuannya adalah untuk mengidentifikasi orang-orang yang kemungkinan curang dan barang yang mereka sukai. Apa saja pendekatan yang mungkin Anda ambil? Selain data mentah, β^i , z^j , dan q^j semuanya tersedia, meskipun dua yang pertama akan memiliki beberapa bias karena kecurangan. Idealnya, solusinya akan datang dalam bentuk pengelompokan / klasifikasi probabilistik, meskipun ini tidak perlu. Ide-ide praktis sangat disambut baik seperti pendekatan formal.

Sejauh ini, saya telah membandingkan korelasi skor pertanyaan untuk pasangan individu dengan skor lebih tinggi vs rendah q^jz^j (di mana q^jz^j adalah indeks kasar probabilitas yang mereka kecurangan). Sebagai contoh, saya mengurutkan individu berdasarkan q^jz^j dan kemudian merencanakan korelasi pasangan skor pertanyaan individu. Saya juga mencoba memplot korelasi rata-rata skor untuk individu yang nilai q^jz^j lebih besar dari jumlah nth kuantil dari q^jz^j , sebagai fungsi dari n . Tidak ada pola yang jelas untuk kedua pendekatan tersebut.


MEMPERBARUI:

Saya akhirnya menggabungkan ide-ide dari @SheldonCooper dan makalah Freakonomics yang membantu yang ditunjukkan @whuber. Selamat datang ide / komentar / kritik lainnya.

Biarkan Xij menjadi skor biner orang j pada pertanyaan i . Perkirakan logit model respons item (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j, di

logit(Pr(Xij=1|zj)=βi+zj,
mana βi adalah parameter kemudahan item dan zj adalah variabel kemampuan laten. (Model yang lebih rumit dapat diganti; I Saya menggunakan 2PL dalam aplikasi saya) .Seperti yang saya sebutkan di posting asli saya, saya memiliki estimasi \ hat {q_j}qj^ variabel kemampuan dari dataset terpisah {yij} (item yang berbeda, orang yang sama) di kecurangan yang tidak dimungkinkan. Secara khusus, qj^ adalah perkiraan Bayes empiris dari model respons item yang sama seperti di atas.

Probabilitas skor yang diamati , tergantung pada kemudahan item dan kemampuan orang, dapat ditulis mana adalah probabilitas prediksi dari respons yang benar, dan adalah logit. Kemudian, tergantung pada karakteristik item dan orang, probabilitas gabungan bahwa orang memiliki pengamatan adalah dan juga, probabilitas gabungan bahwa item memiliki pengamatan p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i i j , P i j ( ^ βxij

pij=Pr(Xij=xij|βi^,qj^)=Pij(βi^,qj^)xij(1Pij(βi^,qj^))1xij,
ilogitjxjpj=ipij,ixiPij(βi^,qj^)=ilogit(βi^+qj^)ilogitjxj
pj=ipij,
ixi adalahOrang dengan nilai terendah adalah mereka yang skor yang diamati secara kondisional paling tidak mungkin - mereka mungkin curang. Item dengan nilai terendah adalah mereka yang paling tidak kondisional - mereka adalah kemungkinan item bocor / dibagikan. Pendekatan ini bergantung pada asumsi bahwa model yang benar dan bahwa orang skor ‘s tersebut tergantung berkorelasi pada orang dan barang karakteristik. Pelanggaran terhadap asumsi kedua tidak bermasalah, asalkan tingkat korelasinya tidak bervariasi antar orang, dan model untuk dapat dengan mudah ditingkatkan (misalnya, dengan menambahkan karakter orang atau item tambahan).
pi=jpij.
p j j p i jpjpjjpij

Langkah tambahan yang saya coba adalah mengambil r% dari orang yang paling tidak mungkin (yaitu orang dengan r% terendah dari nilai p_j yang diurutkan), menghitung jarak rata-rata antara skor yang diamati x_j (yang harus dikorelasikan untuk orang dengan r rendah, yang kemungkinan curang), dan plot untuk r = 0,001, 0,002, ..., 1.000. Jarak rata-rata meningkat untuk r = 0,001 ke r = 0,025, mencapai maksimum, dan kemudian menurun perlahan ke minimum pada r = 1. Tidak persis apa yang saya harapkan.

terkunci
sumber
4
Ini adalah masalah yang sulit karena Anda memiliki sedikit informasi tentang sifat kecurangan. Bagaimana Anda membedakan seorang penipu dari seorang siswa yang belajar ekstra keras? Tanpa informasi lebih lanjut, Anda tidak bisa. Satu kemungkinan adalah jika siswa dapat menipu dengan menyalin satu sama lain, atau jika himpunan bagian dari siswa memiliki akses ke jawaban yang sama. Jika ini masalahnya, Anda dapat membuat fungsi jarak antara siswa (jarak lebih rendah berarti mereka mengerjakan dengan baik pertanyaan yang sama) dan mencari pola di sini. Ini akan menjadi IMO yang lebih konklusif.
rm999
2
Levitt dan Dubner menggambarkan pendekatan mereka dalam Freakonomics ( freakonomicsmedia.com ).
whuber
@ rm999 Untuk memperjelas, cheater memiliki akses ke yang sama subset dari pertanyaan (misalnya, kunci jawaban parsial bocor sebelum administrasi ujian). Saya tidak tertarik dengan kecurangan yang mungkin terjadi karena penyalinan. Saya akan merevisi pertanyaan saya selama akhir pekan jika ini tidak jelas.
terkunci
@whuber Terima kasih, saya akan mencari kertasnya (dengan asumsi itu diterbitkan). Saya mendengarkan buku audio, tetapi saya tidak dapat mengingat detail bagaimana mereka mengidentifikasi curang (yang merupakan guru yang memalsukan jawaban siswa, saya percaya).
terkunci
Jika saya ingat kasus Freakonomics, itu melibatkan melihat anak-anak di sekolah / kelas yang sama yang memiliki (a) lompatan besar dalam pencapaian dibandingkan dengan tahun sebelumnya, (b) jawaban yang berbeda untuk pertanyaan-pertanyaan sebelumnya yang lebih mudah, dan (c) urutan identik dari jawaban untuk pertanyaan-pertanyaan selanjutnya yang lebih sulit, sehingga menyarankan seorang guru untuk mengisi jawaban yang telah ditinggalkan anak-anak.
Henry

Jawaban:

4

Pendekatan ad hoc

Saya berasumsi bahwa cukup dapat diandalkan karena diperkirakan pada banyak siswa, kebanyakan dari mereka tidak curang pada pertanyaan . Untuk setiap siswa , urutkan pertanyaan dengan urutan kesulitan yang meningkat, hitung (perhatikan bahwa i j β i + q j q jβiijβi+qjqjhanyalah offset konstan) dan memberinya ambang batas di tempat yang wajar (mis. p (benar) <0,6). Ini memberikan serangkaian pertanyaan yang tidak mungkin dijawab oleh siswa dengan benar. Anda sekarang dapat menggunakan pengujian hipotesis untuk melihat apakah ini dilanggar, dalam hal ini siswa mungkin ditipu (dengan asumsi tentu saja model Anda benar). Satu peringatan adalah bahwa jika ada beberapa pertanyaan seperti itu, Anda mungkin tidak memiliki data yang cukup agar tes dapat diandalkan. Juga, saya pikir tidak mungkin untuk menentukan pertanyaan yang dia selingkuh, karena dia selalu memiliki peluang 50% untuk menebak. Tetapi jika Anda berasumsi bahwa banyak siswa mendapat akses ke (dan ditipu) pada rangkaian pertanyaan yang sama, Anda dapat membandingkan ini di antara siswa dan melihat pertanyaan yang dijawab lebih sering daripada kebetulan.

Anda dapat melakukan trik serupa dengan pertanyaan. Yaitu untuk setiap pertanyaan, urutkan siswa berdasarkan , tambahkan (ini sekarang merupakan offset konstan) dan ambang batas pada probabilitas 0,6. Ini memberi Anda daftar siswa yang seharusnya tidak dapat menjawab pertanyaan ini dengan benar. Jadi mereka memiliki peluang 60% untuk menebak. Sekali lagi, lakukan pengujian hipotesis dan lihat apakah ini dilanggar. Ini hanya berfungsi jika sebagian besar siswa menyontek pada set pertanyaan yang sama (misalnya jika sebagian pertanyaan 'bocor' sebelum ujian).β iqjβi

Pendekatan berprinsip

Untuk setiap siswa, ada variabel biner dengan Bernoulli sebelumnya dengan beberapa probabilitas yang sesuai, yang menunjukkan apakah siswa tersebut seorang penipu. Untuk setiap pertanyaan ada variabel biner , sekali lagi dengan beberapa Bernoulli yang cocok sebelumnya, yang menunjukkan apakah pertanyaan itu bocor. Lalu ada satu set variabel biner , yang menunjukkan apakah siswa menjawab pertanyaan dengan benar. Jika dan , maka distribusi adalah Bernoulli dengan probabilitas 0,99. Kalau tidak, distribusinya adalah . Ini adalah variabel yang diamati.l i a i j j i c j = 1 l i = 1 a i j l o g i t ( β i + q j ) a i j c j l icjliaijjicj=1li=1aijlogit(βi+qj)aijcj dan disembunyikan dan harus disimpulkan. Anda mungkin dapat melakukannya dengan sampling Gibbs. Tetapi pendekatan lain mungkin juga layak, mungkin sesuatu yang terkait dengan biclustering.li

SheldonCooper
sumber
Saya membaca bagian pertama dari jawaban Anda dan menganggapnya menjanjikan. Dua catatan cepat - ini adalah pilihan ganda sehingga probabilitas menebak dengan benar adalah 25% atau 20%. Anda benar karena kami dapat menganggap sebagian pertanyaan bocor sebelum ujian. Akan kembali ke ini pada hari Minggu atau Senin.
terkunci
3

Jika Anda ingin masuk ke beberapa pendekatan yang lebih kompleks, Anda mungkin melihat model teori respons item. Anda kemudian dapat memodelkan kesulitan dari setiap pertanyaan. Siswa yang mendapatkan barang-barang sulit dengan benar dan kehilangan barang yang lebih mudah, saya pikir, lebih mungkin untuk berbuat curang daripada mereka yang melakukan hal sebaliknya.

Sudah lebih dari satu dekade sejak saya melakukan hal semacam ini, tapi saya pikir itu bisa menjanjikan. Untuk lebih detail, lihat buku psikometrik

Peter Flom - Pasang kembali Monica
sumber
Biasanya, menipu atau menebak mungkin dimasukkan langsung ke dalam IRM. Ini pada dasarnya apa yang ingin dilakukan oleh model 3-PL, karena mencakup parameter untuk kesulitan , diskriminasi , dan menebak yang bertindak sebagai asimtot yang lebih rendah untuk kemungkinan mendukung suatu item. Namun, telah terbukti tidak realistis dalam sebagian besar situasi, dan statistik orang-fit khusus lainnya telah dikembangkan bersama (baik dalam tes pendidikan atau penilaian psikologis). Meijer, penelitian Person-Fit: Pengantar. APM (1996), 9: 3-8 memiliki ulasan yang bagus tentang pola respons yang menyimpang.
chl
@ chl, terima kasih! Saya mempelajari hal-hal ini di sekolah pascasarjana, tapi itu sudah lama - kelas terakhir saya adalah pada tahun 1996 atau lebih.
Peter Flom - Pasang kembali Monica
@ chl Terima kasih atas saran Anda. Model dalam pertanyaan saya sebenarnya adalah model respons barang (model Rasch atau 1PL dengan parameter diskriminasi tetap). Saya pikir saran untuk melihat individu dengan kinerja menyimpang adalah awal yang baik, tetapi saya mencari pendekatan yang mengambil keuntungan dari informasi tambahan yang disediakan oleh korelasi dalam tanggapan penipu untuk item yang ada kecurangan. Anda dapat membayangkan bahwa jika kami menggunakan prosedur Anda untuk mengidentifikasi curang, misalnya, mereka akan bekerja dengan baik pada item sulit yang serupa.
terkunci