Bagaimana saya bisa menggunakan data ini untuk mengkalibrasi penanda dengan berbagai tingkat kedermawanan dalam menilai makalah siswa?

9

12 guru mengajar 600 siswa. 12 kohort yang diajarkan oleh guru-guru ini memiliki ukuran dari 40 hingga 90 siswa, dan kami mengharapkan perbedaan sistematis antara kohort, karena siswa pascasarjana dialokasikan secara tidak proporsional ke kohort tertentu, dan pengalaman sebelumnya telah menunjukkan bahwa skor rata-rata siswa pascasarjana jauh lebih tinggi daripada para mahasiswa sarjana.

Para guru telah menilai semua kertas dalam kelompok mereka, dan telah memberi mereka nilai dari 100.

Setiap guru juga telah melihat satu kertas yang dipilih secara acak dari tiga guru lain, dan memberinya nilai 100. Setiap guru memiliki tiga kertasnya yang ditandai oleh guru lain. 36 makalah yang berbeda telah ditandai dengan cara ini, dan saya menyebutnya data kalibrasi saya.

Saya juga bisa melihat berapa banyak mahasiswa pascasarjana di setiap kelompok.

Pertanyaan saya adalah:

A) Bagaimana saya bisa menggunakan data kalibrasi ini untuk menyesuaikan tanda asli agar lebih adil? Secara khusus, saya ingin menghapus sebanyak mungkin efek dari pembuat yang terlalu dermawan / tidak ramah.

B) Seberapa tepat data kalibrasi saya? Saya tidak punya pilihan dalam 36 titik data data kalibrasi yang agak terbatas yang saya dapatkan dalam kursus ini, dan tidak memiliki pilihan untuk mengumpulkan lagi selama semester saat ini. Namun, jika situasi ini berulang, saya mungkin dapat mengumpulkan lebih banyak data kalibrasi atau mengumpulkan berbagai jenis data kalibrasi.

Pertanyaan ini adalah kerabat dari pertanyaan populer yang saya ajukan di: Bagaimana saya bisa menangani efek spidol dengan tingkat kemurahan hati yang berbeda dalam menilai makalah siswa? . Namun, ini kursus yang berbeda dan saya tidak yakin seberapa berguna membaca pertanyaan itu sebagai latar belakang untuk pertanyaan saat ini, karena masalah utamanya adalah saya tidak punya data kalibrasi.

teaching agreement-statistics user1205901 - Pasang kembali Monica
sumber

6

Ini terdengar seperti peluang besar untuk menggunakan sistem rekomendasi faktorisasi matriks . Secara singkat, ini berfungsi sebagai berikut:

Masukan pengamatan Anda menjadi sebagian-diamati matriks di mana adalah guru skor berikan kepada siswa . $M$ $M_{ij}$ $i$ $j$
Asumsikan bahwa matriks ini adalah produk luar dari beberapa vektor fitur laten, dan --yaitu, . $\vec t$ $\vec s$ $M_{ij} = t_i s_j$
Selesaikan untuk vektor fitur laten yang meminimalkan kesalahan rekonstruksi kuadrat (di mana jumlah berkisar pada semua sel diamati ). $\sum_{i,j} (t_is_j - M_{ij})^2$ $M$
Anda dapat melakukan gaya ekspektasi-maksimisasi ini dengan menetapkan tebakan untuk dan menyelesaikan melalui kuadrat terkecil, kemudian memperbaiki tebakan itu untuk dan menyelesaikan untuk dan beralih ke konvergensi. $\vec t$ $\vec s$ $\vec s$ $\vec t$

$M_{ij} = \sum_{k=1}^n s_{ik} t_{kj}$ dan sekali lagi cobalah untuk meminimalkan kesalahan rekonstruksi kuadrat).

EDIT: untuk memiliki masalah yang terdefinisi dengan baik, Anda harus memiliki lebih banyak operasi matriks daripada parameter laten (atau Anda dapat menggunakan semacam regularisasi). Anda baru saja memilikinya di sini (Anda memiliki 636 pengamatan dan 612 parameter laten), sehingga faktorisasi matriks mungkin tidak berfungsi dengan sangat baik - saya belum bekerja dengan mereka pada sampel kecil seperti itu, jadi saya tidak benar-benar tahu.

Jika kalibrasi ternyata tidak cukup untuk menggunakan model rekomendasi yang baik, Anda bisa mencoba regresi bertingkat pada Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(mengabaikan data kalibrasi) untuk mengekstraksi perkiraan bias guru tambahan, dan kemudian memeriksa apakah bias ini konsisten dengan data kalibrasi yang Anda gunakan. ambil. (Anda harus memungkinkan heteroskedastisitas oleh guru jika memungkinkan.) Ini lebih bersifat ad-hoc tetapi dapat memberi Anda masalah pengumpulan data yang kurang parah.

Ben Kuhn
sumber

Untuk memperluas ini, saya mungkin akan mulai dengan model sederhana dengan efek tetap guru dan berpotensi mengelompokkan kesalahan standar yang kuat (lihat posting blog ini untuk diskusi tentang ini di R) dan kemudian membandingkan efek tetap untuk setiap outlier. Dalam R, sesuatu seperti lm(score ~ gradStudent + ... + teacherIDharus melakukannya.

iacobus

2

Inilah beberapa pendekatan terkait.

Ambil set kertas yang ditandai oleh lebih dari satu guru, karena itu berisi informasi paling banyak tentang efek guru dan di luar kertas itu, guru dan efek kohort dikacaukan (jika ada cara untuk mendapatkan efek kohort - mungkin melalui IPK atau beberapa prediktor lain, misalnya, maka Anda dapat menggunakan semua data, tetapi itu akan sedikit menyulitkan model).

$i=1,2, ... n$ $j=1, 2, ...,m$ $y_{ij}, i=1,2, ... m$

Pertama-tama Anda harus mempertimbangkan model Anda untuk bagaimana efek marker berlaku. Apakah itu aditif? Apakah ini multiplikasi? Apakah Anda perlu khawatir tentang efek batas (mis. Apakah efek aditif atau multiplikatif pada skala logit akan lebih baik)?

$p_{ij}=m_{ij}/100$ $p$ $\log(p_{ij}/(1-p_{ij})$

(Anda tidak akan memiliki cukup data di sini untuk memperkirakan bentuk kemurahan hati serta ukurannya. Anda harus memilih model dari pemahaman Anda tentang situasi tersebut. Anda juga harus mengabaikan segala kemungkinan interaksi; Anda tidak perlu punya data untuk itu)

Kemungkinan 1 - model aditif polos. Ini mungkin cocok jika tidak ada tanda yang mendekati 0 atau 100:

$E(y_{ij}) = \mu_{i}+\tau_j$

Ini pada dasarnya adalah ANOVA dua arah. Anda memerlukan batasan pada ini, sehingga Anda dapat mengatur penyimpangan pengkodean / mengatur model sehingga efek penanda adalah 0, atau Anda dapat mengatur model di mana satu penanda adalah garis dasar (yang efeknya adalah 0, dan yang memiliki tanda Anda akan mencoba menyesuaikan setiap penanda lainnya ke arah).

$\hat{\tau}_j$ $y_{kj}^\text{adj}=y_{kj}-\hat{\tau}_j$

$E(y_{ij}) = \mu_{i}\tau_j$ $\tau$

$\hat{\tau_j}$

$1-p=(100-m)/100$

Glen_b -Reinstate Monica
sumber

Bagaimana saya bisa menggunakan data ini untuk mengkalibrasi penanda dengan berbagai tingkat kedermawanan dalam menilai makalah siswa?

Jawaban: