Apakah ada alasan statistik mengapa analisis item / teori respons tidak diterapkan secara lebih luas? Misalnya, jika seorang guru memberikan tes soal pilihan ganda 25 pertanyaan dan menemukan bahwa 10 pertanyaan dijawab dengan benar oleh semua orang, 10 pertanyaan dijawab oleh fraksi yang sangat rendah (katakanlah 10%) dan 5 sisanya dijawab oleh sekitar 50% orang . Tidakkah masuk akal untuk menilai ulang skor sehingga pertanyaan-pertanyaan sulit diberi bobot lebih?
Namun, di dunia nyata tes hampir selalu memiliki semua pertanyaan yang terbobot sama. Mengapa?
Tautan di bawah ini membahas indeks diskriminasi dan ukuran kesulitan lain untuk memilih pertanyaan mana yang terbaik: http://fcit.usf.edu/assessment/selected/responsec.html
Namun tampaknya metode mencari tahu indeks diskriminasi pertanyaan hanya digunakan dengan cara berwawasan ke depan (mis., Jika sebuah pertanyaan tidak mendiskriminasi dengan baik, lemparlah). Mengapa tes tidak ditimbang ulang untuk populasi saat ini?
sumber
Argumen pertama berkaitan dengan transparansi. @ rolando2 telah membuat poin ini. Para siswa ingin tahu ex-ante berapa nilai setiap item.
Argumen kedua adalah bahwa bobot tidak hanya mencerminkan tingkat kesulitan suatu pertanyaan, tetapi juga tingkat kepentingan yang dilampirkan oleh instruktur pada suatu pertanyaan. Memang, tujuan ujian adalah menguji dan mensertifikasi pengetahuan dan kompetensi. Dengan demikian, bobot yang dikaitkan dengan berbagai pertanyaan dan item harus ditetapkan sebelumnya oleh guru. Anda tidak boleh lupa bahwa "semua model salah, dan hanya beberapa yang berguna". Dalam hal ini seseorang dapat memiliki keraguan tentang kegunaannya.
Ini dikatakan, saya pikir analisis statistik (kurang lebih mewah) bisa datang di ex-post, untuk analisis hasil. Di sana dapat menghasilkan beberapa wawasan yang menarik. Sekarang, jika ini dilakukan dan sampai sejauh mana hal itu dilakukan, tentu tergantung pada keterampilan statistik guru.
sumber
Saya ingin membuat klarifikasi mengenai pertanyaan awal. Dalam teori respons item, diskriminasi (yaitu kemiringan item atau pemuatan faktor) tidak mengindikasikan kesulitan. Menggunakan model yang memungkinkan adanya beragam diskriminasi untuk setiap item secara efektif memberi bobot pada mereka berdasarkan estimasi korelasi mereka terhadap variabel laten, bukan oleh kesulitannya.
Dengan kata lain, item yang lebih sulit dapat dibobot jika diperkirakan cukup tidak berkorelasi dengan dimensi bunga dan sebaliknya, item yang lebih mudah dapat dibobot jika diperkirakan sangat berkorelasi.
Saya setuju dengan jawaban sebelumnya yang menunjuk ke (a) kurangnya kesadaran akan metode respons item di antara praktisi, (b) fakta bahwa menggunakan model ini memerlukan beberapa keahlian teknis bahkan jika seseorang menyadari keunggulan mereka (khususnya kemampuan mengevaluasi sesuai dengan model pengukuran), (c) ekspektasi siswa sebagaimana ditunjukkan oleh @ rolando2, dan yang terakhir (paling tidak) pertimbangan teoritis yang mungkin dimiliki instruktur untuk menimbang item yang berbeda secara berbeda. Namun, saya memang ingin menyebutkan bahwa:
Tidak semua model teori respons item memungkinkan variasi parameter diskriminasi, di mana model Rasch mungkin merupakan contoh paling terkenal dari model di mana diskriminasi di seluruh item dijaga konstan. Di bawah model keluarga Rasch, skor penjumlahan adalah statistik yang cukup untuk skor respons barang, oleh karena itu, tidak akan ada perbedaan dalam urutan responden, dan satu-satunya perbedaan praktis akan dihargai jika 'jarak' antara skor kelompok dipertimbangkan.
Ada peneliti yang membela penggunaan teori tes klasik (yang bergantung pada penggunaan skor skor tradisional atau rata-rata yang benar) untuk alasan teoretis dan empiris. Mungkin argumen yang paling sering digunakan adalah fakta bahwa skor yang dihasilkan di bawah teori respons item secara efektif sangat mirip dengan yang dihasilkan di bawah teori tes klasik. Lihat misalnya karya Xu & Stone (2011), Menggunakan Perkiraan IRT Trait versus Skor yang Diringkas dalam Memprediksi Hasil , Pendidikan dan Pengukuran Psikologis , di mana mereka melaporkan korelasi lebih dari 0,97 di bawah beragam kondisi.
sumber
Tidakkah skor siswa harus didasarkan pada apa yang mereka ketahui dan jawab dalam ujian daripada apa yang dilakukan orang lain di kelas?
Jika Anda memberikan tes yang sama 2 tahun yang berbeda dan Anda memiliki 2 siswa (masing-masing 1) yang menjawab pertanyaan yang sama persis dengan benar (tanpa curang), apakah masuk akal jika mereka akan menerima nilai yang berbeda berdasarkan pada seberapa banyak siswa lain di kelas mereka belajar?
Dan secara pribadi, saya tidak ingin memberikan motivasi kepada siswa untuk menyemangati teman-teman sekelasnya untuk mempelajari materi itu sendiri.
IRT dapat memberikan beberapa wawasan tentang tes, tetapi saya tidak akan menggunakannya untuk secara aktif menimbang skor.
Ketika saya memikirkan bobot, saya berpikir bahwa seseorang harus mendapatkan poin lebih banyak untuk mendapatkan pertanyaan sulit yang benar, tetapi mereka harus kehilangan lebih banyak poin untuk mendapatkan pertanyaan mudah salah. Kombinasikan itu dan Anda masih berakhir dengan bobot yang sama. Atau saya benar-benar mencoba menghitung berdasarkan waktu atau upaya yang diperlukan untuk menjawab pertanyaan, sehingga seseorang yang menjawab pertanyaan dalam urutan yang berbeda tidak memiliki keunggulan pada tes waktunya.
sumber