Bagaimana hasil dari formula ramalan Spearman-Brown dipengaruhi oleh pertanyaan-pertanyaan tes tentang kesulitan yang berbeda atau penilai yang mudah atau sulit kelas. Satu teks yang dihormati mengatakan SB terpengaruh, tetapi tidak memberikan rincian. (Lihat kutipan di bawah ini.)
Guion, R. M (2011). Penilaian, Pengukuran, Dan Prediksi Untuk Keputusan Personil, edisi ke-2. Hal 477
"Keandalan dapat ditingkatkan dengan mengumpulkan penilai, menggunakan persamaan Spearman-Brown. ... Jika keandalan satu peringkat adalah .50, maka keandalan dua, empat, atau enam peringkat paralel akan sekitar 0,67, 0,80 , dan 0,86, masing-masing "(Houston, Raymond, & Svec, 1991, hal. 409). Saya suka kutipan ini karena kata kira-kira mengakui bahwa perkiraan statistik adalah pernyataan "rata-rata" dari apa yang mungkin diharapkan jika semuanya berjalan sesuai asumsi. Di luar itu, kata operasinya paralel. Peringkat rata-rata (atau menggunakan Spearman-Brown) jika salah satu penilai adalah, misalnya, secara sistematis lunak, sama sekali tidak sesuai dengan asumsi. Jika esai masing-masing dinilai oleh dua penilai, satu lebih ringan dari yang lain, masalahnya adalah seperti menggunakan dua tes pilihan ganda dari kesulitan yang tidak sama (bentuk tidak paralel). Skor berdasarkan pada formulir tes yang berbeda (tidak sama) tidak sebanding. Begitu pula dengan mencampur penilai yang lunak dan sulit; keandalan peringkat yang dikumpulkan diperkirakan salah oleh persamaan teori tes klasik Spearman-Brown. Masalah menjadi lebih buruk jika setiap hakim mendefinisikan konstruk sedikit berbeda. "
sumber
Jawaban:
Meskipun saya merasa sedikit malu-malu bertentangan dengan "teks yang disegani" maupun pengguna CV lainnya, bagi saya tampaknya formula Spearman-Brown tidak terpengaruh oleh item yang memiliki kesulitan yang berbeda. Yang pasti, rumus Spearman-Brown biasanya diturunkan dengan asumsi bahwa kita memiliki item paralel , yang menyiratkan (antara lain) bahwa item memiliki kesulitan yang sama. Tetapi ternyata anggapan ini tidak perlu; itu bisa santai untuk memungkinkan kesulitan yang tidak setara, dan formula Spearman-Brown masih akan berlaku. Saya menunjukkan ini di bawah.
Ingatlah bahwa dalam teori uji klasik, pengukuran dianggap sebagai jumlah dari komponen "skor sebenarnya" dan komponen kesalahan , yaitu, dengan dan tidak berkorelasi. Asumsi item paralel adalah bahwa semua item memiliki skor sebenarnya yang sama, hanya berbeda dalam komponen kesalahan mereka, meskipun ini diasumsikan memiliki varian yang sama. Dalam simbol, untuk setiap pasangan item dan ,X T E
Sekarang untuk mendapatkan keandalan bentuk tes dari barang-barang tersebut. Pertimbangkan tes yang terdiri dari item paralel dasarnya, jumlah yang memberikan skor tes. Reliabilitas adalah, menurut definisi, rasio varian skor sejati dengan varian skor yang diamati. Untuk keandalan masing-masing item, itu mengikuti dari definisi paralelisme esensial bahwa mereka memiliki keandalan yang sama, yang kami tunjukkan dengan , dengan menjadi varian skor sebenarnya dan varian kesalahan. Untuk keandalan skor tes total, pertama-tama kita menguji varians dari skor tes total, yaituk ρ=σ2T/(σ2T+σ2E) σ2T σ2E Tσ 2 T σ 2 E k 2 σ 2 T
@JeremyMiles mengangkat beberapa poin menarik dan penting tentang apa yang bisa terjadi ketika kita meningkatkan panjang tes "di dunia nyata," tetapi setidaknya menurut asumsi ideal teori tes klasik, variasi dalam kesulitan item tidak masalah untuk keandalan suatu bentuk tes (sangat kontras dengan asumsi Item Response Theory!). Garis dasar penalaran yang sama ini juga mengapa kita biasanya berbicara tentang tau-kesetaraan esensial daripada tau-kesetaraan, karena sebagian besar semua hasil penting berlaku untuk kasus yang lebih lunak di mana kesulitan item (yaitu, sarana) dapat berbeda.
sumber
Tidak mudah untuk mengatakannya.
Pertama, Spearman-Brown mengasumsikan bahwa benda uji (atau penilai) diambil secara acak dari populasi benda uji (atau penilai). Ini tidak pernah benar, terutama dari tes, karena membuat lebih banyak item sulit, dan kemungkinan Anda akan menggunakan item yang lebih baik untuk memulai - maka Anda akan menemukan bahwa tes perlu lebih lama, sehingga Anda akan 'gesek laras' untuk barang-barang.
Kedua, item-item berbeda dalam keandalannya, dan reliabilitas tidak selalu terkait dengan kesulitan (jika itu membantu, pikirkan kemiringan dan intersep kurva karakteristik item dalam teori respons item). Namun, perhitungan reliabilitas (katakanlah, Cronbach's alpha, yang merupakan bentuk korelasi intra-kelas) mengasumsikan bahwa reliabilitas semuanya sama (mereka menganggap model pengukuran penting yang setara dengan tau - yaitu, bahwa reliabilitas yang tidak standar dari setiap item adalah semua sama). Itu hampir pasti salah. Menambahkan item mungkin naik, mungkin turun. Itu tergantung pada item.
Inilah cara lain untuk memikirkannya. Saya secara acak memilih sampel dari suatu populasi, dan menghitung mean dan standard error dari rata-rata. Berarti itu akan menjadi penaksir yang tidak bias dari rata-rata populasi. Lalu saya menambah ukuran sampel saya - nilai yang diharapkan dari rata-rata adalah sama, tetapi tidak mungkin bahwa itu akan sama - hampir pasti akan naik atau turun. Seperti yang saya harapkan kesalahan standar menjadi lebih kecil, tetapi jumlah yang menyusut tidak akan konsisten (dan bukan tidak mungkin kesalahan standar menjadi lebih besar.)
sumber