Bagaimana formula nubuat Spearman-Brown dipengaruhi oleh pertanyaan-pertanyaan tentang kesulitan yang berbeda?

10

Bagaimana hasil dari formula ramalan Spearman-Brown dipengaruhi oleh pertanyaan-pertanyaan tes tentang kesulitan yang berbeda atau penilai yang mudah atau sulit kelas. Satu teks yang dihormati mengatakan SB terpengaruh, tetapi tidak memberikan rincian. (Lihat kutipan di bawah ini.)

Guion, R. M (2011). Penilaian, Pengukuran, Dan Prediksi Untuk Keputusan Personil, edisi ke-2. Hal 477

"Keandalan dapat ditingkatkan dengan mengumpulkan penilai, menggunakan persamaan Spearman-Brown. ... Jika keandalan satu peringkat adalah .50, maka keandalan dua, empat, atau enam peringkat paralel akan sekitar 0,67, 0,80 , dan 0,86, masing-masing "(Houston, Raymond, & Svec, 1991, hal. 409). Saya suka kutipan ini karena kata kira-kira mengakui bahwa perkiraan statistik adalah pernyataan "rata-rata" dari apa yang mungkin diharapkan jika semuanya berjalan sesuai asumsi. Di luar itu, kata operasinya paralel. Peringkat rata-rata (atau menggunakan Spearman-Brown) jika salah satu penilai adalah, misalnya, secara sistematis lunak, sama sekali tidak sesuai dengan asumsi. Jika esai masing-masing dinilai oleh dua penilai, satu lebih ringan dari yang lain, masalahnya adalah seperti menggunakan dua tes pilihan ganda dari kesulitan yang tidak sama (bentuk tidak paralel). Skor berdasarkan pada formulir tes yang berbeda (tidak sama) tidak sebanding. Begitu pula dengan mencampur penilai yang lunak dan sulit; keandalan peringkat yang dikumpulkan diperkirakan salah oleh persamaan teori tes klasik Spearman-Brown. Masalah menjadi lebih buruk jika setiap hakim mendefinisikan konstruk sedikit berbeda. "

Joel W.
sumber
1
Saya pikir masalah dengan mencari sumber yang dapat dipercaya adalah bahwa jawabannya berasal dari teori pengujian, dan agak jelas jika Anda memahami teori yang mendasarinya, dan khususnya keterbatasan kemampuan kami untuk menilai keandalan. Itu sebabnya Guion tidak repot-repot menjelaskannya. Tapi semoga berhasil dalam pencarian Anda - mungkin seseorang, di suatu tempat tahu penjelasan yang lebih baik.
Jeremy Miles

Jawaban:

10

Meskipun saya merasa sedikit malu-malu bertentangan dengan "teks yang disegani" maupun pengguna CV lainnya, bagi saya tampaknya formula Spearman-Brown tidak terpengaruh oleh item yang memiliki kesulitan yang berbeda. Yang pasti, rumus Spearman-Brown biasanya diturunkan dengan asumsi bahwa kita memiliki item paralel , yang menyiratkan (antara lain) bahwa item memiliki kesulitan yang sama. Tetapi ternyata anggapan ini tidak perlu; itu bisa santai untuk memungkinkan kesulitan yang tidak setara, dan formula Spearman-Brown masih akan berlaku. Saya menunjukkan ini di bawah.


Ingatlah bahwa dalam teori uji klasik, pengukuran dianggap sebagai jumlah dari komponen "skor sebenarnya" dan komponen kesalahan , yaitu, dengan dan tidak berkorelasi. Asumsi item paralel adalah bahwa semua item memiliki skor sebenarnya yang sama, hanya berbeda dalam komponen kesalahan mereka, meskipun ini diasumsikan memiliki varian yang sama. Dalam simbol, untuk setiap pasangan item dan , XTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
Mari kita lihat apa yang terjadi ketika kita mengendurkan asumsi pertama, sehingga item mungkin berbeda dalam kesulitan mereka, dan kemudian memperoleh keandalan skor tes total berdasarkan asumsi baru ini. Secara khusus, asumsikan bahwa skor sebenarnya mungkin berbeda dengan konstanta aditif, tetapi kesalahan masih memiliki varian yang sama. Dalam simbol, Setiap perbedaan dalam kesulitan ditangkap oleh konstanta aditif. Misalnya, jika , maka skor pada cenderung lebih tinggi dari skor pada , sehingga "lebih mudah" daripada . Kita mungkin menyebut ini pada dasarnya paralel
T=T+cvar(E)=var(E).
c>0XXXXitem, dalam analogi dengan asumsi "esensial tau-ekuivalensi" yang merilekskan model setara tau dengan cara yang sama.

Sekarang untuk mendapatkan keandalan bentuk tes dari barang-barang tersebut. Pertimbangkan tes yang terdiri dari item paralel dasarnya, jumlah yang memberikan skor tes. Reliabilitas adalah, menurut definisi, rasio varian skor sejati dengan varian skor yang diamati. Untuk keandalan masing-masing item, itu mengikuti dari definisi paralelisme esensial bahwa mereka memiliki keandalan yang sama, yang kami tunjukkan dengan , dengan menjadi varian skor sebenarnya dan varian kesalahan. Untuk keandalan skor tes total, pertama-tama kita menguji varians dari skor tes total, yaitu kρ=σT2/(σT2+σE2)σT2σE2 Tσ 2 T σ 2 E k 2 σ 2 T

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
mana (tidak ada subskrip) adalah skor benar sembarang yang semua skor sebenarnya semua item dapat diubah menjadi melalui persyaratan konstannya, adalah varians skor sebenarnya, dan adalah varians kesalahan. Perhatikan bahwa syarat konstan putus! Ini kuncinya. Jadi reliabilitas dari total skor tes adalah TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
yang hanya formula klasik Spearman-Brown, tidak berubah. Apa ini menunjukkan bahwa bahkan ketika memvariasikan "kesulitan" dari item, didefinisikan sebagai skor rata-rata, rumus Spearman-Brown masih berlaku.

@JeremyMiles mengangkat beberapa poin menarik dan penting tentang apa yang bisa terjadi ketika kita meningkatkan panjang tes "di dunia nyata," tetapi setidaknya menurut asumsi ideal teori tes klasik, variasi dalam kesulitan item tidak masalah untuk keandalan suatu bentuk tes (sangat kontras dengan asumsi Item Response Theory!). Garis dasar penalaran yang sama ini juga mengapa kita biasanya berbicara tentang tau-kesetaraan esensial daripada tau-kesetaraan, karena sebagian besar semua hasil penting berlaku untuk kasus yang lebih lunak di mana kesulitan item (yaitu, sarana) dapat berbeda.

Jake Westfall
sumber
2
Ya, poin bagus. Apa yang saya tulis belum tentu berlaku.
Jeremy Miles
5

Tidak mudah untuk mengatakannya.

Pertama, Spearman-Brown mengasumsikan bahwa benda uji (atau penilai) diambil secara acak dari populasi benda uji (atau penilai). Ini tidak pernah benar, terutama dari tes, karena membuat lebih banyak item sulit, dan kemungkinan Anda akan menggunakan item yang lebih baik untuk memulai - maka Anda akan menemukan bahwa tes perlu lebih lama, sehingga Anda akan 'gesek laras' untuk barang-barang.

Kedua, item-item berbeda dalam keandalannya, dan reliabilitas tidak selalu terkait dengan kesulitan (jika itu membantu, pikirkan kemiringan dan intersep kurva karakteristik item dalam teori respons item). Namun, perhitungan reliabilitas (katakanlah, Cronbach's alpha, yang merupakan bentuk korelasi intra-kelas) mengasumsikan bahwa reliabilitas semuanya sama (mereka menganggap model pengukuran penting yang setara dengan tau - yaitu, bahwa reliabilitas yang tidak standar dari setiap item adalah semua sama). Itu hampir pasti salah. Menambahkan item mungkin naik, mungkin turun. Itu tergantung pada item.

Inilah cara lain untuk memikirkannya. Saya secara acak memilih sampel dari suatu populasi, dan menghitung mean dan standard error dari rata-rata. Berarti itu akan menjadi penaksir yang tidak bias dari rata-rata populasi. Lalu saya menambah ukuran sampel saya - nilai yang diharapkan dari rata-rata adalah sama, tetapi tidak mungkin bahwa itu akan sama - hampir pasti akan naik atau turun. Seperti yang saya harapkan kesalahan standar menjadi lebih kecil, tetapi jumlah yang menyusut tidak akan konsisten (dan bukan tidak mungkin kesalahan standar menjadi lebih besar.)

Jeremy Miles
sumber
Apakah formula SB memberikan nilai minimum, maksimum, atau menengah untuk keandalan yang diharapkan? Juga, karena reliabilitas dihitung dalam hal korelasi, mengapa item mudah / sulit atau penilai memiliki efek?
Joel W.
Formula SB memberikan keandalan yang diharapkan. Itu bisa lebih tinggi, atau lebih rendah dari itu. Satu masalah adalah bahwa ada lebih dari satu cara untuk menghitung reliabilitas, dan asumsi yang mereka buat jarang dipenuhi. Seluruhnya berakar pada teori tes klasik - teori respons item adalah cara yang lebih modern untuk memikirkan pengukuran, dan itu lebih masuk akal banyak waktu, misalnya, keandalan tes tidak sama untuk setiap orang di IRT.
Jeremy Miles
Jika sebuah pertanyaan sangat sulit, atau sangat mudah, itu mungkin mempengaruhi korelasinya. Misalnya "7 * 11" mungkin merupakan pertanyaan yang dapat diandalkan untuk kelas 3, tetapi untuk sarjana matematika, itu bukan.
Jeremy Miles
1
<Tesnya harus lebih lama, jadi kamu akan 'mengorek-ngorek' item. Jelas Anda telah memiliki pengalaman dunia nyata menyusun tes.
Joel W.