Jika Anda membaca buletin komunitas akhir-akhir ini, kemungkinan Anda telah melihat The Hunting of the Snark, sebuah posting di blog resmi StackExchange oleh Joel Spolsky, CEO jaringan StackExchange. Dia membahas analisis statistik yang dilakukan pada sampel komentar SE untuk mengevaluasi "keramahan" mereka dari perspektif pengguna luar. Komentar diambil secara acak dari StackOverflow dan analis konten adalah anggota komunitas Mechanical Turk Amazon, pasar untuk pekerjaan yang menghubungkan perusahaan dengan pekerja yang melakukan tugas kecil dan pendek dengan biaya yang terjangkau.
Belum lama ini, saya adalah seorang mahasiswa pascasarjana dalam ilmu politik dan salah satu kelas yang saya ambil adalah Analisis Konten Statistik . Proyek akhir kelas, pada kenyataannya seluruh tujuannya, adalah untuk melakukan analisis rinci tentang pelaporan perang New York Times, untuk menguji apakah banyak asumsi yang dibuat orang Amerika tentang liputan berita selama perang itu akurat (spoiler: bukti menunjukkan mereka tidak). Proyek ini sangat besar dan cukup menyenangkan, tetapi sejauh ini bagian yang paling menyakitkan adalah 'fase pelatihan dan pengujian keandalan', yang terjadi sebelum kami dapat melakukan analisis penuh. Itu memiliki dua tujuan (lihat halaman 9 dari makalah terkait untuk deskripsi rinci, serta referensi untuk standar reliabilitas antar kode dalam literatur statistik analisis konten):
Konfirmasikan semua pembuat kode, yaitu, pembaca konten, dilatih tentang definisi kualitatif yang sama. Dalam analisis Joel, ini berarti semua orang akan tahu persis bagaimana proyek mendefinisikan "ramah" dan "tidak ramah."
Konfirmasikan semua pembuat kode menafsirkan aturan-aturan ini dengan andal, yaitu kami mengambil sampel kami, menganalisis subset, dan kemudian secara statistik menunjukkan korelasi berpasangan kami pada evaluasi kualitatif sangat mirip.
Pengujian reliabilitas menyakitkan karena kami harus melakukannya tiga atau empat kali. Sampai -1- dikunci dan -2- menunjukkan korelasi berpasangan yang cukup tinggi, hasil kami untuk analisis penuh dicurigai. Mereka tidak dapat ditunjukkan valid atau tidak valid. Yang paling penting, kami harus melakukan uji percontohan reliabilitas sebelum set sampel akhir.
Pertanyaan saya adalah ini: Analisis statistik Joel tidak memiliki uji reliabilitas pilot dan tidak menetapkan definisi operasional "keramahan". Apakah data akhir cukup andal untuk mengatakan apa pun tentang validitas statistik hasil-hasilnya?
Untuk satu perspektif, pertimbangkan primer ini pada nilai reliabilitas antar kode dan definisi operasional yang konsisten. Dari sumber yang sama, Anda dapat membaca tentang uji reliabilitas pilot (item 5 dalam daftar).
Sesuai saran Andy W. dalam jawabannya, saya mencoba menghitung berbagai statistik reliabilitas pada dataset, yang tersedia di sini, menggunakan seri perintah ini dalam R (diperbarui saat saya menghitung statistik baru).
Statistik deskriptif ada di sini
Persentase perjanjian (dengan toleransi = 0): 0,0143
Persentase perjanjian (dengan toleransi = 1): 11.8
Krippendorff's alpha: 0,1529467
Saya juga mencoba model respons barang untuk data ini dalam pertanyaan lain.
sumber
Jawaban:
Langkah-langkah perjanjian ini menyatakan bahwa hampir tidak ada perjanjian kategororial - masing-masing pembuat kode memiliki titik cutoff internal untuk menilai komentar sebagai "ramah" atau "tidak ramah".
Jika kita mengasumsikan bahwa tiga kategori dipesan, yaitu: Tidak ramah <Netral <Ramah, kita juga dapat menghitung korelasi intraclass sebagai ukuran lain dari perjanjian. Pada sampel acak 1000 komentar, ada ICC (2,1) dari 0,28, dan ICC (2, k) dari 0,88. Itu berarti, jika Anda hanya akan mengambil satu dari 20 penilai, hasilnya akan sangat tidak dapat diandalkan (0,28), jika Anda mengambil rata-rata 20 penilai, hasilnya dapat diandalkan (0,88). Mengambil kombinasi berbeda dari tiga penilai acak, keandalan rata-rata adalah antara 0,50 dan 0,60, yang masih akan dinilai terlalu rendah.
Korelasi bivariat rata-rata antara dua coders adalah 0,34, yang juga agak rendah.
Jika langkah-langkah perjanjian ini dilihat sebagai ukuran kualitas coders (yang sebenarnya harus menunjukkan persetujuan yang baik), jawabannya adalah: mereka bukan coders yang baik dan harus dilatih lebih baik. Jika ini dilihat sebagai ukuran "seberapa baik kesepakatan spontan di antara orang-orang acak", jawabannya juga adalah: tidak terlalu tinggi. Sebagai patokan, korelasi rata-rata untuk peringkat daya tarik fisik adalah sekitar 0,47 - .71 [1]
[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000). Pepatah atau mitos kecantikan? Tinjauan meta-analitik dan teoritis. Buletin Psikologis, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390
sumber
Keandalan skor sering ditafsirkan dalam hal Teori Tes Klasik . Di sini seseorang memiliki skor sejati
X
,, tetapi apa yang Anda amati pada hasil tertentu tidak hanya skor sebenarnya, tetapi skor sebenarnya dengan beberapa kesalahan (yaituObserved = X + error
). Secara teori, dengan mengambil beberapa ukuran yang diamati dari tes dasar yang sama (membuat beberapa asumsi tentang distribusi kesalahan dari tes tersebut) seseorang kemudian dapat mengukur skor sebenarnya yang tidak teramati.Perhatikan di sini dalam kerangka kerja ini bahwa Anda harus mengasumsikan bahwa beberapa tindakan Anda yang diamati mengukur tes dasar yang sama. Buruknya keandalan item tes kemudian sering diambil sebagai bukti bahwa tindakan yang diamati tidak mengukur tes dasar yang sama. Ini hanyalah konvensi lapangan, keandalan yang buruk, dalam dan dari dirinya sendiri, tidak membuktikan (dalam arti statistik) item tidak mengukur konstruk yang sama. Jadi dapat diperdebatkan bahwa dengan mengambil banyak langkah yang diamati, bahkan dengan tes yang sangat tidak dapat diandalkan, seseorang dapat mengukur ukuran skor sebenarnya yang dapat diandalkan.
Juga dapat dikatakan bahwa teori tes klasik tidak selalu merupakan satu-satunya cara untuk menginterpretasikan tes semacam itu, dan banyak scholors akan berpendapat bahwa konsep variabel laten dan teori item-respons selalu lebih tepat daripada teori tes klasik.
Asumsi implisit serupa dalam teori tes klasik adalah ketika orang mengatakan reliabilitas terlalu tinggi. Itu tidak mengatakan apa-apa tentang validitas apakah item tertentu mengukur beberapa tes yang mendasarinya, tetapi ketika reliabilitas terlalu tinggi, para peneliti menganggapnya sebagai bukti bahwa kesalahan di antara tes tidak independen.
Saya tidak yakin mengapa Anda begitu bersemangat untuk tidak masuk dan menghitung keandalannya sendiri. Mengapa orang tidak dapat melakukan ini dan kemudian menginterpretasikan analisis dengan mengingat informasi tambahan ini?
sumber
before the final analysis
, jadi saya tidak yakin dari mana gagasan itu berasal.