Sering muncul dalam ilmu sosial bahwa variabel-variabel yang harus didistribusikan dengan cara tertentu, katakanlah secara normal, pada akhirnya memiliki diskontinuitas dalam distribusi mereka di sekitar titik-titik tertentu.
Misalnya, jika ada cutoff spesifik seperti "passing / failing" dan jika langkah-langkah ini mengalami distorsi, mungkin ada diskontinuitas pada saat itu.
Salah satu contoh yang menonjol (dikutip di bawah) adalah nilai tes standar siswa biasanya didistribusikan pada dasarnya di mana-mana kecuali pada 60% di mana ada sangat sedikit massa dari 50-60% dan massa yang berlebihan sekitar 60-65%. Ini terjadi dalam kasus di mana guru menilai ujian siswa mereka sendiri. Penulis menyelidiki apakah guru benar-benar membantu siswa lulus ujian.
Bukti yang paling meyakinkan tanpa keraguan datang dari menunjukkan grafik kurva lonceng dengan diskontinuitas besar di sekitar batas yang berbeda untuk tes yang berbeda. Namun, bagaimana Anda mengembangkan tes statistik? Mereka mencoba interpolasi dan kemudian membandingkan fraksi di atas atau di bawah dan juga uji-t pada fraksi 5 poin di atas dan di bawah cutoff. Meskipun masuk akal, ini ad-hoc. Adakah yang bisa memikirkan sesuatu yang lebih baik?
Tautan: Aturan dan Kebijaksanaan dalam Evaluasi Siswa dan Sekolah: Kasus Pemeriksaan Bupati New York http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf
sumber
Jawaban:
Adalah penting untuk membingkai pertanyaan dengan benar dan untuk mengadopsi model konseptual yang berguna dari skor.
Pertanyaan
Ambang batas kecurangan potensial, seperti 55, 65, dan 85, diketahui secara apriori terlepas dari data: mereka tidak harus ditentukan dari data. (Oleh karena itu ini bukan masalah deteksi outlier atau masalah distribusi pas.) Tes harus menilai bukti bahwa beberapa (tidak semua) skor hanya kurang dari ambang batas ini dipindahkan ke ambang batas tersebut (atau, mungkin, lebih dari ambang batas itu).
Model konseptual
Untuk model konseptual, penting untuk memahami bahwa skor tidak mungkin memiliki distribusi normal (atau distribusi dengan parameter lain yang mudah). Itu sangat jelas dalam contoh yang diposting dan dalam setiap contoh lain dari laporan asli. Skor ini mewakili campuran sekolah; bahkan jika distribusi di sekolah mana pun adalah normal (tidak), campurannya tidak akan normal.
Pendekatan sederhana menerima bahwa ada distribusi skor yang benar: pendekatan yang akan dilaporkan kecuali untuk bentuk kecurangan tertentu. Oleh karena itu pengaturan non-parametrik. Itu tampaknya terlalu luas, tetapi ada beberapa karakteristik distribusi skor yang dapat diantisipasi atau diamati dalam data aktual:
Akan ada variasi dalam penghitungan ini di sekitar beberapa versi halus dari distribusi skor yang diidealkan. Variasi ini biasanya berukuran sama dengan akar kuadrat dari hitungan.
Membangun tes
karena pada ini akan menggabungkan penurunan negatif besar dengan negatif dari peningkatan positif besar , sehingga memperbesar efek kecurangan .i=t−1 c(t+1)−c(t) c(t)−c(t−1)
Saya akan berhipotesis - dan ini dapat diperiksa - bahwa korelasi serial jumlah dekat ambang cukup kecil. (Korelasi serial di tempat lain tidak relevan.) Ini menyiratkan bahwa varians dari adalah sekitarc′′(t−1)=c(t+1)−2c(t)+c(t−1)
Saya sebelumnya menyarankan bahwa untuk semua (sesuatu yang juga dapat diperiksa). Dari manavar(c(i))≈c(i) i
kira-kira harus memiliki varian unit. Untuk populasi skor besar (yang diposting sekitar 20.000) kita juga dapat mengharapkan distribusi normal . Karena kami mengharapkan nilai yang sangat negatif untuk menunjukkan pola kecurangan, kami dengan mudah mendapatkan tes ukuran : writing untuk cdf dari distribusi Normal standar, tolak hipotesis bahwa tidak ada kecurangan pada ambang ketika .c′′(t−1) α Φ t Φ(z)<α
Contoh
Sebagai contoh, perhatikan set benar skor tes, diambil iid dari campuran tiga distribusi normal:
Untuk ini saya menerapkan jadwal kecurangan di ambang didefinisikan oleh . Ini memfokuskan hampir semua kecurangan pada satu atau dua skor tepat di bawah 65:t=65 δ(i)=exp(−2i)
Untuk memahami apa yang dilakukan tes, saya menghitung untuk setiap skor, bukan hanya , dan memplotnya dengan skor:z t
(Sebenarnya, untuk menghindari masalah dengan jumlah kecil, saya pertama-tama menambahkan 1 ke setiap hitungan dari 0 hingga 100 untuk menghitung penyebut .)z
Fluktuasi dekat 65 terlihat jelas, seperti kecenderungan untuk semua fluktuasi lain sekitar 1 dalam ukuran, konsisten dengan asumsi pengujian ini. Statistik uji adalah dengan nilai-p yang sesuai dari , hasil yang sangat signifikan. Perbandingan visual dengan gambar dalam pertanyaan itu sendiri menunjukkan tes ini akan mengembalikan nilai p setidaknya sekecil.z=−4.19 Φ(z)=0.0000136
(Harap dicatat, bahwa tes itu sendiri tidak menggunakan plot ini, yang ditunjukkan untuk menggambarkan ide-ide. Tes ini hanya melihat pada nilai yang diplot pada ambang pintu, di tempat lain. Akan tetapi praktik yang baik adalah membuat plot seperti itu. untuk mengonfirmasi bahwa statistik uji benar-benar menentukan ambang yang diharapkan sebagai lokus kecurangan dan bahwa semua skor lainnya tidak mengalami perubahan seperti itu. Di sini, kita melihat bahwa pada semua skor lainnya ada fluktuasi antara sekitar -2 dan 2, tetapi jarang Perhatikan juga, bahwa seseorang tidak perlu benar-benar menghitung standar deviasi dari nilai-nilai dalam plot ini untuk menghitung , dengan demikian menghindari masalah yang terkait dengan efek kecurangan yang menggelembungkan fluktuasi di beberapa lokasi.)z
Saat menerapkan tes ini ke beberapa ambang batas, penyesuaian Bonferroni pada ukuran tes akan lebih bijaksana. Penyesuaian tambahan saat diterapkan ke beberapa tes sekaligus juga merupakan ide yang bagus.
Evaluasi
Prosedur ini tidak dapat secara serius diusulkan untuk digunakan sampai diuji pada data aktual. Cara yang baik adalah mengambil skor untuk satu tes dan menggunakan skor non-kritis untuk tes sebagai ambang batas. Agaknya ambang batas semacam itu tidak dikenakan bentuk kecurangan ini. Simulasikan kecurangan sesuai dengan model konseptual ini dan pelajari distribusi simulasi . Ini akan menunjukkan (a) apakah nilai-p itu akurat dan (b) kekuatan tes untuk menunjukkan bentuk kecurangan yang disimulasikan. Memang, seseorang dapat menggunakan studi simulasi seperti itu pada data yang sedang dievaluasi, memberikan cara yang sangat efektif untuk menguji apakah tes tersebut sesuai dan apa kekuatan sebenarnya. Karena statistik ujiz z sangat sederhana, simulasi akan dapat dilakukan dan cepat dijalankan.
sumber
Saya menyarankan pemasangan model yang secara eksplisit memprediksi penurunan dan kemudian menunjukkan bahwa itu secara signifikan lebih cocok dengan data daripada yang naif.
Anda memerlukan dua komponen:
Salah satu model yang mungkin untuk ambang tunggal (dari nilai ) adalah sebagai berikut: manat
Biasanya Anda tidak bisa naik banyak skor. Saya akan menduga peluruhan eksponensial , di mana adalah proporsi skor yang diperiksa ulang (dimanipulasi).m(s′→t)≈aqt−s′ a
Sebagai distribusi awal Anda dapat mencoba menggunakan distribusi Poisson atau Gaussian. Tentu saja idealnya memiliki tes yang sama tetapi untuk satu kelompok guru memberikan ambang batas dan untuk yang lain - tidak ada ambang batas.
Jika ada lebih banyak ambang maka seseorang dapat menerapkan rumus yang sama tetapi dengan koreksi untuk setiap . Mungkin akan berbeda juga (misalnya karena perbedaan antara gagal-pass bisa lebih penting daripada antara dua nilai yang lewat).ti ai
Catatan:
sumber
Saya akan membagi masalah ini menjadi dua sub-masalah:
Ada berbagai cara untuk menangani salah satu dari submasalah tersebut.
Tampak bagi saya bahwa distribusi Poisson akan sesuai dengan data, jika didistribusikan secara independen dan identik (iid) , yang tentu saja kami pikir tidak. Jika kita secara naif mencoba memperkirakan parameter distribusi kita akan condong oleh outlier. Dua cara yang mungkin untuk mengatasinya adalah dengan menggunakan teknik Robust Regression , atau metode heuristik seperti cross-validation.
Untuk deteksi outlier ada lagi banyak pendekatan. Yang paling sederhana adalah dengan menggunakan interval kepercayaan dari distribusi yang kami pasang di tahap 1. Metode lain termasuk metode bootstrap dan pendekatan Monte-Carlo.
Meskipun ini tidak akan memberi tahu Anda bahwa ada "lompatan" dalam distribusi, itu akan memberi tahu Anda apakah ada lebih banyak pencilan daripada yang diharapkan untuk ukuran sampel.
Pendekatan yang lebih kompleks adalah membangun berbagai model untuk data, seperti distribusi majemuk, dan menggunakan beberapa jenis metode perbandingan model (AIC / BIC) untuk menentukan model mana yang paling cocok untuk data. Namun jika Anda hanya mencari "penyimpangan dari distribusi yang diharapkan" maka ini sepertinya berlebihan.
sumber