Apakah skor tes benar-benar mengikuti distribusi normal?

13

Saya sudah mencoba mempelajari distribusi mana yang akan digunakan dalam GLM, dan saya agak bingung kapan harus menggunakan distribusi normal. Di salah satu bagian dari buku teks saya, dikatakan bahwa distribusi normal bisa baik untuk pemodelan nilai ujian. Pada bagian selanjutnya, ia menanyakan distribusi apa yang sesuai untuk memodelkan klaim asuransi mobil. Kali ini, dikatakan bahwa distribusi yang sesuai adalah Gamma atau Inverse Gaussian karena mereka kontinu dengan nilai positif saja. Yah, saya percaya bahwa nilai ujian juga akan berlanjut dengan hanya nilai-nilai positif, jadi mengapa kita menggunakan distribusi normal di sana? Bukankah distribusi normal memungkinkan nilai negatif?

mistersunnyd
sumber
1
Jika Anda khawatir tentang batasan skor, Anda dapat mencoba en.wikipedia.org/wiki/Truncated_normal_distribution
JG
5
Di dunia nyata, tentu saja, distribusi skor ujian sering tidak terlihat seperti distribusi normal. Sebagai contoh dari masa matematika saya, saya ingat kelas Topologi I terkenal karena distribusi kelas "kurva dumbbell" yang sangat bimodal: Anda juga memahami konsep-konsep kunci dan mendapatkan skor yang hampir sempurna, atau Anda tidak dan beruntung mendapat poin sama sekali. Sangat sedikit orang yang akhirnya mencetak skor di mana pun di tengah-tengah di antara kedua ekstrem itu.
Ilmari Karonen
2
Tidak. Pertanyaan selanjutnya.
Carl Witthoft

Jawaban:

14

Tinggi badan, misalnya, sering dimodelkan sebagai normal. Mungkin tinggi pria sekitar 5 kaki 10 dengan standar deviasi 2 inci. Kita tahu tinggi negatif tidak fisik, tetapi di bawah model ini, probabilitas mengamati ketinggian negatif pada dasarnya adalah nol. Kami menggunakan model itu karena itu adalah pendekatan yang cukup baik.

Semua model salah. Pertanyaannya adalah "dapatkah model ini tetap berguna", dan dalam kasus di mana kita memodelkan hal-hal seperti tinggi dan nilai tes, memodelkan fenomena seperti biasa berguna meskipun secara teknis memungkinkan untuk hal-hal yang tidak fisik.

Pisang Demetri
sumber
Dalam kasus khusus ini, patut dipertanyakan apakah distribusi normal bahkan merupakan perkiraan yang berguna . Hampir setiap distribusi nilai yang saya lihat menyerupai kurva bimodal yang disebutkan dalam komentar untuk tingkat tertentu. (Meskipun biasanya dengan mode sekitar 0,6 dan 0,9, bukan pada ujung yang ekstrim) Namun, kombinasi linear dari dua distribusi normal dengan cara yang berbeda tidak akan menjadi perkiraan yang buruk.
Ray
Saya tidak berargumen bahwa yang normal adalah perkiraan TERBAIK. Seluruh poin dari komentar saya benar-benar dibuat dalam paragraf terakhir itu. Komentar tentang bimodalitas distribusi kelas aktual, setidaknya pada tingkat abstraksi ini, benar-benar tidak membantu.
Demetri Pananos
Saya setuju dengan semua yang Anda katakan dalam jawaban Anda, tetapi bagian dari pertanyaan menyangkut apakah distribusi normal secara khusus berlaku untuk pemodelan distribusi kelas. Dan jawaban untuk itu biasanya "Tidak". Semua model salah dan beberapa model berguna, tetapi beberapa lebih salah dan kurang bermanfaat daripada yang lain. Fakta bahwa distribusi normal pada khususnya adalah kecocokan yang sangat buruk untuk masalah ini adalah penting, dan jawabannya karena tampaknya menunjukkan bahwa normal hanya salah karena ekornya negatif dan tidak terbatas, ketika sebenarnya ada masalah yang jauh lebih dalam.
Ray
Anda menjadi sedikit berlebihan di sini. Masalah OP adalah bahwa normal memungkinkan untuk skor negatif. Bimodality bukan masalah. Anda tidak melihat hutan untuk pohon sehubungan dengan pertanyaan ini. Detail model tidak relevan saat ini.
Demetri Pananos
10

Bukankah distribusi normal memungkinkan nilai negatif?

Benar. Itu juga tidak memiliki batas atas.

Di salah satu bagian dari buku teks saya, dikatakan bahwa distribusi normal bisa baik untuk pemodelan nilai ujian.

Terlepas dari pernyataan sebelumnya, namun demikian kadang-kadang demikian. Jika Anda memiliki banyak komponen untuk pengujian, tidak terlalu kuat terkait (mis. Sehingga Anda pada dasarnya tidak pertanyaan yang sama belasan kali, atau setiap bagian memerlukan jawaban yang benar untuk bagian sebelumnya), dan tidak sangat mudah atau sangat sulit ( sehingga sebagian besar mark berada di suatu tempat dekat tengah), maka marka mungkin sering cukup baik didekati dengan distribusi normal; seringkali cukup baik sehingga analisis tipikal harus menimbulkan sedikit perhatian.

Kami tahu pasti bahwa itu tidak normal , tetapi itu tidak secara otomatis menjadi masalah - selama perilaku prosedur yang kami gunakan cukup dekat dengan apa yang seharusnya untuk tujuan kami (misalnya kesalahan standar, interval kepercayaan, tingkat signifikansi dan kekuatan - mana yang dibutuhkan - lakukan dekat dengan apa yang kita harapkan)

Pada bagian selanjutnya, ia menanyakan distribusi apa yang sesuai untuk memodelkan klaim asuransi mobil. Kali ini, dikatakan bahwa distribusi yang sesuai adalah Gamma atau Inverse Gaussian karena mereka kontinu dengan nilai positif saja.

Ya, tetapi lebih dari itu - mereka cenderung condong ke kanan dan variabilitas cenderung meningkat ketika rata-rata semakin besar.

Berikut adalah contoh distribusi ukuran klaim untuk klaim kendaraan:

https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg

(Gambar 5 dari Garrido, Genest & Schulz (2016) "Model linear umum untuk frekuensi dan tingkat keparahan klaim asuransi yang tergantung", Asuransi: Matematika dan Ekonomi, Vol 70, September, p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )

Ini menunjukkan ekor kanan miring kanan dan berat kanan. Namun kita harus sangat berhati-hati karena ini adalah distribusi marjinal, dan kami menulis model untuk distribusi bersyarat , yang biasanya akan jauh lebih condong (distribusi marjinal yang kita lihat jika kita hanya melakukan histogram ukuran klaim sebagai campuran distribusi bersyarat ini). Namun demikian biasanya adalah kasus bahwa jika kita melihat ukuran klaim dalam subkelompok prediktor (mungkin mengkategorikan variabel kontinu) bahwa distribusinya masih sangat condong ke kanan dan berekor cukup berat di sebelah kanan, menunjukkan bahwa sesuatu seperti model gamma * adalah mungkin jauh lebih cocok daripada model Gaussian.

* mungkin ada sejumlah distribusi lain yang akan lebih cocok daripada Gaussian - Gaussian terbalik adalah pilihan lain - meskipun kurang umum; model lognormal atau Weibull, walaupun bukan GLM sebagaimana adanya, mungkin cukup berguna juga.

[Jarang terjadi bahwa distribusi ini adalah deskripsi yang hampir sempurna; mereka perkiraan yang tidak tepat, tetapi dalam banyak kasus cukup baik sehingga analisis ini berguna dan dekat dengan properti yang diinginkan.]

Yah, saya percaya bahwa nilai ujian juga akan berlanjut dengan hanya nilai-nilai positif, jadi mengapa kita menggunakan distribusi normal di sana?

Karena (dalam kondisi yang saya sebutkan sebelumnya - banyak komponen, tidak terlalu tergantung, tidak sulit atau mudah) distribusinya cenderung cukup dekat dengan simetris, unimodal dan tidak berekor berat.

Glen_b -Reinstate Monica
sumber
0

Skor ujian mungkin lebih baik dimodelkan dengan distribusi binomial. Dalam kasus yang sangat sederhana, Anda mungkin memiliki 100 pertanyaan benar / salah masing-masing bernilai 1 poin, sehingga skornya akan menjadi bilangan bulat antara 0 dan 100. Jika Anda menganggap tidak ada korelasi antara kebenaran peserta tes dari masalah ke masalah (asumsi yang meragukan meskipun ), skor adalah jumlah variabel acak independen, dan Teorema Limit Sentral berlaku. Ketika jumlah pertanyaan meningkat, sebagian kecil dari masalah yang benar menyatu menjadi distribusi normal.

Anda mengajukan pertanyaan yang bagus tentang nilai yang kurang dari 0. Anda juga bisa mengajukan pertanyaan yang sama tentang nilai yang lebih besar dari 100%. Ketika jumlah pertanyaan tes meningkat, varians dari jumlah berkurang, sehingga puncaknya ditarik ke arah rata-rata. Demikian pula, distribusi normal yang paling sesuai akan memiliki varian yang lebih kecil dan berat pdf di luar interval [0, 1] cenderung menuju 0, meskipun akan selalu nol. Ruang antara nilai yang mungkin dari "fraksi yang benar" juga akan berkurang (1/100 untuk 100 pertanyaan, 1/1000 untuk 1000 pertanyaan, dll.), Sehingga secara informal, pdf mulai berperilaku lebih dan lebih seperti pdf berkelanjutan.

elplatt
sumber