Saya sudah mencoba mempelajari distribusi mana yang akan digunakan dalam GLM, dan saya agak bingung kapan harus menggunakan distribusi normal. Di salah satu bagian dari buku teks saya, dikatakan bahwa distribusi normal bisa baik untuk pemodelan nilai ujian. Pada bagian selanjutnya, ia menanyakan distribusi apa yang sesuai untuk memodelkan klaim asuransi mobil. Kali ini, dikatakan bahwa distribusi yang sesuai adalah Gamma atau Inverse Gaussian karena mereka kontinu dengan nilai positif saja. Yah, saya percaya bahwa nilai ujian juga akan berlanjut dengan hanya nilai-nilai positif, jadi mengapa kita menggunakan distribusi normal di sana? Bukankah distribusi normal memungkinkan nilai negatif?
normal-distribution
generalized-linear-model
gamma-distribution
inverse-gaussian-distrib
mistersunnyd
sumber
sumber
Jawaban:
Tinggi badan, misalnya, sering dimodelkan sebagai normal. Mungkin tinggi pria sekitar 5 kaki 10 dengan standar deviasi 2 inci. Kita tahu tinggi negatif tidak fisik, tetapi di bawah model ini, probabilitas mengamati ketinggian negatif pada dasarnya adalah nol. Kami menggunakan model itu karena itu adalah pendekatan yang cukup baik.
Semua model salah. Pertanyaannya adalah "dapatkah model ini tetap berguna", dan dalam kasus di mana kita memodelkan hal-hal seperti tinggi dan nilai tes, memodelkan fenomena seperti biasa berguna meskipun secara teknis memungkinkan untuk hal-hal yang tidak fisik.
sumber
Benar. Itu juga tidak memiliki batas atas.
Terlepas dari pernyataan sebelumnya, namun demikian kadang-kadang demikian. Jika Anda memiliki banyak komponen untuk pengujian, tidak terlalu kuat terkait (mis. Sehingga Anda pada dasarnya tidak pertanyaan yang sama belasan kali, atau setiap bagian memerlukan jawaban yang benar untuk bagian sebelumnya), dan tidak sangat mudah atau sangat sulit ( sehingga sebagian besar mark berada di suatu tempat dekat tengah), maka marka mungkin sering cukup baik didekati dengan distribusi normal; seringkali cukup baik sehingga analisis tipikal harus menimbulkan sedikit perhatian.
Kami tahu pasti bahwa itu tidak normal , tetapi itu tidak secara otomatis menjadi masalah - selama perilaku prosedur yang kami gunakan cukup dekat dengan apa yang seharusnya untuk tujuan kami (misalnya kesalahan standar, interval kepercayaan, tingkat signifikansi dan kekuatan - mana yang dibutuhkan - lakukan dekat dengan apa yang kita harapkan)
Ya, tetapi lebih dari itu - mereka cenderung condong ke kanan dan variabilitas cenderung meningkat ketika rata-rata semakin besar.
Berikut adalah contoh distribusi ukuran klaim untuk klaim kendaraan:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Gambar 5 dari Garrido, Genest & Schulz (2016) "Model linear umum untuk frekuensi dan tingkat keparahan klaim asuransi yang tergantung", Asuransi: Matematika dan Ekonomi, Vol 70, September, p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )
Ini menunjukkan ekor kanan miring kanan dan berat kanan. Namun kita harus sangat berhati-hati karena ini adalah distribusi marjinal, dan kami menulis model untuk distribusi bersyarat , yang biasanya akan jauh lebih condong (distribusi marjinal yang kita lihat jika kita hanya melakukan histogram ukuran klaim sebagai campuran distribusi bersyarat ini). Namun demikian biasanya adalah kasus bahwa jika kita melihat ukuran klaim dalam subkelompok prediktor (mungkin mengkategorikan variabel kontinu) bahwa distribusinya masih sangat condong ke kanan dan berekor cukup berat di sebelah kanan, menunjukkan bahwa sesuatu seperti model gamma * adalah mungkin jauh lebih cocok daripada model Gaussian.
* mungkin ada sejumlah distribusi lain yang akan lebih cocok daripada Gaussian - Gaussian terbalik adalah pilihan lain - meskipun kurang umum; model lognormal atau Weibull, walaupun bukan GLM sebagaimana adanya, mungkin cukup berguna juga.
[Jarang terjadi bahwa distribusi ini adalah deskripsi yang hampir sempurna; mereka perkiraan yang tidak tepat, tetapi dalam banyak kasus cukup baik sehingga analisis ini berguna dan dekat dengan properti yang diinginkan.]
Karena (dalam kondisi yang saya sebutkan sebelumnya - banyak komponen, tidak terlalu tergantung, tidak sulit atau mudah) distribusinya cenderung cukup dekat dengan simetris, unimodal dan tidak berekor berat.
sumber
Skor ujian mungkin lebih baik dimodelkan dengan distribusi binomial. Dalam kasus yang sangat sederhana, Anda mungkin memiliki 100 pertanyaan benar / salah masing-masing bernilai 1 poin, sehingga skornya akan menjadi bilangan bulat antara 0 dan 100. Jika Anda menganggap tidak ada korelasi antara kebenaran peserta tes dari masalah ke masalah (asumsi yang meragukan meskipun ), skor adalah jumlah variabel acak independen, dan Teorema Limit Sentral berlaku. Ketika jumlah pertanyaan meningkat, sebagian kecil dari masalah yang benar menyatu menjadi distribusi normal.
Anda mengajukan pertanyaan yang bagus tentang nilai yang kurang dari 0. Anda juga bisa mengajukan pertanyaan yang sama tentang nilai yang lebih besar dari 100%. Ketika jumlah pertanyaan tes meningkat, varians dari jumlah berkurang, sehingga puncaknya ditarik ke arah rata-rata. Demikian pula, distribusi normal yang paling sesuai akan memiliki varian yang lebih kecil dan berat pdf di luar interval [0, 1] cenderung menuju 0, meskipun akan selalu nol. Ruang antara nilai yang mungkin dari "fraksi yang benar" juga akan berkurang (1/100 untuk 100 pertanyaan, 1/1000 untuk 1000 pertanyaan, dll.), Sehingga secara informal, pdf mulai berperilaku lebih dan lebih seperti pdf berkelanjutan.
sumber