Keluarga GLM mewakili distribusi variabel respons atau residu?

13

Saya telah berdiskusi dengan beberapa anggota lab tentang ini, dan kami telah pergi ke beberapa sumber tetapi masih belum memiliki jawabannya:

Ketika kita mengatakan GLM memiliki keluarga poisson katakanlah apakah kita berbicara tentang distribusi residu atau variabel respon?

Poin pertentangan

  1. Membaca ini artikel itu menyatakan bahwa asumsi GLM adalah Independensi statistik pengamatan, spesifikasi yang benar dari link dan varians fungsi (yang membuat saya berpikir tentang residual, bukan variabel respon), skala yang benar pengukuran untuk variabel respon dan kurangnya pengaruh poin tunggal yang tidak semestinya

  2. Pertanyaan ini memiliki dua jawaban dengan masing-masing dua poin, satu yang muncul pertama berbicara tentang residu, dan yang kedua tentang variabel respons, yang mana?

  3. Di blogpost ini , ketika berbicara tentang asumsi, mereka menyatakan " Distribusi residu bisa menjadi yang lain, misalnya, binomial "

  4. Pada awal bab ini mereka mengatakan bahwa struktur kesalahan harus Poisson, tetapi residu pasti akan memiliki nilai positif dan negatif, bagaimana mungkin Poisson?

  5. Pertanyaan ini , yang sering dikutip dalam pertanyaan-pertanyaan seperti ini untuk membuat mereka digandakan tidak memiliki jawaban yang diterima

  6. Pertanyaan ini jawabannya berbicara tentang respons dan bukan residu

  7. Dalam uraian kursus ini dari Universitas Pensilvania mereka berbicara tentang variabel respons dalam asumsi, bukan residu

Derek Corcoran
sumber

Jawaban:

18

The keluarga argumen untuk model GLM menentukan keluarga distribusi untuk distribusi bersyarat dari respon , bukan dari residual (kecuali untuk kuasi -models).

Lihat cara ini: Untuk regresi linier biasa, kita dapat menulis model sebagai

YiNormal(β0+xiTβ,σ2).
Ini berarti bahwa respons Yi memiliki distribusi normal (dengan varian konstan), tetapi harapannya berbeda untuk masing-masing i . Oleh karena itu distribusi kondisional dari respons adalah distribusi normal (tetapi berbeda untuk setiap i ). Cara lain untuk menulis model ini adalah
Yi=β0+xiTβ+ϵi
mana masing-masingϵi didistribusikanNormal(0,σ2) .

β0+xiTβϵi

Jadi untuk semua keluarga lain, kami menggunakan definisi dalam gaya persamaan yang ditampilkan pertama di atas. Yaitu, distribusi kondisional dari respons. Jadi, tidak, residu (apa pun yang didefinisikan) dalam regresi Poisson tidak memiliki distribusi Poisson.

kjetil b halvorsen
sumber
13

Lebih jauh ke jawaban Kjetil yang sangat baik, saya ingin menambahkan beberapa contoh spesifik untuk membantu memperjelas arti dari distribusi bersyarat , yang dapat sedikit konsep yang sulit dipahami.

Katakanlah Anda mengambil sampel acak 100 ikan dari danau dan Anda tertarik melihat bagaimana usia ikan mempengaruhi beberapa variabel hasil:

  1. Berat ikan (Bobot);
  2. Apakah ikan lebih dari 30 cm atau tidak;
  3. Jumlah sisik ikan.

Variabel hasil pertama adalah kontinu, yang kedua adalah biner (0 = ikan TIDAK lebih panjang dari 30 cm; 1 = ikan lebih panjang dari 30 cm) dan yang ketiga adalah variabel jumlah.

Regresi Linier Sederhana

Bagaimana Umur memengaruhi Berat Badan? Anda akan merumuskan model regresi linier sederhana dari formulir:

Weight=β0+β1Age+ϵ

ϵσβ0+β1Age

Regresi Logistik Biner Sederhana

Bagaimana Umur mempengaruhi apakah ikan lebih panjang dari 30 cm? Anda akan merumuskan model regresi logistik biner sederhana dari formulir:

log(p1p)=β0+β1Age

pβ0+β1Agehalhal(1-hal)

Regresi Poisson Sederhana

Bagaimana Umur mempengaruhi jumlah sisik ikan? Anda akan merumuskan model regresi Poisson sederhana dari formulir:

lHaig(μ)=β0+β1Usia

μβ0+β1Usia

Singkatnya, distribusi bersyarat mewakili distribusi nilai-nilai hasil untuk nilai-nilai spesifik dari variabel prediktor yang dimasukkan dalam model . Setiap jenis model regresi yang digambarkan di atas memberikan asumsi distribusi tertentu pada distribusi kondisional dari variabel hasil yang diberikan Umur. Berdasarkan asumsi distribusi ini, model melanjutkan untuk merumuskan bagaimana (1) rata-rata distribusi kondisional bervariasi sebagai fungsi usia (regresi linier sederhana), (2) rata-rata yang diubah logit dari distribusi kondisional bervariasi sebagai fungsi dari usia (regresi logistik biner sederhana) atau (3) rata-rata log-transformasi distribusi kondisional bervariasi sebagai fungsi usia.

Untuk setiap jenis model, seseorang dapat menentukan residu yang sesuai untuk tujuan pengecekan model. Secara khusus, residu Pearson dan penyimpangan dapat didefinisikan untuk model regresi logistik dan Poisson.

Isabella Ghement
sumber
2
Jawaban yang sangat baik. Terima kasih untuk kalian berdua. Saya tidak pernah menyadari bahwa residual "aktual" tidak pernah benar-benar eksplisit dalam kerangka kerja GLM umum seperti dalam kasus distribusi normal.
mlofton
1
@mlofton: Terima kasih atas kata-kata baik Anda. Pertanyaan yang sangat bagus mengundang jawaban yang sangat baik. Kita semua mendapat manfaat dari pertukaran pengetahuan ini.
Isabella Ghement
4
Saya menggunakan GLM sejak lama (untuk satu atau dua tahun seperti 10 tahun yang lalu) dan itu selalu membingungkan saya, tetapi saya tidak pernah tahu itu adalah kebingungan saya sampai diminta dengan sangat jelas dan dijelaskan dengan sangat jelas. Jadi kadang-kadang kebingungan berarti bahkan tidak bisa mengajukan pertanyaan yang tepat. Terima kasih lagi.
mlofton
1
Anda benar sekali! Kebingungan adalah bagian dari pembelajaran - ketika kita berjuang dengan sesuatu untuk sementara waktu, kita siap untuk memahaminya dengan lebih baik ketika kita tiba-tiba menemukan penjelasan yang jelas.
Isabella Ghement
1
Dengan senang hati dan terima kasih atas jawaban luar biasa Anda @IsabellaGhement
Patrick