Apakah distribusi kuasi-binomial (dalam konteks GLM)?

30

Saya berharap seseorang dapat memberikan gambaran intuitif tentang apa distribusi quasibinomial dan apa fungsinya. Saya sangat tertarik pada poin-poin ini:

  1. Bagaimana kuasibinomial berbeda dengan distribusi binomial.

  2. Ketika variabel respon adalah proporsi (nilai contoh termasuk 0,23, 0,11, 0,78, 0,98), model quasibinomial akan berjalan dalam R tetapi model binomial tidak akan.

  3. Mengapa model quasibinomial harus digunakan ketika variabel respon TRUE / FALSE disebarkan secara berlebihan.

luciano
sumber

Jawaban:

20
  1. Perbedaan antara distribusi binomial dan kuasi-binomial dapat dilihat pada fungsi densitas probabilitas (pdf), yang menjadi ciri distribusi ini.

    Binomial pdf:

    P(X=k)=(nk)pk(1p)nk

    Pasi-binomial pdf:

    P(X=k)=(nk)p(p+kϕ)k1(1pkϕ)nk

    Distribusi quasi-binomial, sementara mirip dengan distribusi binomial, memiliki parameter ekstra ϕ (terbatas pada |ϕ|min{p/n,(1p)/n} ) yang mencoba menggambarkan varians tambahan dalam data yang tidak bisa dijelaskan oleh distribusi Binomial saja.

    (Perhatikan bahwa rata-rata distribusi kuasi-binomial adalah Daripada sendiri.)pi=0nn!ϕi(nk)!p

  2. Saya tidak yakin dengan yang ini, mungkin fungsi glm di R menambahkan bobot dalam mode quasibinomial untuk menjelaskan hal ini?

  3. Tujuan dari parameter ekstra adalah untuk memperkirakan varians ekstra dalam data. Setiap model linier umum (GLM) membuat asumsi distribusi untuk hasil / respons dan memaksimalkan kemungkinan data berdasarkan distribusi ini. Ini adalah pilihan yang diambil analis, dan jika Anda merasa perlu memperhitungkan lebih banyak variasi dalam data Anda, maka Anda dapat memilih distribusi semasi-binomial untuk memodelkan respons glm Anda. Cara yang bagus untuk menguji apakah kita perlu mencocokkan model kuasi-binomial alih-alih binomial adalah dengan mencocokkan model quasi-binomial, dan menguji untuk melihat apakah parameter adalah 0.ϕϕ

Alejandro Ochoa
sumber
2
Bagus Alejandro, sekarang bagaimana saya bisa menguji jika parameter ϕ adalah 0?
Juanchi
2
Perhatikan bahwa Rdengan glm.fit, binomialdan quasibinomialpersis sama, kecuali bahwa quasibinomial(1) menghapus cek integer, dan (2) mengembalikan AIC dari NA. Lihat jawaban ini untuk lebih jelasnya.
miguelmorin
-1 Distribusi "kuasi-binomial" semacam ini tampaknya sama sekali tidak terkait dengan kemungkinan kuasi-binomial dalam konteks glms, sehingga sulit untuk melihat mengapa ia mendapatkan begitu banyak upvotes.
Jarle Tufto
14

Kuasi-binomial belum tentu distribusi tertentu; itu menggambarkan model untuk hubungan antara varians dan rata-rata dalam model linier umum yang kali lipat varians untuk binomial dalam hal rata-rata untuk binomial.ϕ

Ada distribusi yang sesuai dengan spesifikasi seperti itu (yang jelas - binomial berskala), tetapi itu belum tentu tujuan ketika model quasi-binomial dipasang; jika Anda cocok dengan data yang masih 0-1 itu tidak dapat diskalakan binomial.

Jadi model varians kuasi-binomial, melalui parameter , dapat lebih baik menangani data yang variansnya lebih besar (atau, mungkin, lebih kecil) daripada yang Anda dapatkan dengan data binomial, sementara tidak harus menjadi distribusi aktual sama sekali .ϕ

Ketika variabel respon adalah proporsi (nilai contoh termasuk 0,23, 0,11, 078, 0,98), model quasibinomial akan berjalan dalam R tetapi model binomial tidak akan

Untuk ingatan saya model binomial dapat dijalankan dalam R dengan proporsi *, tetapi Anda harus mengaturnya dengan benar.

* ada tiga cara terpisah untuk memberikan data binomial ke R yang saya ketahui. Saya cukup yakin itu salah satunya.

Glen_b -Reinstate Monica
sumber
Bagaimana ini terkait dengan estimasi quasilikelihood?
tim.farkas
2
+1 (tetapi saya ingin melihat jawaban yang lebih komprehensif!). Tiga cara untuk mengatur GLM binomial dengan proporsi kemungkinan adalah sebagai berikut: stats.stackexchange.com/a/26779/28666 ? Tautan mungkin bisa membantu. Juga, bagaimana apa yang Anda katakan tentang "quasibinomial" tidak benar-benar menjadi distribusi berkaitan dengan jawaban kedua di utas ini?
Amoeba berkata Reinstate Monica
1
@amoeba Anda dapat menulis distribusi untuknya, seperti yang dinyatakan dalam jawaban saya (binomial berskala) tetapi itu tidak dapat menjadi distribusi untuk data jumlah (quasibinomial tidak pada semua bilangan bulat kecuali parameter dispersi adalah 1) atau untuk data kontinu ( itu diskrit!). Orang umumnya menggunakannya untuk menghitung data karena varians-strukturnya (tetapi dalam hal ini tidak ada distribusi seperti itu dalam keluarga eksponensial)
Glen_b -Reinstate Monica