Distribusi Tweedie dapat memodelkan data yang miring dengan massa titik pada nol saat parameter (eksponen dalam hubungan mean-variance) adalah antara 1 dan 2.
Demikian pula model nol-meningkat (apakah kontinu atau diskrit) mungkin memiliki sejumlah besar nol.
Saya mengalami kesulitan memahami mengapa ketika saya melakukan prediksi atau menghitung nilai yang sesuai dengan model-model ini, semua nilai yang diprediksi tidak nol.
Bisakah model ini benar-benar memprediksi angka nol yang tepat?
Sebagai contoh
library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")
pred
sekarang tidak mengandung angka nol. Saya pikir kegunaan model seperti distribusi Tweedie berasal dari kemampuannya untuk memprediksi angka nol yang tepat dan bagian yang berkelanjutan.
Saya tahu bahwa dalam contoh saya, variabelnya x
tidak terlalu prediktif.
Jawaban:
Perhatikan bahwa nilai prediksi dalam GLM adalah rata-rata.
Untuk setiap distribusi pada nilai-nilai non-negatif, untuk memprediksi rata - rata 0, distribusinya harus sepenuhnya lonjakan pada 0.
Namun, dengan log-link, Anda tidak akan pernah cocok dengan rata-rata nol (karena itu akan membutuhkan untuk pergi ke - ∞ ).η - ∞
Jadi masalah Anda bukanlah masalah dengan Tweedie, tetapi jauh lebih umum; Anda akan memiliki masalah yang sama persis dengan Poisson (zero-inflated atau GLM Poisson biasa) misalnya.
Karena memprediksi nol yang tepat tidak akan terjadi untuk distribusi apa pun atas nilai non-negatif dengan log-link, pemikiran Anda tentang hal ini pasti salah.
Salah satu daya tariknya adalah modelnya angka nol yang pasti dalam data, bukan bahwa prediksi rata-rata akan menjadi 0. [Tentu saja distribusi yang sesuai dengan bukan nol berarti masih dapat memiliki probabilitas tepat nol, meskipun rata-rata harus melebihi 0. Misalnya, interval prediksi yang sesuai bisa mencakup 0.]
Sama sekali tidak penting bahwa distribusi pas mencakup proporsi substansial dari nol - yang tidak menjadikan pas berarti nol.
Perhatikan bahwa jika Anda mengubah fungsi tautan untuk mengatakan tautan identitas, itu tidak benar-benar menyelesaikan masalah Anda - rata-rata variabel acak non-negatif yang tidak semuanya nol akan positif.
sumber
Memprediksi proporsi nol
Saya adalah penulis paket statmod dan penulis gabungan dari paket tweedie. Segala sesuatu dalam contoh Anda berfungsi dengan benar. Kode ini menghitung dengan benar untuk setiap nol yang mungkin ada dalam data.
Seperti yang dijelaskan oleh Glen_b dan Tim, nilai rata-rata yang diprediksi tidak akan pernah benar-benar nol, kecuali probabilitas nol adalah 100%. Yang mungkin menarik adalah proporsi nol yang diprediksi, dan ini dapat dengan mudah diekstraksi dari model yang cocok seperti yang saya tunjukkan di bawah ini.
Ini adalah contoh kerja yang lebih masuk akal. Pertama-tama, simulasikan beberapa data:
Data berisi 12 nol.
Sekarang, pas Tweedie glm:
Jadi proporsi prediksi nol bervariasi dari 38,1% pada nilai rata-rata terkecil hingga 4,5e-6 pada nilai rata-rata terbesar.
Rumus untuk probabilitas nol yang tepat dapat ditemukan di Dunn & Smyth (2001) Tweedie Family Densities: Metode Evaluasi atau Dunn & Smyth (2005) Seri evaluasi seri kepadatan model dispersi eksponensial Tweedie .
sumber
Jawaban ini digabungkan dari utas lainnya yang bertanya tentang prediksi model regresi nol-inflasi, tetapi juga berlaku untuk model Tweedie GLM.
sumber