Distribusi nol, apa sebenarnya mereka?

15

Saya berjuang untuk memahami distribusi nol meningkat. Apakah mereka? Apa gunanya?

Jika saya memiliki data dengan banyak nol, maka saya bisa memasukkan regresi logistik pertama menghitung probabilitas nol, dan kemudian saya bisa menghapus semua nol, dan kemudian cocok dengan regresi reguler menggunakan pilihan distribusi saya (misalnya poisson).

Lalu seseorang mengatakan kepada saya "hei, gunakan distribusi nol yang digelembungkan", tetapi melihat itu, tampaknya tidak melakukan sesuatu yang berbeda dari apa yang saya sarankan di atas? Ini memiliki parameter reguler , dan kemudian parameter lain untuk memodelkan probabilitas nol? Itu hanya melakukan kedua hal sekaligus, bukan? $\mu$ $p$

zero-inflation Calro
sumber

3

Mengapa Anda menghapus semua nol? Anda dapat melakukannya bersama-sama, pertama-tama Anda menghitung probabilitas 0 dan 1 dan menggunakannya sebagai bobot untuk distribusi Poisson Anda yaitu model Zero inflated (distribution). Baca ini, cukup jelas en.wikipedia.org/wiki/Zero-inflated_model

Deep North

13

cocok dengan regresi logistik pertama menghitung probabilitas nol, dan kemudian saya bisa menghapus semua nol, dan kemudian cocok dengan regresi reguler menggunakan pilihan distribusi saya (poisson misalnya)

Anda benar sekali. Ini adalah salah satu cara agar sesuai dengan model inflasi nol (atau seperti yang Achim Zeileis tunjukkan dalam komentar, ini benar-benar "model rintangan", yang dapat dilihat sebagai kasus khusus dari model inflasi nol).

Perbedaan antara prosedur yang Anda gambarkan dan model nol-lipat "all-in-one" adalah penyebaran kesalahan. Seperti semua prosedur dua langkah lainnya dalam statistik, ketidakpastian keseluruhan prediksi Anda pada langkah 2 tidak akan memperhitungkan ketidakpastian apakah prediksi tersebut harus 0 atau tidak.

Terkadang ini adalah kejahatan yang perlu. Untungnya, itu tidak perlu dalam kasus ini. Di R, Anda dapat menggunakan pscl::hurdle()atau fitdistrplus::fitdist().

shadowtalker
sumber

dapatkah Anda menjelaskan ini "ketidakpastian keseluruhan prediksi Anda pada langkah 2 tidak akan memperhitungkan ketidakpastian apakah prediksi tersebut harus 0 atau tidak"? Ketika Anda melakukan Zip Poisson, Anda akan menggandakan probabilitas bagian pertama ke fungsi likelihood dari model Poisson, oleh karena itu langkah 2 akan memperhitungkan ketidakpastian 0 atau 1.

Deep North

1

P (Y = 1 | X = x) = 0.51

$P(Y=1|X=x) = 0.51$

0.51

$0.51$

3

@ssdecontrol Biasanya ini tidak disebut model zero-inflated tetapi model rintangan (misalnya, pscl::hurdle()). Dan untuk mendapatkan kesesuaian yang tepat, distribusi yang digunakan untuk data tanpa nol harus terpotong nol (atau tidak mengarah ke nol apa pun di tempat pertama). Lihat balasan saya untuk lebih jelasnya.

Achim Zeileis

9

Ide dasar yang Anda gambarkan adalah pendekatan yang valid dan sering disebut model rintangan (atau model dua bagian) daripada model nol-inflasi .

Namun, sangat penting bahwa model untuk akun data non-nol untuk menghapus nol. Jika Anda memasukkan model Poisson ke data tanpa nol, ini hampir pasti akan menghasilkan kecocokan yang buruk karena distribusi Poisson selalu memiliki probabilitas positif untuk nol. Alternatif alami adalah dengan menggunakan distribusi Poisson nol-terpotong yang merupakan pendekatan klasik untuk menghambat regresi untuk data hitungan.

Perbedaan utama antara model zero-inflated dan hurdle adalah probabilitas yang dimodelkan dalam bagian biner dari regresi. Untuk model rintangan itu hanya probabilitas nol vs non-nol. Dalam model nol-inflasi itu adalah probabilitas untuk memiliki nol berlebih , yaitu, probabilitas nol yang tidak disebabkan oleh distribusi yang tidak meningkat (misalnya, Poisson).

Untuk diskusi tentang model rintangan dan nol-inflasi untuk data jumlah dalam R, lihat manuskrip kami yang diterbitkan dalam JSS dan juga dikirim sebagai sketsa psclpaket: http://dx.doi.org/10.18637/jss.v027.i08

Achim Zeileis
sumber

7

Apa yang dikatakan ssdecontrol sangat benar. Tapi saya ingin menambahkan beberapa sen ke diskusi.

Saya baru saja menonton kuliah tentang model Zero Inflated untuk menghitung data oleh Richard McElreath di YouTube.

Masuk akal untuk memperkirakan p sambil mengendalikan variabel-variabel yang menjelaskan laju model Poisson murni, khususnya jika Anda menganggap bahwa peluang nol yang diamati berasal dari distribusi Poisson bukan 100%.

Ini juga masuk akal ketika Anda mempertimbangkan parameter model, karena Anda berakhir dengan dua variabel untuk memperkirakan, p dan tingkat model Poisson, dan dua persamaan, kasus ketika jumlah adalah nol dan kasus ketika jumlah berbeda dari nol.

Sumber gambar: Pemikiran Ulang Statistik - Kursus Bayesian dengan Contoh dalam R dan Stan oleh Richard McElreath

Edit : salah ketik

Guilherme Marthe
sumber

Referensi terhadap materi pembelajaran dihargai ... tetapi bagaimana ini menjawab pertanyaan yang ada? Ini seperti komentar yang dikirim sebagai jawaban ...

RTbecard

Distribusi nol, apa sebenarnya mereka?

Jawaban: