Apa perbedaan antara model zero-inflated dan hurdle?

81

Saya bertanya-tanya apakah ada perbedaan yang jelas antara apa yang disebut sebagai distribusi nol (model) dan apa yang disebut distribusi hurdle-at-zero (model)? Istilah-istilah itu cukup sering muncul dalam literatur dan saya menduga itu tidak sama, tetapi bisakah Anda menjelaskan kepada saya perbedaannya dalam istilah yang sederhana?

zero-inflation penyamun
sumber

80

Terima kasih atas pertanyaan yang menarik!

Perbedaan: Salah satu batasan model penghitungan standar adalah bahwa nol dan nonzeros (positif) diasumsikan berasal dari proses pembuatan data yang sama. Dengan model rintangan , kedua proses ini tidak dibatasi untuk menjadi sama. Ide dasarnya adalah bahwa probabilitas Bernoulli mengatur hasil biner dari apakah suatu variasi jumlah memiliki nol atau realisasi positif. Jika realisasinya positif, rintangannya dilewati, dan distribusi kondisional dari hal-hal positif diatur oleh model data hitung yang terpotong pada nol. Dengan model nol-inflasi, variabel respons dimodelkan sebagai campuran dari distribusi Bernoulli (atau menyebutnya massa titik nol) dan distribusi Poisson (atau distribusi jumlah lainnya yang didukung pada bilangan bulat non-negatif). Untuk lebih detail dan rumus, lihat, misalnya, Gurmu dan Trivedi (2011) dan Dalrymple, Hudson, dan Ford (2003).

Contoh: Model rintangan dapat dimotivasi oleh proses pengambilan keputusan berurutan yang dihadapi oleh individu. Anda pertama-tama memutuskan apakah Anda perlu membeli sesuatu, dan kemudian Anda memutuskan jumlah sesuatu itu (yang pasti positif). Ketika Anda diizinkan untuk (atau berpotensi dapat) membeli apa pun setelah keputusan Anda untuk membeli sesuatu adalah contoh situasi di mana model zero-inflated sesuai. Nol dapat berasal dari dua sumber: a) tidak ada keputusan untuk membeli; b) ingin membeli tetapi akhirnya tidak membeli apa pun (mis. kehabisan stok).

Beta: Model rintangan adalah kasus khusus dari model dua bagian yang dijelaskan dalam Bab 16 dari Frees (2011). Di sana, kita akan melihat bahwa untuk model dua bagian, jumlah perawatan kesehatan yang digunakan mungkin variabel kontinu maupun jumlah. Jadi apa yang agak membingungkan disebut "distribusi beta nol-inflasi" dalam literatur sebenarnya termasuk dalam kelas distribusi dan model dua bagian (sangat umum dalam ilmu aktuaria), yang konsisten dengan definisi di atas dari model rintangan . Buku yang luar biasa ini membahas model tanpa inflasi di bagian 12.4.1 dan model rintangan di bagian 12.4.2, dengan rumus dan contoh dari aplikasi aktuaria.

Sejarah: model zero-inflated Poisson (ZIP) tanpa kovariat memiliki sejarah panjang (lihat misalnya, Johnson dan Kotz, 1969). Bentuk umum model regresi ZIP yang menggabungkan kovariat adalah karena Lambert (1992). Model hurdle pertama kali diusulkan oleh seorang ahli statistik Kanada Cragg (1971), dan kemudian dikembangkan lebih lanjut oleh Mullahy (1986). Anda juga dapat mempertimbangkan Croston (1972), di mana jumlah geometris positif digunakan bersama dengan proses Bernoulli untuk menggambarkan proses bernilai integer yang didominasi oleh nol.

R: Akhirnya, jika Anda menggunakan R, ada paket pscl untuk "Kelas dan Metode untuk R yang dikembangkan di Laboratorium Komputasi Ilmu Politik" oleh Simon Jackman, yang berisi fungsi hurdle () dan zeroinfl () oleh Achim Zeileis.

Referensi berikut telah dikonsultasikan untuk menghasilkan yang di atas:

Gurmu, S. & Trivedi, Kelebihan PK dalam Model Hitung untuk Perjalanan Rekreasi Jurnal Statistik Bisnis & Ekonomi, 1996, 14, 469-477
Johnson, N., Kotz, S., Distribusi dalam Statistik: Distribusi Terpisah. 1969, Houghton MiZin, Boston
Lambert, D., regresi Poisson Nol yang meningkat dengan aplikasi untuk cacat dalam pembuatan. Technometrics, 1992, 34 (1), 1–14.
Cragg, JG Beberapa Model Statistik untuk Variabel Ketergantungan Terbatas dengan Aplikasi untuk Permintaan Barang Tahan Lama Econometrica, 1971, 39, 829-844
Mullahy, J. Spesifikasi dan pengujian beberapa model data hitung yang dimodifikasi Journal of Econometrics, 1986, 33, 341-365
Membebaskan, Pemodelan Regresi EW dengan Aktuaria dan Aplikasi Keuangan Cambridge University Press, 2011
Dalrymple, ML; Hudson, IL & Ford, Campuran Hingga RPK, model Poisson and Hurdle yang dikembangkan nol dengan aplikasi untuk SIDS Computational Statistics & Analisis Data, 2003, 41, 491-504
Croston, JD Forecasting dan Stock Control untuk Penelitian Operasional Kuartalan Intermittent, 1972, 23, 289-303

Hibernasi
sumber

2

Apakah model rintangan benar-benar "model" itu sendiri? Atau apakah itu menjalankan dua model berurutan, dan diperkirakan secara terpisah,? Bayangkan memodelkan daya saing ras pemilu dengan melihat skor daya saing (1 - margin kemenangan). Ini dibatasi [0, 1), karena tidak ada ikatan (misalnya, 1). Jadi pertama-tama kami melakukan regresi logistik untuk menganalisis 0 vs (0, 1). Kemudian kami melakukan regresi beta untuk menganalisis (0, 1) kasus. Sepertinya ini adalah dua model yang benar-benar berbeda, dengan koefisien mereka sendiri dan estimasi terpisah? Atau apakah saya melewatkan sesuatu?

Mark White

Misalnya, Anda menyebutkan dalam jawaban Anda bahwa nol bisa disebabkan oleh (a) memutuskan untuk tidak membeli mobil, atau (b) ingin, tetapi itu kehabisan stok. Sepertinya model rintangan tidak akan dapat membedakan antara keduanya, karena mereka dilakukan secara berurutan ...?

Mark White

Pertimbangkan contoh lain: responsnya adalah [1, 7], seperti skala Likert tradisional, dengan efek langit-langit yang sangat besar pada angka 7. Seseorang dapat melakukan model rintangan yang merupakan regresi logistik [1, 7) vs 7, dan kemudian regresi Tobit untuk semua kasus di mana respons yang diamati <7. Sekali lagi, kami mendapatkan dua set koefisien regresi, dan mereka diperkirakan secara terpisah. Sepertinya kita tidak memodelkan proses ini bersama-sama, tetapi dalam dua model yang sama sekali berbeda? Jadi, apakah rintangan sebenarnya adalah sebuah model, atau hanya proses melakukan dua jenis model linear yang digeneralisasi secara berturut-turut?

Mark White

Saya memperpanjang pertanyaan ini dalam posting saya sendiri di sini: stats.stackexchange.com/questions/320924/…

Mark White

47

Model hurdle berasumsi bahwa hanya ada satu proses dimana nol dapat diproduksi, sementara model nol mengasumsikan bahwa ada 2 proses berbeda yang dapat menghasilkan nol.

Model rintangan mengasumsikan 2 jenis subjek: (1) mereka yang tidak pernah mengalami hasil dan (2) mereka yang selalu mengalami hasil setidaknya sekali. Model zero-inflated mengkonseptualisasikan subjek sebagai (1) mereka yang tidak pernah mengalami hasil dan (2) mereka yang bisa mengalami hasil tetapi tidak selalu.

Secara sederhana: model zero-inflated dan hurdle dijelaskan dalam dua bagian.

$\pi$ $1-\pi$ $\pi$

Bagian kedua adalah bagian penghitungan, yang terjadi ketika sistem "on." Di sinilah model zero-inflated dan hurdle berbeda. Dalam model nol-inflasi, jumlah masih bisa nol. Dalam model rintangan mereka harus bukan nol. Untuk bagian ini, model zero-inflated menggunakan distribusi probabilitas diskrit "biasa" sementara model rintangan menggunakan fungsi distribusi probabilitas diskrit zero-truncated.

Contoh model rintangan: Pabrik mobil ingin membandingkan dua program kendali mutu untuk mobilnya. Ini akan membandingkan mereka berdasarkan jumlah klaim garansi yang diajukan. Untuk setiap program, satu set pelanggan yang dipilih secara acak diikuti selama 1 tahun dan jumlah klaim garansi yang mereka ajukan dihitung. Probabilitas inflasi untuk masing-masing dari kedua program kemudian dibandingkan. Status "tidak aktif" adalah "mengajukan nol klaim" sedangkan status "aktif" adalah "mengajukan setidaknya satu klaim."

Contoh model nol-inflasi: Dalam studi yang sama di atas, para peneliti menemukan bahwa beberapa perbaikan pada mobil diperbaiki tanpa pengajuan klaim garansi. Dengan cara ini, nol adalah campuran dari tidak adanya masalah kontrol kualitas serta adanya masalah kontrol kualitas yang tidak melibatkan klaim garansi. Status "tidak aktif" berarti "mengajukan nol klaim" sedangkan status "aktif" berarti "mengajukan setidaknya satu klaim ATAU memiliki perbaikan diperbaiki tanpa mengajukan klaim."

Lihat di sini untuk studi di mana kedua jenis model diterapkan pada set data yang sama.

Darren James
sumber

Terima kasih atas jawaban terinci. Apakah Anda memiliki pandangan tentang terminologi apa yang sesuai untuk distribusi beta standar dengan nol tambahan? Dengan menggunakan definisi Anda tentang model nol-inflasi, jelas ada satu sumber nol sehingga tidak dapat disebut nol-inflasi ... Lihat ini diskusi stats.stackexchange.com/questions/81343/…

skulker

2

Saya suka "distribusi beta tanpa tambahan" seperti yang disarankan oleh @Hibernating

Darren James

10

$y_i$ $\pi$ $y_i$ $\lambda$ $1-\pi$

Pr (y_{j} = 0) = π + (1 - π) e^{- λ}

$\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$

Pr (y_{j} = x_{i}) = (1 - π) \frac{λ^{x_{i}} e^{- λ}}{x_{i}!}, x_{i} \geq 1

$\Pr (y_j = x_i) = (1 - \pi) \frac{\lambda^{x_i} e^{-\lambda}} {x_i!},\qquad x_i \ge 1$

dan dalam model rintangan ~ 0 dengan probabilitas dan ~ Poisson ( ) terpotong dengan probabilitas , dan: $y_i$ $\pi$ $y_i$ $\lambda$ $1-\pi$

Pr (y_{j} = 0) = π

$\Pr (y_j = 0) = \pi$

Pr (y_{j} = x_{i}) = \frac{(1 - π)}{1 - e^{- λ}} (\frac{λ^{x_{i}} e^{- λ}}{x_{i}!}), x_{i} \geq 1

$\Pr (y_j = x_i) = \frac{(1 - \pi)} {1-e^{-\lambda}} (\frac{\lambda^{x_i} e^{-\lambda}} {x_i!}),\qquad x_i \ge 1$

Marzieh
sumber

4

Mengenai model rintangan, berikut adalah kutipan dari Kemajuan dalam Pemodelan Matematika dan Statistik (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):

Model rintangan ditandai dengan proses di bawah rintangan dan yang di atas. Jelas, model rintangan yang paling banyak digunakan adalah model yang menetapkan angka nol. Secara formal, model hurdle-at-zero dinyatakan sebagai: untuk untuk $P(N_i=n_i)=f_1(0)$ $n_i=0$ $P(N_i=n_i)=\frac{1-f_1(0)}{1-f_2(0)}f_2(n_i)=\phi f_2(n_i)$ $n_i=1,2,...$

Variabel dapat diartikan sebagai probabilitas untuk melewati rintangan, atau lebih tepatnya dalam kasus asuransi, probabilitas untuk melaporkan setidaknya satu klaim. $\phi$

Adapun model tanpa inflasi, Wikipedia mengatakan :

Model zero-inflated adalah model statistik yang didasarkan pada distribusi probabilitas nol-inflated, yaitu distribusi yang memungkinkan untuk sering melakukan pengamatan bernilai nol.

Model Poisson zero-inflated menyangkut peristiwa acak yang berisi kelebihan data zero-count dalam satuan waktu. Misalnya, jumlah klaim ke perusahaan asuransi oleh setiap orang yang dilindungi hampir selalu nol, jika tidak kerugian besar akan menyebabkan perusahaan asuransi bangkrut. Model zero-inflated Poisson (ZIP) menggunakan dua komponen yang sesuai dengan dua proses menghasilkan nol. Proses pertama diatur oleh distribusi biner yang menghasilkan nol struktural. Proses kedua diatur oleh distribusi Poisson yang menghasilkan jumlah, beberapa di antaranya mungkin nol. Dua komponen model dijelaskan sebagai berikut: $^{[1]}$
$Pr (y_{j} = 0) = π + (1 - π) e^{- λ}$ $\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$ $Pr (y_{j} = h_{i}) = (1 - π) \frac{λ^{h_{i}} e^{- λ}}{h_{i}!}, h_{i} \geq 1$ $\Pr (y_j = h_i) = (1 - \pi) \frac{\lambda^{h_i} e^{-\lambda}} {h_i!},\qquad h_i \ge 1$ di mana hasil variabel mempunyai nilai integer non-negatif, adalah diharapkan Poisson menghitung untuk th individu; adalah probabilitas nol tambahan. $y_j$ $\lambda_i$ $i$ $\pi$

Dari Arnold dan rekan (2008), saya melihat bahwa model hurdle-at-zero adalah kasus khusus dari kelas yang lebih umum dari model rintangan, tetapi dari referensi di Wikipedia ( Hall, 2004 ), saya juga melihat bahwa beberapa nol- model meningkat dapat dibatasi. Saya tidak begitu mengerti perbedaan dalam formula, tetapi mereka tampaknya sangat mirip (keduanya bahkan menggunakan contoh yang sangat mirip, klaim asuransi). Saya harap jawaban lain dapat membantu menjelaskan perbedaan penting, dan bahwa jawaban ini akan membantu mengatur panggung bagi mereka.

Referensi Wikipedia:

Lambert, D. (1992). Regresi Poisson nol-inflasi, dengan aplikasi untuk cacat dalam manufaktur. Technometrics, 34 (1), 1–14.

Nick Stauner
sumber

Apa perbedaan antara model zero-inflated dan hurdle?

Jawaban: