Terima kasih atas pertanyaan yang menarik!
Perbedaan: Salah satu batasan model penghitungan standar adalah bahwa nol dan nonzeros (positif) diasumsikan berasal dari proses pembuatan data yang sama. Dengan model rintangan , kedua proses ini tidak dibatasi untuk menjadi sama. Ide dasarnya adalah bahwa probabilitas Bernoulli mengatur hasil biner dari apakah suatu variasi jumlah memiliki nol atau realisasi positif. Jika realisasinya positif, rintangannya dilewati, dan distribusi kondisional dari hal-hal positif diatur oleh model data hitung yang terpotong pada nol. Dengan model nol-inflasi, variabel respons dimodelkan sebagai campuran dari distribusi Bernoulli (atau menyebutnya massa titik nol) dan distribusi Poisson (atau distribusi jumlah lainnya yang didukung pada bilangan bulat non-negatif). Untuk lebih detail dan rumus, lihat, misalnya, Gurmu dan Trivedi (2011) dan Dalrymple, Hudson, dan Ford (2003).
Contoh: Model rintangan dapat dimotivasi oleh proses pengambilan keputusan berurutan yang dihadapi oleh individu. Anda pertama-tama memutuskan apakah Anda perlu membeli sesuatu, dan kemudian Anda memutuskan jumlah sesuatu itu (yang pasti positif). Ketika Anda diizinkan untuk (atau berpotensi dapat) membeli apa pun setelah keputusan Anda untuk membeli sesuatu adalah contoh situasi di mana model zero-inflated sesuai. Nol dapat berasal dari dua sumber: a) tidak ada keputusan untuk membeli; b) ingin membeli tetapi akhirnya tidak membeli apa pun (mis. kehabisan stok).
Beta: Model rintangan adalah kasus khusus dari model dua bagian yang dijelaskan dalam Bab 16 dari Frees (2011). Di sana, kita akan melihat bahwa untuk model dua bagian, jumlah perawatan kesehatan yang digunakan mungkin variabel kontinu maupun jumlah. Jadi apa yang agak membingungkan disebut "distribusi beta nol-inflasi" dalam literatur sebenarnya termasuk dalam kelas distribusi dan model dua bagian (sangat umum dalam ilmu aktuaria), yang konsisten dengan definisi di atas dari model rintangan . Buku yang luar biasa ini membahas model tanpa inflasi di bagian 12.4.1 dan model rintangan di bagian 12.4.2, dengan rumus dan contoh dari aplikasi aktuaria.
Sejarah: model zero-inflated Poisson (ZIP) tanpa kovariat memiliki sejarah panjang (lihat misalnya, Johnson dan Kotz, 1969). Bentuk umum model regresi ZIP yang menggabungkan kovariat adalah karena Lambert (1992). Model hurdle pertama kali diusulkan oleh seorang ahli statistik Kanada Cragg (1971), dan kemudian dikembangkan lebih lanjut oleh Mullahy (1986). Anda juga dapat mempertimbangkan Croston (1972), di mana jumlah geometris positif digunakan bersama dengan proses Bernoulli untuk menggambarkan proses bernilai integer yang didominasi oleh nol.
R: Akhirnya, jika Anda menggunakan R, ada paket pscl untuk "Kelas dan Metode untuk R yang dikembangkan di Laboratorium Komputasi Ilmu Politik" oleh Simon Jackman, yang berisi fungsi hurdle () dan zeroinfl () oleh Achim Zeileis.
Referensi berikut telah dikonsultasikan untuk menghasilkan yang di atas:
- Gurmu, S. & Trivedi, Kelebihan PK dalam Model Hitung untuk Perjalanan Rekreasi Jurnal Statistik Bisnis & Ekonomi, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distribusi dalam Statistik: Distribusi Terpisah. 1969, Houghton MiZin, Boston
- Lambert, D., regresi Poisson Nol yang meningkat dengan aplikasi untuk cacat dalam pembuatan. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Beberapa Model Statistik untuk Variabel Ketergantungan Terbatas dengan Aplikasi untuk Permintaan Barang Tahan Lama Econometrica, 1971, 39, 829-844
- Mullahy, J. Spesifikasi dan pengujian beberapa model data hitung yang dimodifikasi Journal of Econometrics, 1986, 33, 341-365
- Membebaskan, Pemodelan Regresi EW dengan Aktuaria dan Aplikasi Keuangan Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL & Ford, Campuran Hingga RPK, model Poisson and Hurdle yang dikembangkan nol dengan aplikasi untuk SIDS Computational Statistics & Analisis Data, 2003, 41, 491-504
- Croston, JD Forecasting dan Stock Control untuk Penelitian Operasional Kuartalan Intermittent, 1972, 23, 289-303
Model hurdle berasumsi bahwa hanya ada satu proses dimana nol dapat diproduksi, sementara model nol mengasumsikan bahwa ada 2 proses berbeda yang dapat menghasilkan nol.
Model rintangan mengasumsikan 2 jenis subjek: (1) mereka yang tidak pernah mengalami hasil dan (2) mereka yang selalu mengalami hasil setidaknya sekali. Model zero-inflated mengkonseptualisasikan subjek sebagai (1) mereka yang tidak pernah mengalami hasil dan (2) mereka yang bisa mengalami hasil tetapi tidak selalu.
Secara sederhana: model zero-inflated dan hurdle dijelaskan dalam dua bagian.
Bagian kedua adalah bagian penghitungan, yang terjadi ketika sistem "on." Di sinilah model zero-inflated dan hurdle berbeda. Dalam model nol-inflasi, jumlah masih bisa nol. Dalam model rintangan mereka harus bukan nol. Untuk bagian ini, model zero-inflated menggunakan distribusi probabilitas diskrit "biasa" sementara model rintangan menggunakan fungsi distribusi probabilitas diskrit zero-truncated.
Contoh model rintangan: Pabrik mobil ingin membandingkan dua program kendali mutu untuk mobilnya. Ini akan membandingkan mereka berdasarkan jumlah klaim garansi yang diajukan. Untuk setiap program, satu set pelanggan yang dipilih secara acak diikuti selama 1 tahun dan jumlah klaim garansi yang mereka ajukan dihitung. Probabilitas inflasi untuk masing-masing dari kedua program kemudian dibandingkan. Status "tidak aktif" adalah "mengajukan nol klaim" sedangkan status "aktif" adalah "mengajukan setidaknya satu klaim."
Contoh model nol-inflasi: Dalam studi yang sama di atas, para peneliti menemukan bahwa beberapa perbaikan pada mobil diperbaiki tanpa pengajuan klaim garansi. Dengan cara ini, nol adalah campuran dari tidak adanya masalah kontrol kualitas serta adanya masalah kontrol kualitas yang tidak melibatkan klaim garansi. Status "tidak aktif" berarti "mengajukan nol klaim" sedangkan status "aktif" berarti "mengajukan setidaknya satu klaim ATAU memiliki perbaikan diperbaiki tanpa mengajukan klaim."
Lihat di sini untuk studi di mana kedua jenis model diterapkan pada set data yang sama.
sumber
dan dalam model rintangan ~ 0 dengan probabilitas dan ~ Poisson ( ) terpotong dengan probabilitas , dan: π y i λ 1 - π Pr ( y j = 0 ) = πyi π yi λ 1−π
sumber
Mengenai model rintangan, berikut adalah kutipan dari Kemajuan dalam Pemodelan Matematika dan Statistik (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):
Adapun model tanpa inflasi, Wikipedia mengatakan :
Dari Arnold dan rekan (2008), saya melihat bahwa model hurdle-at-zero adalah kasus khusus dari kelas yang lebih umum dari model rintangan, tetapi dari referensi di Wikipedia ( Hall, 2004 ), saya juga melihat bahwa beberapa nol- model meningkat dapat dibatasi. Saya tidak begitu mengerti perbedaan dalam formula, tetapi mereka tampaknya sangat mirip (keduanya bahkan menggunakan contoh yang sangat mirip, klaim asuransi). Saya harap jawaban lain dapat membantu menjelaskan perbedaan penting, dan bahwa jawaban ini akan membantu mengatur panggung bagi mereka.
Referensi Wikipedia:
sumber