Saya memiliki beberapa data dalam [0,1] yang ingin saya analisis dengan regresi beta. Tentu saja sesuatu perlu dilakukan untuk mengakomodasi nilai 0,1. Saya tidak suka memodifikasi data agar sesuai dengan model. juga saya tidak percaya bahwa inflasi nol dan 1 adalah ide yang baik karena saya percaya dalam hal ini orang harus menganggap 0 sebagai nilai positif yang sangat kecil (tapi saya tidak ingin mengatakan dengan tepat nilai apa yang sesuai. Pilihan yang masuk akal Saya percaya akan memilih nilai-nilai kecil seperti 0,001 dan 0,999 dan agar sesuai dengan model menggunakan dist kumulatif untuk beta. Jadi untuk pengamatan y_i kemungkinan log LL_iwould menjadi
if y_i < .001 LL+=log(cumd_beta(.001))
else if y_i>.999 LL+=log(1.0-cum_beta(.999))
else LL+=log(beta_density(y_i))
Apa yang saya sukai dari model ini adalah bahwa jika model regresi beta valid, model ini juga valid, tetapi menghilangkan sedikit sensitivitas terhadap nilai ekstrim. Namun ini tampaknya merupakan pendekatan yang alami sehingga saya bertanya-tanya mengapa saya tidak menemukan referensi yang jelas dalam literatur. Jadi pertanyaan saya adalah alih-alih memodifikasi data, mengapa tidak memodifikasi model. Memodifikasi data bias hasil (berdasarkan asumsi bahwa model asli valid), sedangkan memodifikasi model dengan binnning nilai-nilai ekstrem tidak bias hasil.
Mungkin ada masalah yang saya hadapi?
sumber
Jawaban:
Menurut makalah ini , transformasi yang tepat adalah
Ini akan memeras data yang terletak pada berada di ( 0 , 1 ) . Kutipan di atas, dan alasan matematis dari transformasi tersedia dalam catatan tambahan kertas .[ 0 , 1 ] ( 0 , 1 )
sumber
Dave,
Pendekatan umum untuk masalah ini adalah mencocokkan 2 model regresi logistik untuk memprediksi apakah suatu kasus adalah 0 atau 1. Kemudian, regresi beta digunakan untuk mereka yang berada dalam kisaran (0,1).
sumber
Saya percaya bahwa keduanya mudah diperkirakan dengan cara Bayes karena mereka berdua keluarga eksponensial. Ini adalah modifikasi dari model yang Anda harapkan.
sumber
Saya pikir jawaban "benar" yang sebenarnya untuk pertanyaan ini adalah nol-satu peningkatan beta. Ini dirancang untuk menangani data yang bervariasi secara terus-menerus pada interval [0,1], dan memungkinkan banyak 0 nyata dan 1 ada dalam data. Pendekatan ini cocok dengan tiga model terpisah dalam konteks bayesian, mirip dengan apa yang diusulkan oleh @B_Miner.
Model 1: Apakah nilai diskrit 0/1, atau nilai dalam (0,1)? Pas dengan distribusi bernoulli.
Model 2: Pasang subset diskret dengan distribusi bernoulli.
Model 3: Fit (0,1) subset dengan regresi beta.
Untuk prediksi, hasil model pertama dapat digunakan untuk menimbang prediksi model 2 dan 3. Ini dapat diimplementasikan dalam
zoib
paket R, atau buatan rumah dalam BUGS / JAGS / STAN / dll.sumber