Berurusan dengan nilai 0,1 dalam regresi beta

20

Saya memiliki beberapa data dalam [0,1] yang ingin saya analisis dengan regresi beta. Tentu saja sesuatu perlu dilakukan untuk mengakomodasi nilai 0,1. Saya tidak suka memodifikasi data agar sesuai dengan model. juga saya tidak percaya bahwa inflasi nol dan 1 adalah ide yang baik karena saya percaya dalam hal ini orang harus menganggap 0 sebagai nilai positif yang sangat kecil (tapi saya tidak ingin mengatakan dengan tepat nilai apa yang sesuai. Pilihan yang masuk akal Saya percaya akan memilih nilai-nilai kecil seperti 0,001 dan 0,999 dan agar sesuai dengan model menggunakan dist kumulatif untuk beta. Jadi untuk pengamatan y_i kemungkinan log LL_iwould menjadi

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

Apa yang saya sukai dari model ini adalah bahwa jika model regresi beta valid, model ini juga valid, tetapi menghilangkan sedikit sensitivitas terhadap nilai ekstrim. Namun ini tampaknya merupakan pendekatan yang alami sehingga saya bertanya-tanya mengapa saya tidak menemukan referensi yang jelas dalam literatur. Jadi pertanyaan saya adalah alih-alih memodifikasi data, mengapa tidak memodifikasi model. Memodifikasi data bias hasil (berdasarkan asumsi bahwa model asli valid), sedangkan memodifikasi model dengan binnning nilai-nilai ekstrem tidak bias hasil.

Mungkin ada masalah yang saya hadapi?

dave fournier
sumber
1
Sangat tidak mungkin untuk memberikan jawaban yang baik untuk pertanyaan ini tanpa mengetahui lebih banyak tentang masalah tertentu. Pertanyaan kuncinya adalah apakah angka nol dan angka yang tepat dihasilkan oleh proses yang berbeda dengan yang menghasilkan data dalam (0,1). Contoh klasiknya adalah curah hujan, di mana ada angka nol yang mencerminkan hari di mana hujan tidak turun. Dalam aplikasi Anda apakah nol dan "khusus" dalam beberapa cara?
Dikran Marsupial
Terkait / duplikat: stats.stackexchange.com/questions/48028 .
Amoeba berkata Reinstate Monica

Jawaban:

16

Menurut makalah ini , transformasi yang tepat adalah

x=x(N-1)+sN

"Di mana N adalah ukuran sampel dan s adalah konstanta antara 0 dan 1. Dari sudut pandang Bayesian, s bertindak seolah-olah kita mempertimbangkan sebelumnya. Pilihan yang masuk akal untuk s adalah 0,5."

Ini akan memeras data yang terletak pada berada di ( 0 , 1 ) . Kutipan di atas, dan alasan matematis dari transformasi tersedia dalam catatan tambahan kertas .[0,1](0,1)

Cam.Davidson.Pilon
sumber
1
+1 .. Tapi bisakah Anda memperbaiki tautan pertama atau setidaknya mengutip kertas sehingga kami dapat menemukannya secara mandiri?
whuber
1
Tetapi itu tidak menjawab pertanyaan saya. Saya sangat menyadari bahwa seseorang dapat mengubah data. Pertanyaan saya adalah mengapa tidak mengubah model saja?
dave fournier
1
Dave, silakan edit pertanyaan Anda untuk mencerminkan hal ini: saat ini, terbaca seolah-olah Anda sedang mencari cara untuk mengubah data . Dalam proses itu akan membantu Anda untuk menunjukkan apa yang menurut Anda perbedaannya adalah antara transformasi data dan perubahan model, karena jika ada, itu halus.
whuber
@davefournier, Jika Anda membaca situs Cam kertas itu sebagian menjawab pertanyaan Anda. Mereka juga memberikan rekomendasi model alternatif (lihat halaman 69), dan bagian dari rekomendasi bergantung pada sifat data. Kemungkinan penyesuaian Anda tampak seperti "proses diskrit-kontinyu campuran" (disebutkan pada akhir halaman 69). Mungkin juga kasusnya model Tobit akan memuaskan mengingat data Anda, meskipun akan lebih baik untuk melihat referensi lain untuk kesesuaian model Tobit, seperti buku Scott Long tentang regresi kategoris.
Andy W
1
Tetapi mereka tidak mengambil pendekatan ini. Mereka mengusulkan model yang berbeda, proses kontinu diskrit campuran. Itu sangat berbeda dari membuang nilai-nilai ekstrim. Seperti yang saya katakan sebelumnya jika model beta valid maka model binning valid. Jika model kontinu diskrit valid, maka model beta tidak valid. Saya menduga bahwa mereka sebagian besar didorong dalam analisis mereka oleh jenis model campuran yang dapat mereka cocok dengan perangkat lunak mereka. Model campuran beta binned sedikit lebih sulit untuk masuk.
dave fournier
3

Dave,

Pendekatan umum untuk masalah ini adalah mencocokkan 2 model regresi logistik untuk memprediksi apakah suatu kasus adalah 0 atau 1. Kemudian, regresi beta digunakan untuk mereka yang berada dalam kisaran (0,1).

B_Miner
sumber
dapatkah Anda memberikan contoh? atau makalah yang membahas ini secara lebih rinci?
user1607
2

(log(x),log(1-x))

x(x,x2)

Saya percaya bahwa keduanya mudah diperkirakan dengan cara Bayes karena mereka berdua keluarga eksponensial. Ini adalah modifikasi dari model yang Anda harapkan.

Neil G
sumber
1

Saya pikir jawaban "benar" yang sebenarnya untuk pertanyaan ini adalah nol-satu peningkatan beta. Ini dirancang untuk menangani data yang bervariasi secara terus-menerus pada interval [0,1], dan memungkinkan banyak 0 nyata dan 1 ada dalam data. Pendekatan ini cocok dengan tiga model terpisah dalam konteks bayesian, mirip dengan apa yang diusulkan oleh @B_Miner.

Model 1: Apakah nilai diskrit 0/1, atau nilai dalam (0,1)? Pas dengan distribusi bernoulli.

Model 2: Pasang subset diskret dengan distribusi bernoulli.

Model 3: Fit (0,1) subset dengan regresi beta.

Untuk prediksi, hasil model pertama dapat digunakan untuk menimbang prediksi model 2 dan 3. Ini dapat diimplementasikan dalam zoibpaket R, atau buatan rumah dalam BUGS / JAGS / STAN / dll.

colin
sumber