Saya mencoba untuk menghasilkan model yang saya punya variabel respon yang merupakan proporsi antara 0 dan 1, ini mencakup beberapa 0s dan 1s tetapi juga banyak nilai di antaranya. Saya sedang berpikir tentang mencoba regresi beta. Paket yang saya temukan untuk R (betareg) hanya memungkinkan nilai antara 0 dan 1 tetapi tidak termasuk 0 atau 1. Saya telah membaca di tempat lain bahwa secara teoritis distribusi beta harus dapat menangani nilai 0 atau 1 tetapi saya tidak tahu bagaimana menangani hal ini di RI telah melihat beberapa orang menambahkan 0,001 ke nol dan mengambil 0,001 dari yang, tapi saya tidak yakin ini ide yang bagus?
Atau saya bisa logit mengubah variabel respons dan menggunakan regresi linier. Dalam hal ini saya memiliki masalah yang sama dengan 0 dan 1 yang tidak dapat diubah log.
sumber
Jawaban:
Anda bisa menggunakan nol dan / atau satu model regresi beta yang digelembungkan yang menggabungkan distribusi beta dengan distribusi merosot untuk menetapkan beberapa probabilitas masing-masing ke 0 dan 1. Untuk detail lihat referensi berikut:
Ospina, R., & Ferrari, SLP (2010). Distribusi beta meningkat. Makalah Statistik, 51 (1), 111-126. Ospina, R., & Ferrari, SLP (2012). Kelas umum model regresi beta nol-atau-satu meningkat. Statistik Komputasi dan Analisis Data, 56 (6), 1609 - 1623.
Model-model ini mudah diimplementasikan dengan paket gamlss untuk R.
sumber
zoib
paket ini melakukannya dengan mudah.Dokumentasi untuk
betareg
paket R menyebutkan ituhttp://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf
Mereka memberikan referensi Smithson M, Verkuilen J (2006). "Pemeras Lemon yang Lebih Baik? Regresi Maksimum-Kemungkinan dengan Variabel Ketergantungan Terdistribusi Beta." Metode Psikologis, 11 (1), 54-71.
sumber
Tidakkah Anda melakukan transformasi logit untuk membuat variabel mulai dari minus hingga tak terhingga? Saya tidak yakin apakah data yang memiliki 0 dan 1 seharusnya menjadi masalah. Apakah itu menunjukkan pesan kesalahan? Omong-omong, jika Anda hanya memiliki proporsi, analisis Anda akan selalu salah. Anda perlu menggunakan
weight=argument
untukglm
dengan jumlah kasus.Jika tidak ada yang berhasil, Anda dapat menggunakan split median atau split kuartil atau titik potong apa pun yang menurut Anda tepat untuk membagi DV menjadi beberapa kategori dan kemudian menjalankan regresi logistik Ordinal. Itu mungkin berhasil. Cobalah hal-hal ini.
Saya tidak berpikir secara pribadi bahwa menambahkan 0,001 ke nol dan mengambil 0,001 dari yang merupakan ide yang terlalu buruk, tetapi memiliki beberapa masalah yang akan dibahas nanti. Bayangkan saja, mengapa Anda tidak menambahkan dan mengurangi 0,000000001 (atau bahkan lebih banyak desimal)? Itu akan lebih baik mewakili 0 dan 1 !! Bagi Anda mungkin hal itu tidak membuat banyak perbedaan. Tetapi sebenarnya itu terjadi.
Mari kita simak yang berikut ini:
Jadi, Anda tahu, Anda harus menjaga peluang sedekat (0/1) dan (1/0). Anda mengharapkan peluang log mulai dari minus tak terhingga hingga plus tak terhingga. Jadi, untuk menambah atau mengurangi, Anda harus memilih hingga tempat desimal yang sangat panjang, sehingga peluang log menjadi mendekati tak terhingga (atau sangat besar) !! Sejauh mana Anda akan mempertimbangkan cukup besar, semata-mata tergantung pada Anda.
sumber
Lihat yang berikut ini, di mana transformasi ad hoc disebutkan maartenbuis.nl/presentations/berlin10.pdf pada slide 17. Anda juga dapat memodelkan 0 dan 1 dengan dua regresi logistik terpisah dan kemudian menggunakan regresi Beta untuk mereka yang tidak berada di perbatasan.
sumber
Model beta adalah untuk variabel biner yang dimodelkan sebagai Bernoulli-didistribusikan dengan probabilitas tidak diketahui . Model beta menghitung kemungkinan lebih dari , yang didistribusikan secara beta.phal hal
Variabel Anda adalah proporsi. Anda bisa memodelkan proporsinya sebagai yang didistribusikan secara beta dengan parameter yang tidak diketahui . Model yang Anda inginkan adalah konjugat sebelum distribusi beta, yang kemudian akan menghitung kemungkinan lebih dari .a , ba , b a , b
Saya harus menurunkan model lagi, tetapi jika saya ingat dengan benar, untuk proporsi Anda mengembalikan tiga parameter ekspektasi: , jumlah titik, dan jika ingatan saya benar dan . Ini adalah parameter distribusi di atas parameter distribusi beta Anda, yang menjadi model proporsi Anda. n ∑ j [ ψ ( ∑ i x i ) - ψ ( x j ) ] ∑ j [ ψ ( ∑ i 1 - x i ) - ψ ( 1 - x j ) ]x1, ... , xn n ∑j[ ψ ( Âsayaxsaya) - ψ ( xj) ] ∑j[ ψ ( Âsaya1 - xsaya) - ψ ( 1 - xj) ]
sumber