Regresi untuk suatu hasil (rasio atau fraksi) antara 0 dan 1

42

Saya berpikir untuk membangun model yang memprediksi rasio , di mana a b dan a > 0 dan b > 0 . Jadi, rasionya adalah antara 0 dan 1 .a/baba>0b>001

Saya bisa menggunakan regresi linier, meskipun secara alami tidak membatasi ke 0..1. Saya tidak punya alasan untuk percaya bahwa hubungan itu linear, tetapi tentu saja itu sering digunakan, sebagai model pertama yang sederhana.

Saya bisa menggunakan regresi logistik, meskipun biasanya digunakan untuk memprediksi probabilitas hasil dua negara, bukan untuk memprediksi nilai kontinu dari kisaran 0..1.

Tidak tahu apa-apa lagi, apakah Anda akan menggunakan regresi linier, regresi logistik, atau opsi tersembunyi c ?

makan siang
sumber
4
Sudahkah Anda mempertimbangkan regresi beta?
Peter Flom - Kembalikan Monica
Terima kasih banyak untuk semua yang menjawab. Saya harus belajar dan memilih. Kedengarannya seperti beta adalah tempat yang layak untuk memulai, terutama jika saya bisa mengamati kecocokan yang baik (mungkin dengan mata).
dfrankow
Saya telah melihat ini dilakukan dengan menggunakan GLM (fungsi tautan poisson). Pembilang a akan menjadi data jumlah (hasil) dan penyebut b akan menjadi variabel offset. Anda kemudian perlu memisahkan nilai a dan b untuk setiap mata pelajaran / observasi. Saya tidak yakin apakah ini opsi yang paling valid. Saya menemukan distribusi Beta pilihan yang menarik - yang saya belum pernah dengar. Namun, saya merasa sulit untuk memahami, menjadi non-ahli statistik.
MegPophealth
Terima kasih kepada Anda semua atas analisis Anda yang mendalam dan bermanfaat, saya saat ini menghadapi tantangan yang hampir sama, tetapi alih-alih memprediksi rentang rasio kontinu antara 0-1, saya lebih ingin membangun model regresi untuk memprediksi rentang utilitas pasien antara -1 dan 1. Ini cukup sulit, saya tidak dapat menemukan fungsi tautan yang sesuai untuk membangun model regresi dengan rentang ketergantungan terus menerus antara -1 dan 1. Jadi, orang-orang hanya ingin tahu tentang apa yang bisa dilakukan. Terima kasih,
1
y(y+1)/2[0,1]

Jawaban:

34

Anda harus memilih "opsi tersembunyi c", di mana c adalah regresi beta. Ini adalah jenis model regresi yang sesuai ketika variabel respon didistribusikan sebagai Beta . Anda dapat menganggapnya sebagai analog dengan model linier umum . Persis seperti yang Anda cari. Ada paket yang Rdisebut betareg yang berurusan dengan ini. Saya tidak tahu apakah Anda menggunakannya R, tetapi meskipun Anda tidak bisa, Anda tetap bisa membaca 'sketsa', mereka akan memberi Anda informasi umum tentang topik tersebut selain cara menerapkannya R(yang tidak Anda perlukan di kasus itu).


aba/b

Kemungkinan lain adalah dengan menggunakan regresi linier jika rasio dapat diubah sehingga memenuhi asumsi model linear standar, meskipun saya tidak akan optimis tentang yang benar-benar berfungsi.

gung - Reinstate Monica
sumber
1
Maukah Anda menjelaskan mengapa regresi beta lebih disukai dalam kasus ini? Itu adalah rekomendasi yang saya lihat cukup sering di sini, tapi saya tidak benar-benar melihat ada yang menjelaskan alasannya - itu akan menyenangkan untuk dimiliki!
Matt Parker
4
p
3
Saya akan berhati-hati mengatakan bahwa beta adalah "distribusi" yang tepat untuk digunakan. Ini cukup fleksibel dan mungkin cocok tetapi tidak mencakup semua kasus. Jadi, meskipun ini adalah saran yang bagus dan mungkin memang yang mereka inginkan - Anda tidak dapat mengatakan bahwa itu adalah distribusi yang tepat hanya berdasarkan fakta bahwa ini merupakan tanggapan berkelanjutan antara 0 dan 1.
Dason
1
Distribusi segitiga pada [0,1] mewakili distribusi kontinu pada proporsi yang bukan beta. Mungkin ada banyak lainnya. Beta adalah keluarga yang lebih fleksibel tetapi tidak ada keajaiban tentang hal itu. Anda membuat poin yang baik tentang regresi logistik karena biasanya diterapkan pada data biner.
Michael Chernick
2
Mungkin aku harus berusaha agar tidak terlalu dogmatis. Yang saya maksudkan adalah Anda memeriksa DV Anda & menggunakan distribusi yang mengikuti. Benar, ada distribusi lain dari proporsi berkelanjutan. Secara teknis, Beta adalah rasio Gamma atas jumlah itu + Gamma lain. Dalam situasi tertentu, distribusi yang berbeda mungkin lebih unggul; misal Beta tidak bisa mengambil nilai 0 atau 1, hanya (0, 1). Meskipun demikian, Beta dipahami dengan baik dan sangat fleksibel dengan hanya 2 parameter yang pas. Saya berpendapat bahwa ketika berhadapan dengan DV yang merupakan proporsi terus menerus biasanya merupakan tempat terbaik untuk memulai.
gung - Reinstate Monica
2

Apakah sampel berpasangan ini atau dua populasi independen?

XiXiMiXiMi

Intersep Anda terhadap regresi ini akan berupa log (B) dan kemiringan Anda adalah log (rasio).

Lihat lebih lanjut di sini:

Beyene J, Moineddin R. Metode untuk estimasi interval kepercayaan parameter rasio dengan aplikasi untuk lokasi quotients. Metodologi penelitian medis BMC. 2005; 5 (1): 32.

EDIT: Saya telah menulis addon SPSS untuk melakukan hal ini. Saya dapat membagikannya jika Anda tertarik.

DocBuckets
sumber
1
Karena penasaran metode mana yang Anda gunakan (delta, Fieller atau GLM)? Saya jadi sedikit terhindar dari artikel BMC yang tidak melakukan simulasi liputan dari estimator yang berbeda (walaupun memimpikan simulasi realistis akan menyebalkan). Saya diingatkan karena saya baru - baru ini menemukan makalah yang melakukan metode delta (tanpa pembenaran nyata), meskipun mengutip artikel BMC.
Andy W
1
Kembali ketika saya menulis komentar ini, saya menggunakan REGRESSIONsetelah mengubah data. Sejak itu saya telah menulis versi yang lebih canggih yang digunakan GLM. Saya berurusan dengan pengukuran emisi cahaya dan pengujian saya menyarankan regresi gamma dengan log-link adalah yang paling rentan terhadap ketidakpastian pada parameter. Untuk sebagian besar data saya yang sebenarnya, jawaban dari menggunakan normal, negatif-binomial, dan gamma dengan log-link semuanya sangat mirip (setidaknya dengan presisi yang saya butuhkan)
DocBuckets
0

Xii=1,2,..,kkp1pp=exp(x)[1+exp(x)]x

Michael Chernick
sumber
p
2
-1. Saya setuju dengan @amoeba. Saya bingung mengapa ini pernah dibatalkan. Itu tidak menyinggung pertanyaan, yang tidak mengasumsikan data biner 0 atau 1 sama sekali tetapi berfokus pada proporsi yang diukur yang antara 0 dan 1 inklusif.
Nick Cox