Saya memiliki studi di mana banyak hasil diwakili seperti persentase dan saya menggunakan regresi linier berganda untuk menilai efek dari beberapa variabel kategori pada hasil ini.
Saya bertanya-tanya, karena regresi linier berasumsi bahwa hasilnya adalah distribusi kontinu, apakah ada masalah metodologis dalam menerapkan model tersebut untuk persentase, yang dibatasi antara 0 dan 100?
regression
ratio
percentage
Bakaburg
sumber
sumber
Jawaban:
Saya akan membahas masalah yang relevan dengan kemungkinan yang terpisah atau berkelanjutan:
Masalah dengan deskripsi mean
Anda memiliki respons terbatas. Tetapi model yang Anda pas tidak terikat, dan dengan demikian dapat meledak menembus batas; beberapa nilai terpasang Anda mungkin tidak mungkin, dan nilai yang diprediksi pada akhirnya harus.
Hubungan sejati pada akhirnya harus menjadi lebih datar daripada di tengah saat mendekati batas, sehingga diharapkan akan bengkok dalam beberapa cara.
Masalah dengan deskripsi varians
Saat mean mendekati batas, varians akan cenderung berkurang juga, hal-hal lain dianggap sama. Ada sedikit ruang antara rata-rata dan terikat, sehingga variabilitas keseluruhan cenderung berkurang (jika tidak, rata-rata akan cenderung ditarik dari terikat oleh poin yang rata-rata lebih jauh di sisi tidak dekat dengan terikat.
(Memang, jika semua nilai populasi di suatu lingkungan persis di perbatasan, variansnya akan menjadi nol.)
Model yang berurusan dengan ikatan semacam itu harus mempertimbangkan efek tersebut.
Jika proporsi untuk variabel jumlah, model umum untuk distribusi proporsi adalah GLM binomial. Ada beberapa opsi untuk bentuk hubungan proporsi rata-rata dan prediktor, tetapi yang paling umum adalah GLM logistik (beberapa pilihan lain digunakan secara umum).
Jika proporsinya kontinu (seperti persentase krim dalam susu), ada sejumlah opsi. Regresi beta tampaknya menjadi salah satu pilihan yang cukup umum. Sekali lagi, mungkin menggunakan hubungan logistik antara mean dan prediktor, atau mungkin menggunakan beberapa bentuk fungsional lainnya.
Lihat juga Regresi untuk hasil (rasio atau fraksi) antara 0 dan 1 .
sumber
Ini persis sama dengan kasus ketika hasilnya antara 0 dan 1, dan kasus itu biasanya ditangani dengan model linier umum (GLM) seperti regresi logistik. Ada banyak primer yang sangat baik untuk regresi logistik (dan GLM lainnya) di internet, dan ada juga buku terkenal oleh Agresti tentang topik ini.
Regresi beta adalah alternatif yang layak tetapi lebih rumit. Kemungkinannya adalah regresi logistik akan berfungsi dengan baik untuk aplikasi Anda, dan biasanya akan lebih mudah diimplementasikan dengan sebagian besar perangkat lunak statistik.
Mengapa tidak menggunakan regresi kuadrat terkecil biasa? Sebenarnya orang melakukannya, kadang-kadang dengan nama "linear probability model" (LPM). Alasan paling jelas mengapa LPM "buruk" adalah bahwa tidak ada cara mudah untuk membatasi hasil untuk berada dalam kisaran tertentu, dan Anda bisa mendapatkan prediksi di atas 1 (atau 100% atau batas atas terbatas lainnya) dan di bawah 0 (atau beberapa batas bawah lainnya). Untuk alasan yang sama, prediksi di dekat batas atas cenderung terlalu tinggi secara sistematis, dan prediksi di dekat batas bawah cenderung terlalu rendah. Matematika yang mendasari regresi linier secara eksplisit mengasumsikan bahwa kecenderungan seperti ini tidak ada. Biasanya tidak ada alasan bagus untuk menyesuaikan LPM dengan regresi logistik.
Selain itu, ternyata semua model regresi OLS, termasuk LPM, dapat didefinisikan sebagai jenis khusus GLM, dan dalam konteks ini LPM terkait dengan regresi logistik.
sumber
Mungkin perlu menyelidiki regresi beta (yang saya pahami ada paket R), yang tampaknya cocok untuk masalah seperti itu.
http://www.jstatsoft.org/v34/i02/paper
sumber