Apa masalah dengan menggunakan hasil persentase dalam regresi linier?

11

Saya memiliki studi di mana banyak hasil diwakili seperti persentase dan saya menggunakan regresi linier berganda untuk menilai efek dari beberapa variabel kategori pada hasil ini.

Saya bertanya-tanya, karena regresi linier berasumsi bahwa hasilnya adalah distribusi kontinu, apakah ada masalah metodologis dalam menerapkan model tersebut untuk persentase, yang dibatasi antara 0 dan 100?

Bakaburg
sumber
1
Apakah persentase ini kontinu (seperti persentase krim dalam susu, misalnya), atau diskrit (seperti proporsi binomial, jumlah dalam beberapa kategori di luar jumlah total)?
Glen_b -Reinstate Monica
1
Uhm ... saya tidak mendapatkan perbedaan. Bukankah keduanya terus menerus? Pokoknya saya pikir yang kedua menggambarkan lebih baik data saya, karena kita berbicara tentang orang secara total.
Bakaburg
Distribusi jumlah dibagi dengan jumlah pasti berbeda. Memang, pembilang biasanya dimodelkan sebagai binomial, penyebut dikondisikan pada (diperlakukan sebagai konstan), sehingga rasio biasanya diperlakukan sebagai binomial berskala. Namun, bahkan jika penyebutnya adalah variabel acak, rasionya tetap diskrit karena ruang sampelnya dapat dihitung
Glen_b -Reinstate Monica

Jawaban:

17

Saya akan membahas masalah yang relevan dengan kemungkinan yang terpisah atau berkelanjutan:

  1. Masalah dengan deskripsi mean

    Anda memiliki respons terbatas. Tetapi model yang Anda pas tidak terikat, dan dengan demikian dapat meledak menembus batas; beberapa nilai terpasang Anda mungkin tidak mungkin, dan nilai yang diprediksi pada akhirnya harus.

    Hubungan sejati pada akhirnya harus menjadi lebih datar daripada di tengah saat mendekati batas, sehingga diharapkan akan bengkok dalam beberapa cara.

  2. Masalah dengan deskripsi varians

    Saat mean mendekati batas, varians akan cenderung berkurang juga, hal-hal lain dianggap sama. Ada sedikit ruang antara rata-rata dan terikat, sehingga variabilitas keseluruhan cenderung berkurang (jika tidak, rata-rata akan cenderung ditarik dari terikat oleh poin yang rata-rata lebih jauh di sisi tidak dekat dengan terikat.

(Memang, jika semua nilai populasi di suatu lingkungan persis di perbatasan, variansnya akan menjadi nol.)

Model yang berurusan dengan ikatan semacam itu harus mempertimbangkan efek tersebut.

Jika proporsi untuk variabel jumlah, model umum untuk distribusi proporsi adalah GLM binomial. Ada beberapa opsi untuk bentuk hubungan proporsi rata-rata dan prediktor, tetapi yang paling umum adalah GLM logistik (beberapa pilihan lain digunakan secara umum).

Jika proporsinya kontinu (seperti persentase krim dalam susu), ada sejumlah opsi. Regresi beta tampaknya menjadi salah satu pilihan yang cukup umum. Sekali lagi, mungkin menggunakan hubungan logistik antara mean dan prediktor, atau mungkin menggunakan beberapa bentuk fungsional lainnya.

Lihat juga Regresi untuk hasil (rasio atau fraksi) antara 0 dan 1 .

Glen_b -Reinstate Monica
sumber
1
+1 dan saya mengambil kebebasan untuk menambahkan tautan ke apa yang mungkin bisa dilihat sebagai utas "master" kami tentang topik ini (jawaban gung di sana juga mencakup opsi beta dan logistik).
Amuba kata Reinstate Monica
2
Argumen umum yang mudah adalah jika meannya adalah 0 yang hanya mungkin jika semua nilai adalah 0, dan sama dengan 1 = 100% dan semua nilai menjadi 1. Jadi variansnya harus 0 pada ekstremnya terlepas dari apakah proporsi didasarkan pada menghitung atau mengukur. Meskipun ada kemungkinan bahwa semua nilai lain konstan, dalam praktiknya itu sangat jarang. Oleh karena itu varians akan menjadi tertinggi untuk beberapa nilai antara 0 dan 1.
Nick Cox
apakah Anda dapat memberikan beberapa referensi untuk 2 masalah yang dijelaskan?
user1607
3

Ini persis sama dengan kasus ketika hasilnya antara 0 dan 1, dan kasus itu biasanya ditangani dengan model linier umum (GLM) seperti regresi logistik. Ada banyak primer yang sangat baik untuk regresi logistik (dan GLM lainnya) di internet, dan ada juga buku terkenal oleh Agresti tentang topik ini.

Regresi beta adalah alternatif yang layak tetapi lebih rumit. Kemungkinannya adalah regresi logistik akan berfungsi dengan baik untuk aplikasi Anda, dan biasanya akan lebih mudah diimplementasikan dengan sebagian besar perangkat lunak statistik.

Mengapa tidak menggunakan regresi kuadrat terkecil biasa? Sebenarnya orang melakukannya, kadang-kadang dengan nama "linear probability model" (LPM). Alasan paling jelas mengapa LPM "buruk" adalah bahwa tidak ada cara mudah untuk membatasi hasil untuk berada dalam kisaran tertentu, dan Anda bisa mendapatkan prediksi di atas 1 (atau 100% atau batas atas terbatas lainnya) dan di bawah 0 (atau beberapa batas bawah lainnya). Untuk alasan yang sama, prediksi di dekat batas atas cenderung terlalu tinggi secara sistematis, dan prediksi di dekat batas bawah cenderung terlalu rendah. Matematika yang mendasari regresi linier secara eksplisit mengasumsikan bahwa kecenderungan seperti ini tidak ada. Biasanya tidak ada alasan bagus untuk menyesuaikan LPM dengan regresi logistik.

Selain itu, ternyata semua model regresi OLS, termasuk LPM, dapat didefinisikan sebagai jenis khusus GLM, dan dalam konteks ini LPM terkait dengan regresi logistik.

shadowtalker
sumber
4
Meskipun secara keseluruhan sebagian besar dari jawaban ini terlihat bermanfaat, itu berisi beberapa informasi yang salah yang dapat membingungkan pembaca. Akun regresi logistik pada paragraf pertama terdengar seperti deskripsi transformasi mirip log dari variabel dependen diikuti oleh regresi linier: itu bukan regresi logistik. Penafsiran koefisien juga tidak tepat. Masalah yang lebih penting dengan "LPM" adalah bahwa ketika data berada di dekat ekstrem, mereka kemungkinan menunjukkan distribusi asimetris residu, yang merupakan pelanggaran penting dari asumsi regresi pertama.
whuber
Saya tidak berpikir itu layak mendapatkan odds rasio dan semacamnya. Saya hanya akan menghapus barang-barang itu dan membiarkan OP membacanya. Poin yang bagus tentang residu.
shadowtalker
(+1) Terima kasih atas tanggapan konstruktif Anda!
whuber
2

Mungkin perlu menyelidiki regresi beta (yang saya pahami ada paket R), yang tampaknya cocok untuk masalah seperti itu.

http://www.jstatsoft.org/v34/i02/paper

Dikran Marsupial
sumber
7
Jawaban Anda akan lebih baik jika Anda menemukan beberapa alasan utama mengapa regresi linier menderita ketika hasilnya adalah persentase.
Alexis