Saya mencoba untuk memodelkan variabel respons yang secara teoritis dibatasi antara -225 dan +225. Variabelnya adalah skor total yang diperoleh subjek saat bermain game. Meskipun secara teoritis dimungkinkan untuk mata pelajaran untuk mencetak +225. Meskipun demikian karena skor tidak hanya bergantung pada aksi subjek, tetapi juga aksi aksi lainnya, skor maksimum siapa pun yang mencapai 125 (ini adalah 2 pemain tertinggi yang bermain satu sama lain dapat mencetak keduanya) ini terjadi dengan frekuensi yang sangat tinggi. Skor terendah adalah +35.
Batas 125 ini menyebabkan kesulitan dengan regresi linier. Satu-satunya hal yang bisa saya pikirkan adalah mengubah skala respons menjadi antara 0 dan 1 dan menggunakan regresi beta. Jika saya melakukan ini meskipun saya tidak yakin saya benar-benar dapat membenarkan mengatakan 125 adalah batas atas (atau 1 setelah transformasi) karena mungkin untuk mencetak +225. Lebih jauh, jika saya melakukan ini, apa yang menjadi batas bawah saya, 35?
Terima kasih,
Jonathan
sumber
Jawaban:
Meskipun saya tidak sepenuhnya yakin apa masalah Anda dengan regresi linier adalah saya sekarang sedang menyelesaikan sebuah artikel tentang bagaimana menganalisis hasil yang terbatas. Karena saya tidak terbiasa dengan regresi Beta, mungkin orang lain akan menjawab pilihan itu.
Dengan pertanyaan Anda, saya mengerti bahwa Anda mendapatkan prediksi di luar batas. Dalam hal ini saya akan pergi untuk regresi kuantil logistik . Regresi kuantitatif adalah alternatif yang sangat rapi untuk regresi linier reguler. Anda dapat melihat berbagai kuantil dan mendapatkan gambaran yang lebih baik dari data Anda daripada yang mungkin dengan regresi linier biasa. Juga tidak memiliki asumsi mengenai distribusi 1 .
Transformasi variabel sering dapat menyebabkan efek lucu pada regresi linier, misalnya Anda memiliki signifikansi dalam transformasi logistik tetapi itu tidak diterjemahkan ke dalam nilai reguler. Ini tidak terjadi dengan kuantil, median selalu median terlepas dari fungsi transformasi. Ini memungkinkan Anda untuk mengubah bolak-balik tanpa mendistorsi apa pun. Bottai menyarankan pendekatan ini untuk membatasi hasil 2 , ini merupakan metode yang sangat baik jika Anda ingin melakukan prediksi individu tetapi memiliki beberapa masalah ketika Anda tidak ingin melihat beta dan menafsirkannya dengan cara non-logistik. Rumusnya sederhana:
Di mana adalah skor Anda dan adalah angka kecil yang berubah - ubah .ϵy ϵ
Berikut adalah contoh yang saya lakukan beberapa waktu lalu ketika saya ingin bereksperimen dengan itu di R:
Ini memberikan pencar data berikut, seperti yang Anda lihat jelas dibatasi dan tidak nyaman :
Ini menghasilkan gambar berikut di mana perempuan jelas di atas batas atas:
Ini memberikan plot berikut dengan masalah yang sama:
Regresi kuantil logistik yang memiliki prediksi terikat sangat bagus:
Di sini Anda dapat melihat masalah dengan Beta yang dalam mode mentransformasi ulang berbeda di berbagai wilayah (seperti yang diharapkan):
Referensi
Bagi yang penasaran plot dibuat menggunakan kode ini:
sumber
Smithson, M. and Verkuilen, J. (2006). A better lemon squeezer? maximum-likelihood regression with beta-distributed dependent variables. Psychological Methods, 11(1):54-71.
, DOI , PDF online . Ini memiliki motivasi yang sama untuk distribusi pemodelan dengan efek lantai / langit-langit.