Ketika respons atau hasil Y dibatasi, berbagai pertanyaan muncul dalam pemasangan suatu model, termasuk yang berikut:
Model apa pun yang dapat memprediksi nilai untuk respons di luar batas itu pada prinsipnya meragukan. Oleh karena itu model linier mungkin bermasalah karena tidak ada batas pada Y = X b untuk prediktor X dan koefisien b setiap kali X itu sendiri terbatas pada satu atau kedua arah. Namun, hubungan mungkin cukup lemah untuk tidak menggigit dan / atau prediksi mungkin tetap dalam batas atas kisaran yang diprediksi atau masuk akal dari prediktor. Pada satu ekstrem, jika responsnya adalah + suara rata-rata , tidak masalah model mana yang cocok.Y^= XbXbX+
Karena respons tidak dapat melebihi batasnya, hubungan nonlinier seringkali lebih masuk akal dengan respons yang diprediksi akan mendekati batas tanpa asimtotik. Kurva atau permukaan Sigmoid seperti yang diprediksi oleh model logit atau probit menarik dalam hal ini dan sekarang tidak sulit untuk disesuaikan. Respons seperti literasi (atau fraksi yang mengadopsi ide baru) sering menunjukkan kurva sigmoid dalam waktu dan masuk akal dengan hampir semua alat prediksi lainnya.
Respons terbatas tidak dapat memiliki properti varians yang diharapkan dalam regresi polos atau vanila. Seharusnya sebagai respon rata-rata mendekati batas bawah dan atas, varians selalu mendekati nol.
Model harus dipilih sesuai dengan apa yang berhasil dan pengetahuan tentang proses pembuatan yang mendasarinya. Apakah klien atau audiens tahu tentang keluarga model tertentu juga dapat memandu praktik.
Perhatikan bahwa saya sengaja menghindari penilaian selimut seperti baik / tidak baik, tepat / tidak tepat, benar / salah. Semua model adalah aproksimasi terbaik dan aproksimasi menarik, atau cukup baik untuk suatu proyek, tidak begitu mudah untuk diprediksi. Saya biasanya memilih model logit sebagai pilihan pertama untuk tanggapan terbatas sendiri, tetapi bahkan preferensi itu sebagian didasarkan pada kebiasaan (misalnya model menghindari saya tanpa alasan yang sangat baik) dan sebagian di mana saya akan melaporkan hasil, biasanya untuk pembaca yang sedang, atau harus, secara statistik mendapat informasi.
Contoh skala diskrit Anda adalah untuk skor 1-100 (dalam tugas yang saya tandai, 0 tentu saja mungkin!) Atau peringkat 1-17. Untuk skala seperti itu, saya biasanya berpikir untuk memasang model kontinu ke respon yang diskalakan menjadi [0, 1]. Namun, ada praktisi model regresi ordinal yang dengan senang hati akan menyesuaikan model tersebut dengan skala dengan nilai diskrit yang cukup besar. Saya senang jika mereka menjawab jika mereka begitu berpikiran.
Lihatlah nilai-nilai yang diprediksi dan periksa apakah mereka memiliki distribusi yang kira-kira sama dengan Ys asli. Jika ini masalahnya, regresi linier mungkin baik-baik saja. dan Anda akan mendapatkan sedikit dengan meningkatkan model Anda.
sumber
Regresi linier mungkin "cukup" menggambarkan data seperti itu, tetapi tidak mungkin. Banyak asumsi regresi linier cenderung dilanggar dalam tipe data sedemikian rupa sehingga regresi linier menjadi keliru. Saya hanya akan memilih beberapa asumsi sebagai contoh,
Pelanggaran asumsi ini dikurangi jika data cenderung jatuh di sekitar pusat rentang, jauh dari tepi. Tapi sungguh, regresi linier bukan alat yang optimal untuk data seperti ini. Alternatif yang jauh lebih baik mungkin regresi binomial, atau regresi poisson.
sumber
Jika respons hanya mengambil beberapa kategori, Anda mungkin dapat menggunakan metode klasifikasi atau regresi ordinal jika variabel respons Anda bersifat ordinal.
Regresi linier biasa tidak akan memberi Anda kategori diskrit atau variabel respons terbatas. Yang terakhir dapat diperbaiki dengan menggunakan model logit seperti dalam regresi logistik. Untuk sesuatu seperti skor tes dengan 100 kategori 1-100, Anda mungkin juga menyederhanakan prediksi Anda dan menggunakan variabel respons terbatas.
sumber
menggunakan cdf (fungsi distribusi kumulatif dari statistik). jika model Anda adalah y = xb + e, kemudian ubah ke y = cdf (xb + e). Anda harus mengubah skala data variabel dependen Anda menjadi antara 0 dan 1. Jika itu adalah angka positif, bagilah dengan maksimal, dan ambil prediksi model Anda dan kalikan dengan angka yang sama. Kemudian, periksa kecocokan dan lihat apakah prediksi yang dibatasi memperbaiki keadaan.
Anda mungkin ingin menggunakan algoritme kalengan untuk mengurus statistik untuk Anda.
sumber