Saya memiliki 5 variabel dan saya mencoba memprediksi variabel target saya yang harus berada dalam kisaran 0 hingga 70.
Bagaimana saya menggunakan informasi ini untuk membuat model target saya lebih baik?
sumber
Saya memiliki 5 variabel dan saya mencoba memprediksi variabel target saya yang harus berada dalam kisaran 0 hingga 70.
Bagaimana saya menggunakan informasi ini untuk membuat model target saya lebih baik?
Anda tidak perlu harus melakukan apa pun. Mungkin prediktornya akan bekerja dengan baik. Bahkan jika extrapolates prediktor terhadap nilai-nilai di luar jangkauan, mungkin menjepit prediksi untuk rentang (yaitu, penggunaan bukan ) akan melakukannya dengan baik. Validasi silang model untuk melihat apakah ini berhasil.
Namun, rentang terbatas meningkatkan kemungkinan hubungan nonlinear antara variabel dependen ( ) dan variabel independen ( ). Beberapa indikator tambahan ini meliputi:
Variasi yang lebih besar dalam nilai residu ketika berada di tengah kisarannya, dibandingkan dengan variasi residu di kedua ujung rentang.
Alasan teoritis untuk hubungan non-linear tertentu.
Bukti model salah spesifikasi (diperoleh dengan cara biasa).
Signifikansi istilah kuadratik atau tingkat tinggi dalam .
Pertimbangkan ekspresi ulang nonlinier jika salah satu dari kondisi ini berlaku.
Ada banyak cara untuk mengekspresikan kembali untuk menciptakan hubungan yang lebih linier dengan . Misalnya, setiap fungsi peningkatan didefinisikan pada interval dapat "dilipat" untuk membuat fungsi peningkatan simetris melalui . Jika menjadi besar secara sewenang-wenang dan negatif ketika argumennya mendekati , versi dilipat akan memetakan ke semua bilangan real. Contoh fungsi tersebut termasuk logaritma dan kekuatan negatif apa pun. Menggunakan logaritma sama dengan "logit link" yang direkomendasikan oleh @ user603. Cara lain adalah membiarkanmenjadi CDF terbalik dari setiap distribusi probabilitas dan mendefinisikan . Menggunakan distribusi normal memberikan transformasi "probit".
Salah satu cara untuk mengeksploitasi keluarga transformasi adalah dengan bereksperimen: mencoba transformasi yang mungkin, melakukan regresi cepat dari ditransformasi terhadap x i , dan menguji residu: mereka harus tampak independen dari nilai prediksi y (homoseksual dan tidak berkorelasi ). Ini adalah tanda-tanda hubungan linear dengan variabel independen. Ini juga membantu, jika residu dari nilai prediksi yang ditransformasikan kembali cenderung kecil. Ini menunjukkan transformasi telah meningkatkan kecocokan. Untuk menolak efek pencilan, gunakan metode regresi yang kuat seperti kuadrat terkecil yang berulang secara berulang .
Penting untuk mempertimbangkan mengapa nilai Anda dibatasi dalam rentang 0-70. Sebagai contoh, jika mereka adalah jumlah jawaban yang benar pada tes 70 pertanyaan, maka Anda harus mempertimbangkan model untuk variabel "jumlah keberhasilan", seperti regresi binomial overdispersed. Alasan lain mungkin mengarahkan Anda ke solusi lain.
sumber
Transformasi data: skala ulang data Anda untuk berada di[ 0 , 1 ] dan modelkan itu menggunakan model glm dengan tautan logit.
Sunting: Ketika Anda kembali skala vektor (yaitu membagi semua elemen dengan entri terbesar), sebagai aturan, sebelum Anda melakukannya, layar (bola mata) untuk pencilan.
MEMPERBARUI
sumber