Saya memiliki variabel independen yang disebut "kualitas"; variabel ini memiliki 3 modalitas respons (kualitas buruk; kualitas sedang; kualitas tinggi). Saya ingin memperkenalkan variabel independen ini ke dalam regresi linier berganda. Ketika saya memiliki variabel independen biner (variabel dummy, saya dapat kode 0
/ 1
) mudah untuk memperkenalkannya ke dalam model regresi linier berganda.
Tetapi dengan 3 modalitas respons, saya telah mencoba untuk mengkodekan variabel ini seperti ini:
Bad quality Medium quality High quality
0 1 0
1 0 0
0 0 1
0 1 0
Tetapi ada masalah ketika saya mencoba melakukan regresi linier berganda: modalitas Medium quality
memberi saya NA
:
Coefficients: (1 not defined because of singularities)
Bagaimana saya bisa mengkodekan "kualitas" variabel ini dengan 3 modalitas? Apakah saya harus membuat variabel sebagai faktor ( factor
dalam R
) tetapi kemudian dapatkah saya memperkenalkan faktor ini dalam regresi linier berganda?
Jawaban:
Masalah yang Anda alami (yaitu, "singularitas") dapat dianggap sebagai contoh multikolinieritas . Multikolinieritas sering didefinisikan sebagai:
Ini sebenarnya definisi yang agak ketat; itu multikolinieritas sempurna , dan Anda dapat dengan mudah memiliki masalah dengan multikolinieritas tanpa salah satu variabel Anda menjadi kombinasi linear sempurna dari yang lain. Selain itu, multikolinieritas sempurna jarang terjadi. Namun, Anda telah menemukan sebuah kasus di mana itu dapat terjadi. Mari kita lihat bagaimana kita bisa sempurna memprediksiY X1 X2
medium quality
dari pengetahuan kita tentang dua kategori lainnya (kami akan melakukan ini dengan model regresi di manamedium quality
adalah , dan & adalah X 1 & X 2 , masing-masing): Y = β 0 + β 1bad quality
high quality
Perhatikan bahwa tidak ada istilah kesalahan, ε , ditentukan, karena kita dapat memprediksi ini dengan sempurna. Untuk melakukannya, kita menetapkan β 0 = 1 , β 1 = - 1 , dan β 2 = - 1 . Sekarang, jika sudah, maka X 1 = 1 , yang membatalkan β 0 ( 1
bad quality
medium quality
R
factor
R
akan melakukan ini semua untuk Anda - itu akan dilakukan dengan benar, dan itu jauh lebih mudah - meskipun demikian, perlu dipahami bahwa inilah yang terjadi 'di balik layar'.sumber
lm
rumus (+ 0
) apakah itu akan berhasil?@ung telah menjelaskan teorinya dengan jelas. Berikut adalah contoh praktis untuk menggambarkan:
bad
Sekarang jika kita mengkodekan variabel dummy sendiri dan mencoba menyesuaikan model menggunakan semuanya:
Kami mendapatkan kesalahan yang diharapkan:
singular fit encountered
sumber
factor
umumnya akan menangani pengkodean variabel dummy untuk Anda, tetapi baik untuk mengetahui apa yang terjadi 'di bawah tenda'.