Regresi untuk variabel independen kategorikal dan variabel dependen kontinu

20

Saya baru sadar bahwa saya selalu mengatasi masalah regresi di mana variabel independen selalu numerik. Dapatkah saya menggunakan regresi linier dalam kasus di mana semua variabel independen bersifat kategorikal?

famargar
sumber

Jawaban:

24

Hanya beberapa semantik dan harus jelas:

  • variabel dependen == hasil == " y " dalam rumus regresi seperti y=β0+β1x1+β2x2+...+βkxk
  • variabel bebas == prediktor == salah satu dari " " dalam rumus regresi sepertixky=β0+β1x1+β2x2+...+βkxk

Jadi dalam kebanyakan situasi jenis regresi tergantung pada jenis variabel dependen, hasil atau " "y . Sebagai contoh, regresi linier digunakan ketika variabel dependen kontinu, regresi logistik ketika dependen dikategorikan dengan 2 kategori, dan regresi multinomi (n) al ketika dependen dikategorikan dengan lebih dari 2 kategori. Prediktor dapat berupa apa saja (kategori nominal atau ordinal, atau kontinu, atau campuran) .

(Komentar di bawah ini mungkin berlebihan untuk Anda, tapi saya tambahkan pula)

Namun, harap dicatat bahwa sebagian besar perangkat lunak mengharuskan Anda untuk mengkode ulang prediktor kategori ke sistem numerik biner . Ini hanya berarti pengkodean seks ke 0 untuk wanita dan 1 untuk pria atau sebaliknya. Untuk variabel kategori dengan lebih dari 2 level, Anda harus mengubah kode ini menjadi variabel dummy mana adalah jumlah level dan boneka ini mengandung 0 atau 1 ketika mereka berada dalam kategori yang sesuai. Dengan cara ini setiap individu (sampel) harus diwakili dengan memiliki 1 untuk variabel dummy dia adalah bagian dari dan 0 untuk yang lain, atau 0 untuk semua boneka ketika dia adalah bagian dari kelompok referensi.L1L

IWS
sumber
Terima kasih. ketika saya menulis dalam judul pertanyaan, variabel dependen adalah kontinu. Jadi saya mengambil jawaban Anda sebagai "Anda dapat menggunakan regresi linier, asalkan Anda melakukan dummy encoding". Tolong koreksi saya jika saya salah.
famargar
ya itu yang saya katakan.
IWS
2
Saya melihat Anda telah mengedit pertanyaan untuk menambahkan pertanyaan kedua, dan memposting pertanyaan serupa di sini: stats.stackexchange.com/questions/267137/… . Selain itu, saya akan bertanya kepada Anda apa yang Anda maksud dengan merapikan prediksi Anda, atau apa yang Anda maksud dengan memprediksi nilai diskrit. AFAIK, regresi linier akan memberi Anda nilai rata-rata dari ketergantungan kontinu berdasarkan variabel prediktor Anda (melalui rumus regresi). Tolong jelaskan
IWS
1
Saya menghapus pertanyaan kedua saat Anda sepenuhnya menjawab yang asli. Untuk menjawab pertanyaan Anda, jika saya memberi "acara" baru ( x i ) ke model, saya akan mendapatkan n nilai y berbeda yang semuanya akan mengambil satu dari empat nilai yang direvisi. Saya kira saya mengatakan bahwa jika variabel kategorikal sebenarnya ordinal, saya ingin memperkenalkan beberapa (logit?) Perataan antar nilai. nxiny
famargar
1
Dalam kasus variabel ordinal kita selalu dapat memilih untuk menganggap itu "cukup kontinu" untuk menggunakannya seolah-olah itu adalah prediktor kontinu (dengan hanya tidak menggunakan boneka, tetapi memasukkan variabel sebagai versi numerik). Namun, jika Anda melakukan ini dan Anda hanya memiliki beberapa level, Anda memasang garis lurus (sehingga mengasumsikan linearitas) melalui hanya beberapa poin (jadi perhatikan bahwa jumlah level penting di sini). Skala Likert adalah contoh yang baik dari variabel yang digunakan dengan cara ini, yang sayangnya menciptakan masalah di berbagai kesempatan.
IWS