Saya harus melakukan regresi logistik biner dengan banyak variabel independen. Kebanyakan dari mereka adalah biner, tetapi beberapa variabel kategori memiliki lebih dari dua level.
Apa cara terbaik untuk menangani variabel seperti itu?
Misalnya, untuk variabel dengan tiga nilai yang mungkin, saya kira dua variabel dummy harus dibuat. Kemudian, dalam prosedur regresi bertahap, lebih baik untuk menguji kedua variabel dummy pada saat yang sama, atau mengujinya secara terpisah?
Saya akan menggunakan SPSS, tetapi saya tidak mengingatnya dengan baik, jadi: bagaimana SPSS menangani situasi ini?
Selain itu, untuk variabel kategori ordinal, adalah hal yang baik untuk menggunakan variabel dummy yang menciptakan skala ordinal? (Misalnya, menggunakan tiga variabel dummy untuk variabel ordinal 4-negara, menempatkan 0-0-0
untuk tingkat , untuk tingkat , untuk tingkat dan untuk tingkat , bukan , , dan untuk 4 tingkat.)2 3 41-0-0
1-1-0
1-1-1
0-0-0
1-0-0
0-1-0
0-0-1
sumber
Jawaban:
Situs web UCLA memiliki banyak tutorial hebat untuk setiap prosedur yang dikelompokkan berdasarkan jenis perangkat lunak yang Anda kenal. Lihat Output SPSS Beranotasi: Regresi Logistik - variabel SES yang mereka sebutkan adalah kategori (dan bukan biner). SPSS akan secara otomatis membuat variabel indikator untuk Anda. Ada juga halaman yang didedikasikan untuk Prediktor Kategorikal dalam Regresi dengan SPSS yang memiliki informasi spesifik tentang cara mengubah kode standar dan halaman khusus untuk Regresi Logistik .
sumber
Regresi logistik adalah metode yang cukup fleksibel. Itu dapat dengan mudah digunakan sebagai variabel independen variabel kategori. Sebagian besar perangkat lunak yang menggunakan regresi logistik harus membiarkan Anda menggunakan variabel kategori.
Sebagai contoh, katakanlah salah satu variabel kategori Anda adalah suhu yang didefinisikan menjadi tiga kategori: dingin / ringan / panas. Seperti yang Anda sarankan Anda bisa menafsirkan bahwa sebagai tiga variabel dummy yang terpisah masing-masing dengan nilai 1 atau 0. Namun, perangkat lunak harus membiarkan Anda menggunakan variabel kategori tunggal sebagai gantinya dengan nilai teks dingin / ringan / panas. Dan, regresi logit akan memperoleh koefisien (atau konstan) untuk masing-masing dari tiga kondisi suhu. Jika salah satu tidak signifikan, perangkat lunak atau pengguna dapat dengan mudah mengeluarkannya (setelah mengamati t stat dan nilai p).
Manfaat utama dari pengelompokan kategori variabel kategori menjadi variabel kategori tunggal adalah efisiensi model. Satu kolom dalam model Anda dapat menangani kategori sebanyak yang diperlukan untuk variabel kategori tunggal. Jika sebaliknya, Anda menggunakan variabel dummy untuk setiap kategori dari variabel kategori, model Anda dapat dengan cepat tumbuh memiliki banyak kolom yang berlebihan mengingat alternatif yang disebutkan.
sumber
Sejauh pemahaman saya, itu baik untuk menggunakan variabel dummy untuk data kategorikal / nominal sedangkan untuk data ordinal kita dapat menggunakan pengkodean 1,2,3 untuk tingkat yang berbeda. Untuk variabel dummy kita akan mengkodekan 1 jika benar untuk onservation tertentu dan 0 sebaliknya. Juga variabel dummy akan menjadi 1 kurang dari tidak. Dari level, misalnya dalam biner kita memiliki 1. Pengamatan semua '0' dalam variabel dummy akan secara otomatis membuat 1 untuk dummy yang tidak diberi kode.
sumber