Bagaimana menangani variabel kategorikal non-biner dalam regresi logistik (SPSS)

10

Saya harus melakukan regresi logistik biner dengan banyak variabel independen. Kebanyakan dari mereka adalah biner, tetapi beberapa variabel kategori memiliki lebih dari dua level.

Apa cara terbaik untuk menangani variabel seperti itu?

Misalnya, untuk variabel dengan tiga nilai yang mungkin, saya kira dua variabel dummy harus dibuat. Kemudian, dalam prosedur regresi bertahap, lebih baik untuk menguji kedua variabel dummy pada saat yang sama, atau mengujinya secara terpisah?

Saya akan menggunakan SPSS, tetapi saya tidak mengingatnya dengan baik, jadi: bagaimana SPSS menangani situasi ini?

Selain itu, untuk variabel kategori ordinal, adalah hal yang baik untuk menggunakan variabel dummy yang menciptakan skala ordinal? (Misalnya, menggunakan tiga variabel dummy untuk variabel ordinal 4-negara, menempatkan 0-0-0untuk tingkat , untuk tingkat , untuk tingkat dan untuk tingkat , bukan , , dan untuk 4 tingkat.)2 3 411-0-021-1-031-1-140-0-01-0-00-1-00-0-1

seperti kaca
sumber
2
Ini hanya sebagian jawaban: bahkan ketika Anda membuat boneka palsu secara eksplisit (daripada menggunakan kemampuan implisit perangkat lunak), pertahankan keduanya dalam semua analisis. Secara khusus, mereka semua harus masuk bersama-sama dan semuanya pergi bersama dalam regresi bertahap, dengan nilai-p dihitung secara tepat untuk jumlah total variabel yang terlibat. (Ini adalah Hosmer & Lemeshow ini rekomendasi, bagaimanapun, dan itu membuat banyak akal.)
whuber
Saya menulis posting beberapa waktu lalu di sumber daya regresi logistik multinomial di SPSS .
Jeromy Anglim
Anda sedang berbicara tentang variabel independen Anda. Hanya variabel dependen yang perlu biner untuk regresi logistik.
John
1
Satu hal yang perlu diperhatikan di sini adalah Anda tidak boleh menggunakan prosedur seleksi bertahap sama sekali; mereka tidak valid. Jika itu tidak masuk akal / Anda ingin mengerti mengapa, ini dapat membantu Anda membaca jawaban saya di sini: algoritme-untuk-model-pemilihan otomatis .
gung - Reinstate Monica

Jawaban:

10

Situs web UCLA memiliki banyak tutorial hebat untuk setiap prosedur yang dikelompokkan berdasarkan jenis perangkat lunak yang Anda kenal. Lihat Output SPSS Beranotasi: Regresi Logistik - variabel SES yang mereka sebutkan adalah kategori (dan bukan biner). SPSS akan secara otomatis membuat variabel indikator untuk Anda. Ada juga halaman yang didedikasikan untuk Prediktor Kategorikal dalam Regresi dengan SPSS yang memiliki informasi spesifik tentang cara mengubah kode standar dan halaman khusus untuk Regresi Logistik .

M. Tibbits
sumber
7

Regresi logistik adalah metode yang cukup fleksibel. Itu dapat dengan mudah digunakan sebagai variabel independen variabel kategori. Sebagian besar perangkat lunak yang menggunakan regresi logistik harus membiarkan Anda menggunakan variabel kategori.

Sebagai contoh, katakanlah salah satu variabel kategori Anda adalah suhu yang didefinisikan menjadi tiga kategori: dingin / ringan / panas. Seperti yang Anda sarankan Anda bisa menafsirkan bahwa sebagai tiga variabel dummy yang terpisah masing-masing dengan nilai 1 atau 0. Namun, perangkat lunak harus membiarkan Anda menggunakan variabel kategori tunggal sebagai gantinya dengan nilai teks dingin / ringan / panas. Dan, regresi logit akan memperoleh koefisien (atau konstan) untuk masing-masing dari tiga kondisi suhu. Jika salah satu tidak signifikan, perangkat lunak atau pengguna dapat dengan mudah mengeluarkannya (setelah mengamati t stat dan nilai p).

Manfaat utama dari pengelompokan kategori variabel kategori menjadi variabel kategori tunggal adalah efisiensi model. Satu kolom dalam model Anda dapat menangani kategori sebanyak yang diperlukan untuk variabel kategori tunggal. Jika sebaliknya, Anda menggunakan variabel dummy untuk setiap kategori dari variabel kategori, model Anda dapat dengan cepat tumbuh memiliki banyak kolom yang berlebihan mengingat alternatif yang disebutkan.

Sympa
sumber
1
@gaetan Saya tidak mengerti komentar tentang satu kolom vs beberapa kolom. Apakah Anda menyarankan bahwa variabel kategori harus dikodekan sebagai 1, 2, 3 dll dalam satu kolom daripada menggunakan variabel dummy? Saya tidak yakin itu masuk akal bagi saya karena Anda kemudian memaksakan kendala implisit bahwa perbedaan efek pada dv antara leve1s 1 dan 2 sama dengan perbedaan efek pada dv antara level 2 dan 3. Mungkin, saya Saya melewatkan sesuatu.
1
@ Gaetan saya tidak yakin mengikuti saya. Bagaimana tepatnya XLStat mengubah nilai 'teks' dingin, ringan atau panas menjadi nilai numerik untuk tujuan estimasi? Jika ada metode yang akan memungkinkan Anda memperkirakan efek dari variabel kategori tanpa menggunakan variabel dummy tentunya yang harus independen dari perangkat lunak yang Anda gunakan karena harus ada beberapa logika berbasis konsep / model yang mendasari.
@ Gaetan Saya tidak mengikuti maksud Anda kecuali Anda menganggap bahwa variabel ordinal Anda diperlakukan sebagai variabel kontinu (ini kadang-kadang masuk akal, meskipun kami dengan jelas menganggap bahwa variabel tersebut dapat mewarisi properti dari skala interval seperti yang ditunjukkan oleh @Skrikant) . Biasanya, variabel dengan level diwakili dalam matriks desain sebagai kolom , dan saya pikir ini cukup independen dari perangkat lunak yang digunakan (tentunya, XLStat menangani pembuatan matriks desain yang benar seperti R, SPSS atau Stata) . k - 1kk1
chl
1
@ Gatean Ok, dalam hal ini, hal yang sama dapat dilakukan dalam SPSS (Anda memiliki pilihan antara numerik / ordinal / nominal untuk masing-masing variabel) - kemudian, matriks desain dibangun sesuai.
chl
2
@ Gaetan @chl Untuk merangkum pemahaman saya: Fitur SPSS dan XLStat dimana Anda dapat menentukan skala pengukuran (nominal, ordinal dll) mengurangi ukuran file data. Namun, dalam kedua contoh, perangkat lunak menggunakan skema pengkodean yang benar (misalnya, memperluas variabel nominal dengan kategori J menjadi variabel dummy J-1) sebagai bagian dari proses estimasi di latar belakang. Apakah itu akan menjadi penilaian yang adil terhadap situasi?
0

Sejauh pemahaman saya, itu baik untuk menggunakan variabel dummy untuk data kategorikal / nominal sedangkan untuk data ordinal kita dapat menggunakan pengkodean 1,2,3 untuk tingkat yang berbeda. Untuk variabel dummy kita akan mengkodekan 1 jika benar untuk onservation tertentu dan 0 sebaliknya. Juga variabel dummy akan menjadi 1 kurang dari tidak. Dari level, misalnya dalam biner kita memiliki 1. Pengamatan semua '0' dalam variabel dummy akan secara otomatis membuat 1 untuk dummy yang tidak diberi kode.

Jayr
sumber