Bagaimana menangani variabel kategori ordinal sebagai variabel independen

18

Saya menggunakan model logit. Variabel dependen saya adalah biner. Namun saya memiliki variabel independen yang kategoris dan berisi tanggapan: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Jadi, ini bersifat ordinal ("kategorikal kuantitatif"). Saya tidak yakin bagaimana menangani ini dalam model. Saya menggunakan gretl.

[Catatan dari @ttnphns: Meskipun pertanyaannya mengatakan model itu logit (karena dependennya kategorikal), masalah krusial - variabel independen ordinal - pada dasarnya sama, menjadi kategorikal dependen atau kuantitatif. Oleh karena itu pertanyaannya sama relevannya dengan, katakanlah, regresi linier juga - seperti halnya dengan regresi logistik atau model logit lainnya.]

rahmat
sumber
Variabel dependen saya mengambil nilai 0 dan 1, saya punya 6 variabel independen, 3 dari mereka adalah kategori variabel ini seperti "bagaimana Anda menilai layanan kesehatan lokal di daerah Anda? Bagaimana Anda menilai transportasi lokal di daerah Anda dan bagaimana Anda menilai layanan polisi di daerah Anda? responsnya sangat baik, bagus, rata-rata, buruk dan sangat miskin
rahmat
@ Tim Jika variabel dependen adalah biner, maka tidak perlu untuk regresi ordinal. Implikasinya adalah menangani prediktor ordinal menggunakan variabel indikator (dummy).
Nick Cox
terima kasih tim, jika saya tidak salah apa yang Anda katakan adalah bahwa saya harus membuat boneka untuk semua kategori ?? misalnya saya punya lima respons (sangat baik, bagus, rata-rata, buruk dan sangat miskin) untuk satu variabel indep, jadi saya harus membuat 5 boneka.
rahmat

Jawaban:

14

Masalah dengan variabel independen ordinal adalah bahwa karena, menurut definisi, interval metrik sebenarnya antara level-levelnya tidak diketahui , tidak ada hubungan tipe yang tepat - selain dari payung "monoton" - dapat dianggap apriori. Kita harus melakukan sesuatu tentang hal itu, misalnya - untuk "menyaring atau menggabungkan varian" atau "lebih suka apa yang memaksimalkan sesuatu".

Jika Anda bersikeras memperlakukan peringkat likert IV Anda sebagai ordinal (daripada interval atau nominal) saya punya sepasang alternatif untuk Anda.

  1. Gunakan kontras polinomial Yaitu setiap prediktor yang digunakan dalam model masuk tidak hanya secara linear tetapi juga secara kuadratik dan kubik. Jadi, tidak hanya linear, tetapi lebih umum, efek monotonik dapat ditangkap (efek linear sesuai dengan prediktor disimpan sebagai skala / interval dan dua efek lainnya rasanya memiliki interval yang tidak sama). Selain itu, boneka dari masing-masing prediktor dapat dimasukkan juga, yang akan menguji efek nominal / faktorial. Di akhir semua itu, Anda tahu seberapa banyak prediktor Anda bertindak sebagai faktor, sebanyak kovariat linear, dan berapa banyak sebagai kovariat nonlinear. Opsi ini mudah dilakukan di hampir semua regresi (linier, logistik, model umum-linier lainnya). Ini akan mengkonsumsi df s, sehingga ukuran sampel harus cukup besar.
  2. Gunakan regresi skala optimal . Pendekatan ini mengubah secara monoton prediktor ordinal menjadi interval sehingga dapat memaksimalkan efek linear pada prediksi dan. CATREG (regresi kategoris) adalah implementasi dari ide ini di SPSS. Salah satu masalah dari kasus spesifik Anda adalah bahwa Anda ingin melakukan logistik, bukan regresi linier tetapi CATREG tidak berdasarkan model logit. Saya pikir kendala ini relatif kecil karena prediksi Anda dan hanya 2-kategori (biner): Maksud saya Anda mungkin masih melakukan CATREG untuk penskalaan yang optimal, kemudian melakukan regresi logistik akhir dengan prediktor skala transformasi yang diubah.
  3. Perhatikan juga bahwa dalam kasus sederhana satu skala atau DV ordinal dan satu uji ordinal IV Jonckheere-Terpstra mungkin merupakan analisis yang masuk akal alih-alih regresi.

Mungkin ada saran lain juga. Tiga di atas adalah apa yang terlintas dalam pikiran saya hanya dengan langsung membaca pertanyaan Anda.

Izinkan saya merekomendasikan Anda untuk mengunjungi utas ini: Mengaitkan antara nominal dan skala atau ordinal ; Mengaitkan antara ordinal dan skala . Mereka dapat membantu meskipun mereka bukan tentang regresi khusus.

Tetapi utas ini adalah tentang regresi, terutama logistik: Anda harus melihat ke dalam: satu , dua , tiga , empat , lima .

ttnphns
sumber
(+1) (1) Anda juga dapat menggunakan hanya beberapa kontras polinomial pertama jika Anda merasa cukup. (2) Mendefinisikan prediktor dari respons dalam set data yang sama harus disertai dengan peringatan kesehatan. (3) Anda juga dapat menghukum perbedaan antara koefisien dari tingkat yang berdekatan - lihat stats.stackexchange.com/q/77796/17230 .
Scortchi
1
@Scortchi, Terima kasih atas komentarnya. Mengenai (2) - ya, khususnya, tentu saja lebih dapat diandalkan untuk melakukan penskalaan yang optimal pada subkumpulan data yang terpisah di mana regresi akhir akan dilakukan. (3) - terima kasih juga, saya akan membiasakan diri dengannya.
ttnphns
1
Pilihan lain adalah menggunakan model aditive, dan mewakili variabel independen ordinal melalui spline.
kjetil b halvorsen
2
@kjetilbhalvorsen, Ya itu mungkin, terima kasih. Namun opsi ini sudah tersirat dalam Pt 2 karena salah satu metode penskalaan optimal untuk variabel ordinal menggunakan spline.
ttnphns
7

Hanya untuk menambah jawaban yang sangat baik lainnya: Cara modern penanganannya bisa melalui model aditif, yang mewakili variabel independen ordinal melalui spline. Jika Anda cukup yakin efek variabel monoton, Anda dapat membatasi untuk monline spline. (Untuk contoh splines monoton yang digunakan, lihat Mencari fungsi yang sesuai dengan kurva seperti sigmoid ).

Dalam R, jika Anda menjadikan prediktor ordinal sebagai "faktor terurut" (misalnya dengan kode ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ) maka dalam model linier itu akan direpresentasikan melalui polinomial ortogonal.

kjetil b halvorsen
sumber
4
Akan menyenangkan hanya sedikit mengembangkannya, untuk memasukkan beberapa detail lebih lanjut bagaimana ini akan bekerja dengan prediktor ordinal.
ttnphns
0

k1k

Austin T
sumber
3
Saya telah secara sepihak (dan pedantically, atau sebaliknya) mengubah penggunaan notasi Anda yang sangat kecil. Meskipun sepele,nbiasanya lebih merupakan hitungan pengamatan, dan saya sering melihat pemula bingung dengan hal-hal seperti itu.
Nick Cox
1
terima kasih tim dan nick. Jadi saya harus menjalankan keempat boneka dalam regresi. Baik? jika demikian saya punya 3 variabel kategori masing-masing dengan 5 respons. oleh karena itu, model saya akan memiliki 12 variabel. Baik?
rahmat
1
Terima kasih @NickCox - Saya baru di dunia CV dan menghargai koreksi yang terhormat
Austin T
1
Sayangnya, Anda belum menjelaskan mengapa variabel dummy akan dibutuhkan sama sekali. Saya tidak merasa bahwa jawaban ini, seperti bagaimana saat ini, terlihat sebagai jawaban untuk pertanyaan itu.
ttnphns
2
Untuk mendukung, saya tidak berpendapat bahwa diperlukan indikator ; hanya saja mereka memungkinkan berbagai efek ditangkap, termasuk hubungan non-monotonik.
Nick Cox