Mempelajari regresi ordinal dalam R?

10

Saya sedang mengerjakan sebuah proyek dan membutuhkan sumber daya untuk mempercepat saya.

Dataset adalah sekitar 35.000 pengamatan pada 30 atau lebih variabel. Sekitar setengah variabel adalah kategori dengan beberapa memiliki banyak nilai yang berbeda, yaitu jika Anda membagi variabel kategori menjadi variabel dummy Anda akan memiliki lebih dari 30 variabel. Tapi mungkin masih dalam urutan beberapa ratus maks. (n> p).

Respons yang ingin kita prediksi bersifat ordinal dengan 5 level (1,2,3,4,5). Prediktor adalah campuran yang berkesinambungan dan kategorikal, sekitar setengah dari masing-masing. Inilah pemikiran / rencana saya sejauh ini: 1. Perlakukan respons sebagai terus menerus dan jalankan regresi linier vanila. 2. Jalankan logistik nominal dan ordinal dan regresi probit 3. Gunakan MARS dan / atau aroma lain dari regresi non-linear

Saya kenal dengan regresi linier. MARS digambarkan dengan cukup baik oleh Hastie dan Tibshirani. Tapi saya bingung ketika datang ke ordinal logit / probit, terutama dengan begitu banyak variabel dan satu set data besar.

Paket r glmnetcr tampaknya menjadi taruhan terbaik saya sejauh ini, tetapi dokumentasi hampir tidak cukup untuk membawa saya ke tempat yang saya inginkan .

Di mana saya bisa belajar lebih banyak?

Matt Hall
sumber
Saya sarankan Anda menambahkan tag R juga.
Christopher Louden
1
Mengingat ini adalah pertanyaan tentang model statistik, Anda mungkin ingin mengunjungi situs web CrossValidated , tetapi perlu diingat bahwa itu adalah praktik yang mengerikan untuk mengirim silang pertanyaan: Anda juga ingin merumuskannya untuk menyoroti masalah metodologi yang Anda sedang menghadapi, atau memigrasikan seluruh pertanyaan.
Tugas
Tanpa benar-benar menjelaskan mengapa, ISL mencatat (pada halaman 137) bahwa analisis diskriminan (seperti LDA, QDA) lebih sering digunakan daripada ekstensi kelas ganda dari regresi logistik. Paket-paket seperti LDA yang terkena sanksi karenanya mungkin layak diperiksa.
MattBagg

Jawaban:

6

Satu paket R yang cukup kuat untuk regresi dengan respons kategoris ordinal adalah VGAM, pada CRAN. Sketsa berisi beberapa contoh regresi ordinal, tetapi memang saya belum pernah mencobanya pada set data yang besar, jadi saya tidak bisa memperkirakan berapa lama waktu yang dibutuhkan. Anda mungkin menemukan beberapa materi tambahan tentang VGAM pada penulis halaman . Atau Anda bisa melihat rekan Laura Thompson ke buku Agresti "Analisis Data Kategorikal". Bab 7 dari buku Thompson menjelaskan model kumulatif logit, yang sering digunakan dengan respons ordinal.

Semoga ini membantu!

GdA
sumber
3

Jika Anda benar-benar tidak terbiasa dengan regresi ordinal, saya akan mencoba membaca bab Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) pada topik pertama - Meskipun tidak ditulis untuk R, buku ini sangat bagus dalam menyampaikan logika umum dan "lakukan" dan "jangan".

Sebagai pertanyaan: Apa tanggapan Anda sebenarnya dari kategori? Jika mereka adalah semacam skala, seperti "baik - buruk" itu akan baik-baik saja untuk menggunakan regresi linier (penelitian pasar melakukannya setiap saat ...), tetapi jika item lebih terpisah, regresi ordinal mungkin lebih baik . Saya samar-samar ingat bahwa beberapa buku tentang pemodelan kesetaraan struktural menyebutkan bahwa regresi linier lebih unggul untuk skala yang baik daripada probit - bit saya tidak dapat mengingat buku saat ini, maaf!

Masalah yang paling serius mungkin adalah jumlah variabel dummy - beberapa ratus variabel dummy akan membuat analisis lambat, sulit untuk ditafsirkan dan mungkin tidak stabil - apakah ada cukup kasus untuk setiap kombinasi dummy / dummy?

Sauer Kristen
sumber
3

Satu referensi standar yang ditulis dari perspektif ilmu sosial adalah buku Variabel Ketergantungan Terbatas J Scott Long . Ini jauh lebih dalam daripada yang dikatakan Tabachnik dalam jawaban lain : Tabachnik adalah buku masak yang terbaik, dengan sedikit atau tidak ada penjelasan tentang "mengapa", dan sepertinya Anda akan mendapat manfaat dari mencari tahu ini secara lebih rinci yang dapat ditemukan di Long's Book. Regresi ordinal harus dicakup dalam sebagian besar program ekonometrika pengantar ( Cross-Section dan Panel Data Wooldridge adalah buku tingkat pascasarjana yang hebat), serta program ilmu sosial kuantitatif (sosiologi, psikologi), meskipun saya membayangkan bahwa yang terakhir akan kembali lagi. buku Long.

Mengingat bahwa jumlah variabel Anda lebih rendah dari ukuran sampel, paket R yang seharusnya Anda cari mungkin ordinalbukan glmnetcr. Jawaban lain menyebutkan bahwa Anda dapat menemukan fungsi ini dalam MASSpaket yang lebih utama .

Tugas
sumber