Saya berjuang untuk menemukan metode untuk mengurangi jumlah kategori dalam data nominal atau ordinal.
Sebagai contoh, katakanlah saya ingin membangun model regresi pada dataset yang memiliki sejumlah faktor nominal dan ordinal. Meskipun saya tidak memiliki masalah dengan langkah ini, saya sering mengalami situasi di mana fitur nominal tanpa pengamatan dalam set pelatihan, tetapi kemudian ada dalam dataset validasi. Ini secara alami mengarah ke dan kesalahan ketika model disajikan dengan (sejauh) kasus yang tidak terlihat. Situasi lain di mana saya ingin menggabungkan kategori adalah ketika ada terlalu banyak kategori dengan sedikit pengamatan.
Jadi pertanyaan saya adalah:
- Sementara saya menyadari mungkin yang terbaik untuk menggabungkan banyak kategori nominal (dan ordinal) berdasarkan informasi latar belakang dunia nyata sebelumnya yang mereka wakili, apakah ada metode sistematis (
R
paket lebih disukai) yang tersedia? - Panduan dan saran apa yang akan Anda buat berkenaan dengan batas ambang batas dan sebagainya?
- Apa solusi paling populer dalam literatur?
- Adakah strategi lain selain menggabungkan kategori nominal kecil ke kategori "LAIN" yang baru?
Jangan ragu untuk berpadu jika Anda memiliki saran lain juga.
Jawaban:
Ini adalah jawaban untuk pertanyaan kedua Anda.
Saya menduga pendekatan yang benar untuk keputusan semacam ini akan sangat ditentukan oleh norma-norma disipliner dan harapan audiens yang dituju dari pekerjaan Anda. Sebagai seorang ilmuwan sosial, saya sering bekerja dengan data survei (atau seperti survei) dan saya selalu berusaha menyeimbangkan logika substantif dan data-driven ketika saya runtuh skala ordinal atau variabel kategori. Dengan kata lain, saya akan melakukan yang terbaik untuk mempertimbangkan kombinasi item apa yang "bersatu" dalam hal substansi mereka serta distribusi tanggapan sebelum saya menjatuhkan item tersebut.
Berikut adalah contoh terbaru dari pertanyaan survei spesifik (ordinal) yang melibatkan skala frekuensi lima poin:
Saya tidak memiliki data yang tersedia untuk saya saat ini, tetapi hasilnya sangat condong ke arah ujung skala "tidak pernah". Akibatnya, penulis bersama saya dan saya memilih untuk menyatukan respons ke dalam dua kelompok: "Sekali sebulan atau lebih" dan "Kurang dari sekali sebulan." Variabel (biner) yang dihasilkan lebih merata dan mencerminkan perbedaan yang bermakna dalam hal praktis: karena banyak klub dan organisasi tidak bertemu lebih dari sekali sebulan, ada alasan bagus untuk percaya bahwa orang yang menghadiri pertemuan setidaknya yang sering "aktif" anggota kelompok-kelompok seperti itu sedangkan mereka yang jarang menghadiri (atau tidak pernah) adalah "tidak aktif."
Jadi, menurut pengalaman saya, keputusan-keputusan ini setidaknya merupakan seni sama halnya dengan sains. Yang mengatakan, saya juga biasanya mencoba melakukan ini sebelum memasang model apa pun, karena saya bekerja dalam disiplin di mana hal lain dipandang (negatif) sebagai penggalian data dan sangat tidak ilmiah (waktu yang menyenangkan!).
Dengan mengingat hal itu, mungkin akan membantu jika Anda bisa mengatakan sedikit lebih banyak tentang jenis audiens yang ada dalam pikiran Anda untuk pekerjaan ini. Anda juga sebaiknya meninjau beberapa buku pelajaran metodologi yang menonjol di bidang Anda karena sering kali dapat menjelaskan apa yang berlaku untuk perilaku "normal" di antara komunitas penelitian tertentu.
sumber
Jenis-jenis pendekatan yang dibahas ashaw dapat mengarah pada metodologi yang relatif lebih sistematis. Tetapi saya juga berpikir bahwa secara sistematis maksud Anda algoritmik. Di sini alat penambangan data dapat mengisi kekosongan. Pertama, ada prosedur deteksi interaksi chi-kuadrat otomatis (CHAID) yang dibangun dalam modul Pohon Keputusan SPSS; itu dapat, menurut aturan yang ditetapkan oleh pengguna, runtuh kategori ordinal atau nominal variabel prediktor ketika mereka menunjukkan nilai yang sama pada variabel hasil (apakah itu kontinu atau nominal). Aturan-aturan ini mungkin tergantung pada ukuran grup yang diciutkan atau dibuat oleh collapsing, atau pada hal-nilai dari tes statistik terkait. Saya percaya beberapa program pohon klasifikasi dan regresi dapat melakukan hal yang sama. Responden lain harus dapat berbicara tentang fungsi serupa yang dilakukan oleh jaringan saraf atau aplikasi lain yang disediakan melalui berbagai paket data mining.
sumber