Dalam menjawab pertanyaan ini pada data diskrit dan kontinu, saya dengan tegas menyatakan bahwa jarang masuk akal untuk memperlakukan data kategorikal sebagai kontinu.
Di muka itu yang tampak jelas, tetapi intuisi sering menjadi panduan yang buruk untuk statistik, atau setidaknya milikku. Jadi sekarang saya bertanya-tanya: apakah itu benar? Atau adakah analisis yang sudah mapan dimana transformasi dari data kategorikal ke beberapa kontinum sebenarnya berguna? Apakah akan ada bedanya jika datanya ordinal?
Jawaban:
Saya akan berasumsi bahwa variabel "kategoris" sebenarnya adalah variabel ordinal; kalau tidak, tidak masuk akal untuk memperlakukannya sebagai yang berkelanjutan, kecuali itu adalah variabel biner (kode 0/1) seperti yang ditunjukkan oleh @Rob. Kemudian, saya akan mengatakan bahwa masalahnya bukan cara kita memperlakukan variabel, meskipun banyak model untuk analisis data kategorikal telah dikembangkan sejauh ini - lihat misalnya, Analisis data kategorikal terurut: Tinjauan umum dan survei terbaru perkembangan dari Liu dan Agresti--, dari skala pengukuran yang mendasari kami menganggap. Respons saya akan fokus pada poin kedua ini, meskipun saya akan membahas secara singkat penugasan skor numerik untuk kategori atau level variabel.
Dengan menggunakan pengodean ulang numerik sederhana dari suatu variabel ordinal, Anda mengasumsikan bahwa variabel tersebut memiliki properti interval (dalam arti klasifikasi yang diberikan oleh Stevens, 1946). Dari perspektif teori pengukuran (dalam psikologi), ini mungkin sering menjadi asumsi yang terlalu kuat, tetapi untuk studi dasar (yaitu di mana satu item digunakan untuk mengekspresikan pendapat seseorang tentang kegiatan sehari-hari dengan kata-kata yang jelas) setiap skor monoton harus memberikan hasil yang sebanding . Cochran (1954) sudah menunjuk itu
(Banyak terima kasih kepada @whuber karena mengingatkan saya tentang hal ini di seluruh salah satu komentarnya, yang membuat saya membaca kembali buku Agresti, dari mana kutipan ini berasal.)
Sebenarnya, beberapa tes mengobati variabel secara implisit seperti Interval skala: misalnya, statistik untuk menguji tren linear (sebagai alternatif untuk kemerdekaan sederhana) didasarkan pada pendekatan korelasional ( M 2 = ( n - 1 ) r 2 , Agresti, 2002, hlm. 87).M.2 M.2= ( n - 1 ) r2
Nah, Anda juga dapat memutuskan untuk mengkode ulang variabel Anda pada rentang yang tidak teratur, atau mengagregasi beberapa levelnya, tetapi dalam hal ini ketidakseimbangan yang kuat antara kategori yang direkodekan dapat mengubah tes statistik, misalnya tes tren yang disebutkan di atas. Alternatif yang bagus untuk menetapkan jarak antar kategori sudah diusulkan oleh @Jeromy, yaitu penskalaan optimal.
Sekarang, mari kita bahas poin kedua yang saya buat, yaitu model pengukuran yang mendasarinya. Saya selalu ragu menambahkan tag "psychometrics" ketika saya melihat pertanyaan seperti ini, karena konstruksi dan analisis skala pengukuran berada di bawah Teori Psikometrik (Nunnally dan Bernstein, 1994, untuk tinjauan umum yang rapi). Saya tidak akan membahas semua model yang sebenarnya menuju di bawah Teori Respons Item , dan saya dengan senang hati merujuk pembaca yang tertarik ke saya. Tutorial Partchev, Sebuah panduan visual untuk teori respons item, untuk pengantar lembut untuk IRT, dan untuk referensi (5-8) yang tercantum di akhir untuk kemungkinan taksonomi IRT. Sangat singkat, idenya adalah bahwa alih-alih menetapkan jarak yang sewenang-wenang antara kategori variabel, Anda mengasumsikan skala laten dan memperkirakan lokasi mereka pada kontinum itu, bersama dengan kemampuan atau kewajiban individu. Sebuah contoh sederhana bernilai banyak notasi matematis, jadi mari kita pertimbangkan item berikut (berasal dari EORTC QLQ-C30 yang berhubungan dengan kualitas hidup kuesioner kesehatan):
yang dikodekan pada skala empat poin, mulai dari "Tidak sama sekali" hingga "Sangat banyak". Skor mentah dihitung dengan menetapkan skor 1 hingga 4. Skor pada item yang memiliki skala yang sama kemudian dapat ditambahkan bersama untuk menghasilkan skor skala yang disebut, yang menunjukkan peringkat seseorang berdasarkan konstruk yang mendasarinya (di sini, komponen kesehatan mental ). Skor skala yang dijumlahkan seperti itu sangat praktis karena memberi skor kemudahan (untuk praktisi atau perawat), tetapi mereka tidak lebih dari skala diskrit (diperintahkan).
Kita juga dapat mempertimbangkan bahwa probabilitas untuk mengesahkan kategori respons yang diberikan mematuhi semacam model logistik, seperti dijelaskan dalam tutorial I. Partchev, yang disebutkan di atas. Pada dasarnya, idenya adalah sejenis model ambang (yang mengarah pada formulasi setara dalam hal model peluang proporsional atau kumulatif) dan kami memodelkan kemungkinan berada dalam satu kategori respons daripada yang sebelumnya atau peluang mencetak di atas suatu kategori tertentu, tergantung pada lokasi subyek pada sifat laten. Selain itu, kami dapat memberlakukan bahwa kategori respons ditempatkan dengan jarak yang sama pada skala laten (ini adalah model Skala Penilaian) - yang merupakan cara yang kami lakukan dengan menetapkan skor numerik yang berjarak secara berkala - atau tidak (ini adalah model Kredit Sebagian) .
Jelas, kami tidak menambahkan terlalu banyak ke Teori Tes Klasik, di mana variabel ordinal diperlakukan sebagai yang numerik. Namun, kami memperkenalkan model probabilistik, di mana kami mengasumsikan skala kontinu (dengan properti interval) dan di mana kesalahan pengukuran spesifik dapat dipertanggungjawabkan, dan kami dapat memasukkan skor faktorial ini dalam model regresi apa pun.
Referensi
sumber
Jika hanya ada dua kategori, maka mengubahnya menjadi (0,1) masuk akal. Bahkan, ini biasa dilakukan di mana variabel dummy yang dihasilkan digunakan dalam model regresi.
Jika ada lebih dari dua kategori, maka menurut saya masuk akal jika datanya ordinal, dan kemudian hanya dalam keadaan yang sangat spesifik. Sebagai contoh, jika saya melakukan regresi dan menyesuaikan fungsi nonlinear nonparametrik ke variabel ordinal-cum-numerik, saya pikir itu ok. Tetapi jika saya menggunakan regresi linier, maka saya membuat asumsi yang sangat kuat tentang perbedaan relatif antara nilai berturut-turut dari variabel ordinal, dan saya biasanya enggan melakukan itu.
sumber
Ini adalah praktik umum untuk memperlakukan variabel kategori terurut dengan banyak kategori sebagai kontinu. Contoh dari ini:
Dan dengan "memperlakukan sebagai kontinu" yang saya maksud termasuk variabel dalam model yang mengasumsikan variabel acak kontinu (misalnya, sebagai variabel dependen dalam regresi linier). Saya kira masalahnya adalah berapa banyak poin skala yang diperlukan untuk ini menjadi asumsi penyederhanaan yang masuk akal.
Beberapa pemikiran lain:
Referensi
sumber
Sebuah contoh yang sangat sederhana sering diabaikan yang seharusnya berada dalam pengalaman banyak pembaca menyangkut nilai atau nilai yang diberikan untuk pekerjaan akademik. Seringkali tanda untuk tugas individu pada dasarnya adalah pengukuran ordinal berdasarkan penilaian, bahkan ketika sebagai konvensi mereka diberikan sebagai (katakanlah) tanda persen atau tanda pada skala dengan maksimum 5 (mungkin dengan poin desimal juga). Artinya, seorang guru dapat membaca esai atau disertasi atau tesis atau makalah dan memutuskan bahwa itu layak 42%, atau 4, atau apa pun. Bahkan ketika tanda didasarkan pada skema penilaian terperinci, skala tersebut berada pada jarak tertentu dari skala pengukuran interval atau rasio.
Tetapi kemudian banyak lembaga berpendapat bahwa jika Anda memiliki cukup nilai atau nilai ini, sangat masuk akal untuk meratakannya (nilai rata-rata, dll.) Dan bahkan menganalisisnya secara lebih rinci. Jadi pada beberapa titik pengukuran ordinal berubah menjadi skala ringkasan yang diperlakukan seolah-olah itu kontinu.
Penikmat ironi akan mencatat bahwa kursus statistik di banyak Departemen atau Sekolah sering mengajarkan bahwa ini paling meragukan dan paling buruk salah, sementara itu diterapkan sebagai prosedur di seluruh Universitas.
sumber
Dalam analisis peringkat berdasarkan frekuensi, seperti dengan bagan Pareto dan nilai terkait (mis. Berapa banyak kategori yang merupakan 80% kesalahan produk teratas)
sumber
Saya akan membuat argumen bahwa memperlakukan variabel yang benar-benar kategoris dan non-ordinal sebagai kontinu kadang - kadang bisa masuk akal.
Jika Anda membangun pohon keputusan berdasarkan kumpulan data besar, mungkin akan mahal dalam hal kekuatan pemrosesan dan memori untuk mengubah variabel kategori menjadi variabel dummy. Selain itu, beberapa model (misalnya
randomForest
dalam R) tidak dapat menangani variabel kategori dengan banyak tingkatan.Dalam kasus ini, model berbasis pohon harus dapat mengidentifikasi kategori yang sangat penting, BAHKAN JIKA mereka dikodekan sebagai variabel kontinu. Contoh yang dibuat-buat:
y adalah variabel kontinu, a adalah variabel kontinu, dan b adalah variabel kategorikal. Namun, dalam
dat1
b diperlakukan sebagai kontinu.Menyesuaikan pohon keputusan ke 2 dataset ini, kami menemukan bahwa
dat1
ini sedikit lebih buruk daripadadat2
:Jika Anda melihat 2 model, Anda akan menemukan bahwa mereka sangat mirip, tetapi model1 melewatkan pentingnya b == 42:
Namun, model1 berjalan sekitar 1/10 dari waktu model2:
Anda tentu saja dapat mengubah parameter masalah untuk menemukan situasi di mana
dat2
jauh mengunggulidat1
, ataudat1
sedikit mengunggulidat2
.Saya tidak menganjurkan memperlakukan variabel kategori secara umum sebagai kontinu, tetapi saya telah menemukan situasi di mana hal tersebut telah sangat mengurangi waktu yang diperlukan untuk menyesuaikan model saya, tanpa mengurangi akurasi prediksi mereka.
sumber
Ringkasan topik yang sangat bagus ini dapat ditemukan di sini:
mijkerhemtulla.socsci.uva.nl PDF
"Kapan variabel kategori dapat diperlakukan sebagai kontinu? Perbandingan metode estimasi SEM kontinu dan kategorik yang kuat dalam kondisi sub-optimal."
Mijke Rhemtulla, Patricia É. Brosseau-Liard, dan Victoria Savalei
Mereka menyelidiki metode yang berharga sekitar 60 halaman untuk melakukan hal itu dan memberikan wawasan tentang kapan hal itu berguna untuk dilakukan, pendekatan mana yang harus diambil, dan apa kekuatan dan kelemahan masing-masing pendekatan yang sesuai dengan situasi spesifik Anda. Mereka tidak menutupi semuanya (karena saya belajar tampaknya ada jumlah yang tidak terbatas), tetapi yang mereka liput menutupi dengan baik.
sumber
Ada kasus lain ketika itu masuk akal: ketika data diambil dari data kontinu (misalnya melalui konverter analog-ke-digital). Untuk instrumen yang lebih tua, ADC akan sering berupa 10-bit, memberikan data ordinal kategori 1024 yang nominal, tetapi untuk sebagian besar tujuan diperlakukan sebagai nyata (meskipun akan ada beberapa artefak untuk nilai di dekat bagian bawah skala). Saat ini ADC lebih umum 16 atau 24-bit. Pada saat Anda berbicara 65536 atau 16777216 "kategori", Anda benar-benar tidak kesulitan memperlakukan data sebagai kontinu.
sumber