Apakah masuk akal untuk memperlakukan data kategorikal sebagai berkelanjutan?

57

Dalam menjawab pertanyaan ini pada data diskrit dan kontinu, saya dengan tegas menyatakan bahwa jarang masuk akal untuk memperlakukan data kategorikal sebagai kontinu.

Di muka itu yang tampak jelas, tetapi intuisi sering menjadi panduan yang buruk untuk statistik, atau setidaknya milikku. Jadi sekarang saya bertanya-tanya: apakah itu benar? Atau adakah analisis yang sudah mapan dimana transformasi dari data kategorikal ke beberapa kontinum sebenarnya berguna? Apakah akan ada bedanya jika datanya ordinal?

walkytalky
sumber
20
Pertanyaan ini dan tanggapannya mengingatkan kita tentang betapa kasar dan terbatasnya pembagian variabel kuno ini ke dalam kategori-ordinal-interval-rasio sebenarnya. Hal ini dapat memandu yang secara statistik naif, tetapi bagi analis yang bijaksana atau berpengalaman, ini adalah halangan, hambatan dalam cara mengekspresikan variabel dengan cara yang sesuai untuk data dan keputusan yang akan diambil dengannya. Seseorang yang bekerja dari sudut pandang terakhir ini akan dengan bebas bergerak di antara representasi data kategorikal dan "kontinu"; bagi mereka, pertanyaan ini bahkan tidak dapat muncul! Sebaliknya, kita harus bertanya: apa manfaatnya?
whuber
@whuber (+1) Paling tidak, tampaknya sulit untuk mengoptimalkan keandalan pengukuran dan akurasi diagnostik pada saat yang sama.
chl

Jawaban:

34

Saya akan berasumsi bahwa variabel "kategoris" sebenarnya adalah variabel ordinal; kalau tidak, tidak masuk akal untuk memperlakukannya sebagai yang berkelanjutan, kecuali itu adalah variabel biner (kode 0/1) seperti yang ditunjukkan oleh @Rob. Kemudian, saya akan mengatakan bahwa masalahnya bukan cara kita memperlakukan variabel, meskipun banyak model untuk analisis data kategorikal telah dikembangkan sejauh ini - lihat misalnya, Analisis data kategorikal terurut: Tinjauan umum dan survei terbaru perkembangan dari Liu dan Agresti--, dari skala pengukuran yang mendasari kami menganggap. Respons saya akan fokus pada poin kedua ini, meskipun saya akan membahas secara singkat penugasan skor numerik untuk kategori atau level variabel.

Dengan menggunakan pengodean ulang numerik sederhana dari suatu variabel ordinal, Anda mengasumsikan bahwa variabel tersebut memiliki properti interval (dalam arti klasifikasi yang diberikan oleh Stevens, 1946). Dari perspektif teori pengukuran (dalam psikologi), ini mungkin sering menjadi asumsi yang terlalu kuat, tetapi untuk studi dasar (yaitu di mana satu item digunakan untuk mengekspresikan pendapat seseorang tentang kegiatan sehari-hari dengan kata-kata yang jelas) setiap skor monoton harus memberikan hasil yang sebanding . Cochran (1954) sudah menunjuk itu

setiap set skor memberikan tes yang valid , asalkan skor tersebut dibangun tanpa berkonsultasi dengan hasil percobaan. Jika himpunan skor buruk, dalam hal itu mendistorsi skala numerik yang benar-benar mendasari klasifikasi yang diurutkan, tes tidak akan peka. Oleh karena itu, skor harus mewujudkan wawasan terbaik yang tersedia tentang cara klasifikasi dibuat dan digunakan. (hal. 436)

(Banyak terima kasih kepada @whuber karena mengingatkan saya tentang hal ini di seluruh salah satu komentarnya, yang membuat saya membaca kembali buku Agresti, dari mana kutipan ini berasal.)

Sebenarnya, beberapa tes mengobati variabel secara implisit seperti Interval skala: misalnya, statistik untuk menguji tren linear (sebagai alternatif untuk kemerdekaan sederhana) didasarkan pada pendekatan korelasional ( M 2 = ( n - 1 ) r 2 , Agresti, 2002, hlm. 87).M.2M.2=(n-1)r2

Nah, Anda juga dapat memutuskan untuk mengkode ulang variabel Anda pada rentang yang tidak teratur, atau mengagregasi beberapa levelnya, tetapi dalam hal ini ketidakseimbangan yang kuat antara kategori yang direkodekan dapat mengubah tes statistik, misalnya tes tren yang disebutkan di atas. Alternatif yang bagus untuk menetapkan jarak antar kategori sudah diusulkan oleh @Jeromy, yaitu penskalaan optimal.

Sekarang, mari kita bahas poin kedua yang saya buat, yaitu model pengukuran yang mendasarinya. Saya selalu ragu menambahkan tag "psychometrics" ketika saya melihat pertanyaan seperti ini, karena konstruksi dan analisis skala pengukuran berada di bawah Teori Psikometrik (Nunnally dan Bernstein, 1994, untuk tinjauan umum yang rapi). Saya tidak akan membahas semua model yang sebenarnya menuju di bawah Teori Respons Item , dan saya dengan senang hati merujuk pembaca yang tertarik ke saya. Tutorial Partchev, Sebuah panduan visual untuk teori respons item, untuk pengantar lembut untuk IRT, dan untuk referensi (5-8) yang tercantum di akhir untuk kemungkinan taksonomi IRT. Sangat singkat, idenya adalah bahwa alih-alih menetapkan jarak yang sewenang-wenang antara kategori variabel, Anda mengasumsikan skala laten dan memperkirakan lokasi mereka pada kontinum itu, bersama dengan kemampuan atau kewajiban individu. Sebuah contoh sederhana bernilai banyak notasi matematis, jadi mari kita pertimbangkan item berikut (berasal dari EORTC QLQ-C30 yang berhubungan dengan kualitas hidup kuesioner kesehatan):

Apakah anda khawatir

yang dikodekan pada skala empat poin, mulai dari "Tidak sama sekali" hingga "Sangat banyak". Skor mentah dihitung dengan menetapkan skor 1 hingga 4. Skor pada item yang memiliki skala yang sama kemudian dapat ditambahkan bersama untuk menghasilkan skor skala yang disebut, yang menunjukkan peringkat seseorang berdasarkan konstruk yang mendasarinya (di sini, komponen kesehatan mental ). Skor skala yang dijumlahkan seperti itu sangat praktis karena memberi skor kemudahan (untuk praktisi atau perawat), tetapi mereka tidak lebih dari skala diskrit (diperintahkan).

Kita juga dapat mempertimbangkan bahwa probabilitas untuk mengesahkan kategori respons yang diberikan mematuhi semacam model logistik, seperti dijelaskan dalam tutorial I. Partchev, yang disebutkan di atas. Pada dasarnya, idenya adalah sejenis model ambang (yang mengarah pada formulasi setara dalam hal model peluang proporsional atau kumulatif) dan kami memodelkan kemungkinan berada dalam satu kategori respons daripada yang sebelumnya atau peluang mencetak di atas suatu kategori tertentu, tergantung pada lokasi subyek pada sifat laten. Selain itu, kami dapat memberlakukan bahwa kategori respons ditempatkan dengan jarak yang sama pada skala laten (ini adalah model Skala Penilaian) - yang merupakan cara yang kami lakukan dengan menetapkan skor numerik yang berjarak secara berkala - atau tidak (ini adalah model Kredit Sebagian) .

Jelas, kami tidak menambahkan terlalu banyak ke Teori Tes Klasik, di mana variabel ordinal diperlakukan sebagai yang numerik. Namun, kami memperkenalkan model probabilistik, di mana kami mengasumsikan skala kontinu (dengan properti interval) dan di mana kesalahan pengukuran spesifik dapat dipertanggungjawabkan, dan kami dapat memasukkan skor faktorial ini dalam model regresi apa pun.

Referensi

  1. SS Stevens. Pada teori skala pengukuran. Sains , 103 : 677-680, 1946.
  2. χ2
  3. J Nunnally dan I Bernstein. Teori Psikometri . McGraw-Hill, 1994
  4. Alan Agresti. Analisis Data Kategorikal . Wiley, 1990.
  5. CR Rao dan S Sinharay, editor. Buku Pegangan Statistik, Vol. 26: Psikometri . Elsevier Science BV, Belanda, 2007.
  6. A Boomsma, MAJ van Duijn, dan TAB Snijders. Esai tentang Teori Respons Item . Springer, 2001.
  7. D Thissen dan L Steinberg. Taksonomi model respons barang. Psychometrika , 51 (4) : 567–577, 1986.
  8. P Mair dan R Hatzinger. Diperpanjang Rasch Modeling: ERM Paket untuk Penerapan Model IRT di R . Jurnal Perangkat Lunak Statistik , 20 (9) , 2007.
chl
sumber
19

Jika hanya ada dua kategori, maka mengubahnya menjadi (0,1) masuk akal. Bahkan, ini biasa dilakukan di mana variabel dummy yang dihasilkan digunakan dalam model regresi.

Jika ada lebih dari dua kategori, maka menurut saya masuk akal jika datanya ordinal, dan kemudian hanya dalam keadaan yang sangat spesifik. Sebagai contoh, jika saya melakukan regresi dan menyesuaikan fungsi nonlinear nonparametrik ke variabel ordinal-cum-numerik, saya pikir itu ok. Tetapi jika saya menggunakan regresi linier, maka saya membuat asumsi yang sangat kuat tentang perbedaan relatif antara nilai berturut-turut dari variabel ordinal, dan saya biasanya enggan melakukan itu.

Rob Hyndman
sumber
1
"[T] hen saya membuat asumsi yang sangat kuat tentang perbedaan relatif antara nilai berturut-turut dari variabel ordinal." Saya pikir ini adalah poin kuncinya, sungguh. yaitu seberapa kuat Anda dapat berpendapat bahwa perbedaan antara kelompok 1 dan 2 dapat dibandingkan dengan perbedaan antara 2 dan 3?
Freya Harrison
Saya pikir Anda harus membuat beberapa asumsi tentang bagaimana variabel kontinu harus didistribusikan dan kemudian mencoba menyesuaikan "psudohistogram" ini dari setiap frekuensi variabel kategori (maksud saya menemukan lebar bin yang akan mengubahnya menjadi histogram yang pas). Namun, saya bukan ahli dalam bidang ini, ini adalah ide yang cepat & kotor.
Membuat ulang kategori biner sebagai {0,1} masuk akal, tetapi mengubahnya menjadi interval [0,1] kontinu tampak seperti sedikit lompatan. Di depan yang lebih luas, saya benar-benar dengan keengganan Anda untuk menimbang tata cara secara seimbang kecuali ada argumen kuat dari model tersebut.
walkytalky
18

Ini adalah praktik umum untuk memperlakukan variabel kategori terurut dengan banyak kategori sebagai kontinu. Contoh dari ini:

  • Jumlah item yang benar pada tes 100 item
  • Skala psikologis terangkum (mis., Itu adalah rata-rata 10 item masing-masing pada skala lima poin)

Dan dengan "memperlakukan sebagai kontinu" yang saya maksud termasuk variabel dalam model yang mengasumsikan variabel acak kontinu (misalnya, sebagai variabel dependen dalam regresi linier). Saya kira masalahnya adalah berapa banyak poin skala yang diperlukan untuk ini menjadi asumsi penyederhanaan yang masuk akal.

Beberapa pemikiran lain:

  • Korelasi polikorik mencoba memodelkan hubungan antara dua variabel ordinal dalam hal asumsi variabel kontinu laten.
  • Penskalaan optimal memungkinkan Anda untuk mengembangkan model di mana penskalaan variabel kategorikal dikembangkan dengan cara yang didorong oleh data sambil tetap menghormati batasan skala apa pun yang Anda tetapkan (misalnya, ordinalitas). Untuk pengantar yang baik lihat De Leeuw dan Mair (2009)

Referensi

  • De Leeuw, J., & Mair, P. (2009). Metode Gifi untuk penskalaan optimal dalam R: Paket homals. Jurnal Perangkat Lunak Statistik, akan terbit, 1-30. PDF
Jeromy Anglim
sumber
7

Sebuah contoh yang sangat sederhana sering diabaikan yang seharusnya berada dalam pengalaman banyak pembaca menyangkut nilai atau nilai yang diberikan untuk pekerjaan akademik. Seringkali tanda untuk tugas individu pada dasarnya adalah pengukuran ordinal berdasarkan penilaian, bahkan ketika sebagai konvensi mereka diberikan sebagai (katakanlah) tanda persen atau tanda pada skala dengan maksimum 5 (mungkin dengan poin desimal juga). Artinya, seorang guru dapat membaca esai atau disertasi atau tesis atau makalah dan memutuskan bahwa itu layak 42%, atau 4, atau apa pun. Bahkan ketika tanda didasarkan pada skema penilaian terperinci, skala tersebut berada pada jarak tertentu dari skala pengukuran interval atau rasio.

Tetapi kemudian banyak lembaga berpendapat bahwa jika Anda memiliki cukup nilai atau nilai ini, sangat masuk akal untuk meratakannya (nilai rata-rata, dll.) Dan bahkan menganalisisnya secara lebih rinci. Jadi pada beberapa titik pengukuran ordinal berubah menjadi skala ringkasan yang diperlakukan seolah-olah itu kontinu.

Penikmat ironi akan mencatat bahwa kursus statistik di banyak Departemen atau Sekolah sering mengajarkan bahwa ini paling meragukan dan paling buruk salah, sementara itu diterapkan sebagai prosedur di seluruh Universitas.

Nick Cox
sumber
5

Dalam analisis peringkat berdasarkan frekuensi, seperti dengan bagan Pareto dan nilai terkait (mis. Berapa banyak kategori yang merupakan 80% kesalahan produk teratas)

AdamV
sumber
5
Poin penting, dan dapat diperluas: Banyak model untuk data ordinal bergantung pada gagasan bahwa itu bukan data ordinal tetapi probabilitas kumulatifnya yang dapat dimodelkan.
Nick Cox
4

Saya akan membuat argumen bahwa memperlakukan variabel yang benar-benar kategoris dan non-ordinal sebagai kontinu kadang - kadang bisa masuk akal.

Jika Anda membangun pohon keputusan berdasarkan kumpulan data besar, mungkin akan mahal dalam hal kekuatan pemrosesan dan memori untuk mengubah variabel kategori menjadi variabel dummy. Selain itu, beberapa model (misalnya randomForestdalam R) tidak dapat menangani variabel kategori dengan banyak tingkatan.

Dalam kasus ini, model berbasis pohon harus dapat mengidentifikasi kategori yang sangat penting, BAHKAN JIKA mereka dikodekan sebagai variabel kontinu. Contoh yang dibuat-buat:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y adalah variabel kontinu, a adalah variabel kontinu, dan b adalah variabel kategorikal. Namun, dalam dat1b diperlakukan sebagai kontinu.

Menyesuaikan pohon keputusan ke 2 dataset ini, kami menemukan bahwa dat1ini sedikit lebih buruk daripada dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Jika Anda melihat 2 model, Anda akan menemukan bahwa mereka sangat mirip, tetapi model1 melewatkan pentingnya b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Namun, model1 berjalan sekitar 1/10 dari waktu model2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Anda tentu saja dapat mengubah parameter masalah untuk menemukan situasi di mana dat2jauh mengungguli dat1, atau dat1sedikit mengungguli dat2.

Saya tidak menganjurkan memperlakukan variabel kategori secara umum sebagai kontinu, tetapi saya telah menemukan situasi di mana hal tersebut telah sangat mengurangi waktu yang diperlukan untuk menyesuaikan model saya, tanpa mengurangi akurasi prediksi mereka.

Zach
sumber
3

Ringkasan topik yang sangat bagus ini dapat ditemukan di sini:

mijkerhemtulla.socsci.uva.nl PDF

"Kapan variabel kategori dapat diperlakukan sebagai kontinu? Perbandingan metode estimasi SEM kontinu dan kategorik yang kuat dalam kondisi sub-optimal."

Mijke Rhemtulla, Patricia É. Brosseau-Liard, dan Victoria Savalei

Mereka menyelidiki metode yang berharga sekitar 60 halaman untuk melakukan hal itu dan memberikan wawasan tentang kapan hal itu berguna untuk dilakukan, pendekatan mana yang harus diambil, dan apa kekuatan dan kelemahan masing-masing pendekatan yang sesuai dengan situasi spesifik Anda. Mereka tidak menutupi semuanya (karena saya belajar tampaknya ada jumlah yang tidak terbatas), tetapi yang mereka liput menutupi dengan baik.

Taal
sumber
2

Ada kasus lain ketika itu masuk akal: ketika data diambil dari data kontinu (misalnya melalui konverter analog-ke-digital). Untuk instrumen yang lebih tua, ADC akan sering berupa 10-bit, memberikan data ordinal kategori 1024 yang nominal, tetapi untuk sebagian besar tujuan diperlakukan sebagai nyata (meskipun akan ada beberapa artefak untuk nilai di dekat bagian bawah skala). Saat ini ADC lebih umum 16 atau 24-bit. Pada saat Anda berbicara 65536 atau 16777216 "kategori", Anda benar-benar tidak kesulitan memperlakukan data sebagai kontinu.

Kieran O'Neill
sumber
Saya sangat setuju dengan garis bawah Anda, tetapi bisa dibilang data seperti itu tidak pernah menjadi awal, hanya diskrit. Perlakuan buruk dari rasio nominal-ordinal-interval-rasio yang harus disalahkan di sini karena sering tidak menunjukkan bahwa ordinal menyiratkan diskrit, tetapi tidak sebaliknya. Hitungan adalah ordinal, tetapi juga interval dan rasio.
Nick Cox
@Nick Ordinal menyiratkan diskrit? Belum tentu. Tindakan berkelanjutan dapat bersifat ordinal. Sebagai contoh, variabel fisiologis seperti GSP atau detak jantung bersifat kontinu, tetapi sebagai ukuran variabel psikologis seperti kecemasan atau gairah mereka hanya bersifat ordinal. Gagasan ordinal vs interval benar-benar mengacu pada linearitas fungsi yang menghubungkan ukuran dengan apa yang dimaksudkan untuk diukur.
Ray Koopman
Itu komentar yang menarik, tetapi begitu Anda masuk ke wilayah itu, saya tidak melihat bagaimana Anda bisa mengklasifikasikan detak jantung sama sekali tanpa bukti independen tentang apa sebenarnya kecemasan itu dan akhirnya sebagian besar variabel yang dianggap sebagai proxy tidak dapat diklasifikasikan. Apakah Anda akan mengambil semua cara untuk menolak menggunakan metode untuk data interval atau rasio setiap kali Anda beralih ke menganggap skala pengukuran sebagai hanya ordinal? Saya tidak berpikir data berperilaku berbeda karena apa yang ingin Anda lakukan dengan mereka; itulah inti masalah bagi saya.
Nick Cox
1
@Nick Pertanyaannya adalah apakah fungsi yang menghubungkan nilai yang diukur dengan nilai "benar" cukup dekat dengan linier sehingga memperlakukannya seperti itu tidak akan mengarah pada kesimpulan substantif yang salah, atau harus diperlakukan sebagai hanya monotonik. Biasanya ada sedikit atau tidak ada data keras yang menjadi dasar keputusan; itu hampir selalu akan menjadi panggilan penilaian, tentang orang pintar yang berpengetahuan mungkin harus setuju untuk tidak setuju.
Ray Koopman
1
Saya pikir penekanan biasa dalam diskusi skala pengukuran dalam statistik adalah pada sifat-sifat matematika dari variabel dan apa operasi matematika yang sah untuk masing-masing. Itu cukup kontroversial. Perhatian ilmiah dengan apakah sesuatu mengukur apa yang seharusnya saya setujui dengan sangat penting, tetapi saya melihat sebagai area perdebatan yang agak berbeda.
Nick Cox