Apa ringkasan statistik untuk digunakan dengan variabel kategorikal atau kualitatif?

18

Hanya untuk memperjelas, ketika saya maksud statistik ringkasan, saya merujuk ke Mean, rentang Kuartil Median, Varians, Deviasi Standar.

Ketika meringkas univariat yang kategorikal atau kualitatif , mempertimbangkan kasus Nominal dan Ordinal , apakah masuk akal untuk menemukan rata-rata, median, rentang kuartil, varian, dan standar deviasi?

Jika ya, ini berbeda dengan jika Anda meringkas variabel kontinu, dan bagaimana?

chutsu
sumber
2
Saya hampir tidak melihat perbedaan antara variabel kategori dan kualitatif, kecuali satu terminologi. Bagaimanapun, itu akan sangat sulit untuk menghitung sesuatu seperti mean atau SD pada variabel nominal (misalnya, warna rambut). Mungkin Anda memikirkan variabel kategori dengan level yang dipesan?
chl
Tidak, jika data kategorikal memiliki tingkat urutan atau peringkat, mereka dikatakan Ordinal menurut situs web ini: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] , dan dikatakan "Anda dapat menghitung dan memesan, tetapi tidak mengukur, data ordinal "
chutsu
Tetapi apakah saya salah?
chutsu

Jawaban:

8

Secara umum, jawabannya adalah tidak. Namun, orang bisa berpendapat bahwa Anda dapat mengambil median data ordinal, tetapi Anda tentu saja akan memiliki kategori sebagai median, bukan angka. Median membagi data secara merata: Setengah di atas, setengah di bawah. Data ordinal hanya bergantung pada pesanan.

Lebih lanjut, dalam beberapa kasus, ordinalitas dapat dibuat menjadi data tingkat interval kasar. Ini benar ketika data ordinal dikelompokkan (mis. Pertanyaan tentang pendapatan sering ditanyakan seperti ini). Dalam hal ini, Anda dapat menemukan median yang tepat, dan Anda mungkin dapat memperkirakan nilai lainnya, terutama jika batas bawah dan atas ditentukan: Anda dapat mengasumsikan beberapa distribusi (misalnya seragam) dalam setiap kategori. Kasus lain dari data ordinal yang dapat dibuat interval adalah ketika level diberikan setara numerik. Misalnya: Tidak pernah (0%), kadang-kadang (10-30%), sekitar separuh waktu (50%) dan sebagainya.

Kepada (sekali lagi) mengutip David Cox:

Tidak ada pertanyaan statistik rutin, hanya statistik rutin yang dipertanyakan

Peter Flom - Pasang kembali Monica
sumber
1
Anda memberikan informasi terkait yang baik tetapi saya pikir dalam menanggapi pertanyaan chl, OP menjelaskan bahwa dia berbicara tentang data kategorikal yang tidak ordinal. Jadi tanggapan Anda benar-benar bukan jawaban tetapi saya bukan orang yang akan memberikan downvote. Tapi saya pikir Anda harus mengubahnya menjadi komentar.
Michael R. Chernick
1
Tidak, saya tidak akan menurunkan jawaban karena saya pikir itu telah menambah nilai pada pemahaman saya yang terbatas. Saya seharusnya menjelaskan dalam uraian saya bahwa saya sedang mempertimbangkan statistik Ringkasan Ordo dan Nominal, jadi kesalahannya adalah milik saya.
chutsu
5

Seperti yang telah disebutkan, berarti, SD dan titik engsel tidak berarti untuk data kategorikal. Titik engsel (mis. Median dan kuartil) mungkin bermakna untuk data ordinal. Judul Anda juga menanyakan statistik ringkasan apa yang harus digunakan untuk menggambarkan data kategorikal. Merupakan standar untuk mengkarakterisasi data kategorikal berdasarkan jumlah dan persentase. (Anda mungkin juga ingin memasukkan interval kepercayaan 95% di sekitar persentase.) Misalnya, jika data Anda:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Anda dapat meringkasnya seperti ini:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)
gung - Reinstate Monica
sumber
3

Jika Anda memiliki variabel nominal, tidak ada fungsi pemesanan atau jarak. Jadi, bagaimana Anda bisa mendefinisikan statistik ringkasan yang Anda sebutkan? Saya pikir Anda tidak bisa. Kuartil dan jangkauan setidaknya memerlukan pemesanan dan sarana dan varians memerlukan data numerik. Saya pikir grafik batang dan diagram lingkaran adalah contoh tipikal dari cara yang tepat untuk merangkum variabel kualitatif yang tidak ordinal.

Michael R. Chernick
sumber
3
@PeterFlom Maksud saya bukan untuk membuat daftar semua prosedur grafis possiblr untuk meringkas data kualitatif. Saya benar-benar ingin menekankan bahwa sebenarnya proporsi yang dapat dibandingkan dan cara proporsi didistribusikan di seluruh kategori. Untuk mengenali perbedaan secara proporsional, saya pikir bar chart lebih mudah divisualisasikan daripada pie chart, tetapi mereka hanya dua cara populer untuk meringkas data kategorikal. Saya tidak ingin mengatakan mereka yang terbaik karena saya tidak terbiasa dengan semua metode yang tersedia.
Michael R. Chernick
7
Mereka tentu populer! Tapi saya pikir itu adalah bagian dari tanggung jawab kami, sebagai ahli di bidang ini, untuk membuat diagram lingkaran kurang populer.
Peter Flom - Kembalikan Monica
3
Cleveland menunjukkan, pertama, bahwa orang lebih buruk dalam merasakan pengukuran sudut daripada jarak linear. Kedua, bahwa mengubah warna dalam diagram lingkaran mengubah persepsi orang tentang ukuran irisan. Ketiga, bahwa memutar diagram lingkaran mengubah persepsi orang tentang ukuran irisan. Keempat, orang kesulitan memesan irisan dari yang terbesar hingga yang terkecil kecuali ukurannya sangat berbeda. Cleveland dot plot hindari semua ini.
Peter Flom - Kembalikan Monica
6
@Michael "Sebuah tabel hampir selalu lebih baik daripada diagram pie yang bodoh; satu-satunya desain yang lebih buruk daripada diagram pie adalah beberapa di antaranya ... diagram pie tidak boleh digunakan." - Tufte. "Data yang dapat ditunjukkan oleh diagram lingkaran selalu dapat ditunjukkan oleh diagram titik. ... pada tahun 1920-an pertempuran berkecamuk di halaman JASA tentang manfaat relatif diagram lingkaran dan pembagian diagram batang ... kedua kubu kalah karena grafik lain berperforma jauh lebih baik daripada diagram batang atau diagram lingkaran. "- Cleveland. Seperti yang Anda tahu, Cleveland bukan preskriptif: ini sekuat yang ia dapatkan tentang apa pun.
whuber
6
BTW, @Michael, saya setuju dengan Anda dan argumen yang Anda buat di utas ini (yang saya temukan meyakinkan dan disajikan dengan baik), tetapi sebagai moderator saya harus menyampaikan keberatan kuat yang disuarakan oleh anggota masyarakat mengenai "nada suara" Anda mengadopsi. Harap ikuti etiket situs: patuhi subjek dan jangan serang orang lain. Bahkan jangan menulis hal-hal yang mungkin terdengar seperti serangan, bahkan bercanda. Tentu saja peringatan yang sama meluas ke semua orang.
whuber
2

Mode masih berfungsi! Apakah itu bukan ringkasan statistik yang penting? (Apa kategori yang paling umum?) Saya pikir saran median memiliki sedikit atau tidak ada nilai sebagai statistik, tetapi mode tidak.

Juga menghitung berbeda akan sangat berharga. (Berapa banyak kategori yang Anda miliki?)

Anda dapat membuat rasio, seperti (kategori paling umum) / (kategori paling tidak umum) atau (# 1 kategori paling umum) / (# 2 kategori paling umum). Juga (kategori paling umum) / (semua kategori lainnya), seperti aturan 80/20.

Anda juga dapat menetapkan angka untuk kategori Anda dan menjadi gila dengan semua statistik biasa. AA = 1, Hisp = 2, dll. Sekarang Anda dapat menghitung mean, median, mode, SD, dll.

Maddenker
sumber
0

Saya menghargai jawaban yang lain, tetapi bagi saya sepertinya latar belakang topologi akan memberikan struktur yang sangat dibutuhkan untuk tanggapan.

Definisi

Mari kita mulai dengan menetapkan definisi domain:

  • variabel kategori adalah variabel yang domainnya mengandung elemen, tetapi tidak ada hubungan yang diketahui di antara mereka (sehingga kami hanya memiliki kategori). Contohnya, tergantung pada konteksnya, tetapi saya akan mengatakan dalam kasus umum, sulit untuk membandingkan hari dalam seminggu: apakah Senin sebelum Minggu, jika demikian, bagaimana dengan Senin berikutnya? Mungkin contoh yang lebih mudah, tetapi kurang digunakan adalah potongan-potongan pakaian: tanpa memberikan konteks yang masuk akal akan suatu pesanan, sulit untuk mengatakan apakah celana panjang datang sebelum jumper atau sebaliknya.

  • variabel ordinal adalah salah satu yang memiliki urutan total yang ditentukan atas domain, yaitu untuk setiap dua elemen domain, kita dapat mengatakan bahwa keduanya identik, atau satu lebih besar dari yang lain. Sebuah skala Likert adalah contoh yang baik dari definisi variabel ordinal. "agak setuju" jelas lebih dekat dengan "sangat setuju" daripada "tidak setuju".

  • variabel interval adalah satu, yang domainnya mendefinisikan jarak antara elemen ( metrik ), sehingga memungkinkan kita untuk menentukan interval.

Contoh domain

Sebagai seperangkat paling yang kita gunakan, alami dan bilangan real memiliki total order standar dan metrik. Inilah sebabnya mengapa kita harus berhati-hati ketika kita menetapkan angka untuk kategori kita. Jika kita tidak berhati-hati untuk mengabaikan ketertiban dan jarak, kita praktis mengkonversi data kategorikal kita menjadi data interval. Ketika seseorang menggunakan algoritma pembelajaran mesin tanpa mengetahui cara kerjanya, seseorang berisiko membuat asumsi seperti itu dengan enggan, sehingga berpotensi membatalkan hasil sendiri. Sebagai contoh, algoritma pembelajaran mendalam yang paling populer bekerja dengan bilangan real mengambil keuntungan dari interval dan sifat kontinu. Contoh lain, pikirkan skala Likert 5 poin, dan bagaimana analisis yang kami terapkan pada mereka mengasumsikan bahwa jarak antara sangat setuju dan setujusama dengan tidak setuju dan tidak setuju atau tidak setuju . Sulit membuat kasus untuk hubungan semacam itu.

Set lain yang sering kita kerjakan adalah string . Ada sejumlah metrik kesamaan string yang berguna saat bekerja dengan string. Namun, ini tidak selalu berguna. Misalnya, untuk alamat, John Smith Street dan John Smith Road cukup dekat dalam hal kesamaan string, tetapi jelas mewakili dua entitas yang berbeda yang dapat berjarak beberapa mil.

Statistik ringkasan

Ok, sekarang mari kita lihat bagaimana beberapa ringkasan statistik cocok dengan ini. Karena statistik berfungsi dengan angka, fungsinya didefinisikan dengan baik dalam interval waktu tertentu. Tapi mari kita lihat contoh apakah kita bisa menggeneralisasikannya ke data kategorikal atau ordinal:

  • mode - baik saat bekerja dengan data kategoris dan ordinal, kita dapat mengetahui elemen mana yang paling sering digunakan. Jadi kita punya ini. Kemudian kita juga bisa mendapatkan semua tindakan lain yang dicantumkan @Maddenker dalam jawaban mereka. Interval kepercayaan @ gung juga bisa berguna.
  • median - seperti yang dikatakan @ peter-flom, selama Anda memiliki pesanan, Anda dapat menurunkan median Anda.
  • berarti , tetapi juga standar deviasi, persentil, dll - Anda hanya mendapatkan ini dengan data interval, karena kebutuhan akan metrik jarak.

Contoh kontekstualitas data

Pada akhirnya, saya ingin menekankan lagi bahwa urutan dan metrik yang Anda tetapkan pada data Anda sangat kontekstual. Ini seharusnya sudah jelas sekarang, tetapi izinkan saya memberi Anda contoh terakhir: ketika bekerja dengan lokasi geografis, kami memiliki banyak cara berbeda untuk mendekati mereka:

  • jika kita tertarik pada jarak di antara mereka, kita dapat bekerja dengan geolokasi mereka, yang pada dasarnya memberi kita ruang numerik dua dimensi, dengan demikian interval.
  • jika kita tertarik pada bagian hubungan mereka, kita dapat menentukan urutan total (misalnya jalan adalah bagian dari kota, dua kota adalah sama, satu benua berisi negara)
  • jika kita tertarik pada apakah dua string mewakili alamat yang sama, kita dapat bekerja dengan jarak string yang akan mentolerir kesalahan ejaan dan bertukar posisi kata, tetapi pastikan untuk membedakan istilah dan nama yang berbeda. Ini bukan hal yang mudah, tetapi hanya untuk membuat kasus.
  • Ada banyak kasus penggunaan lainnya, yang kita semua temui setiap hari, di mana tidak ada yang masuk akal. Dalam beberapa dari mereka tidak ada yang lebih dari memperlakukan alamat hanya sebagai kategori yang berbeda, yang lain turun ke pemodelan dan preprocessing data yang sangat cerdas.
mapto
sumber