Hanya untuk memperjelas, ketika saya maksud statistik ringkasan, saya merujuk ke Mean, rentang Kuartil Median, Varians, Deviasi Standar.
Ketika meringkas univariat yang kategorikal atau kualitatif , mempertimbangkan kasus Nominal dan Ordinal , apakah masuk akal untuk menemukan rata-rata, median, rentang kuartil, varian, dan standar deviasi?
Jika ya, ini berbeda dengan jika Anda meringkas variabel kontinu, dan bagaimana?
Jawaban:
Secara umum, jawabannya adalah tidak. Namun, orang bisa berpendapat bahwa Anda dapat mengambil median data ordinal, tetapi Anda tentu saja akan memiliki kategori sebagai median, bukan angka. Median membagi data secara merata: Setengah di atas, setengah di bawah. Data ordinal hanya bergantung pada pesanan.
Lebih lanjut, dalam beberapa kasus, ordinalitas dapat dibuat menjadi data tingkat interval kasar. Ini benar ketika data ordinal dikelompokkan (mis. Pertanyaan tentang pendapatan sering ditanyakan seperti ini). Dalam hal ini, Anda dapat menemukan median yang tepat, dan Anda mungkin dapat memperkirakan nilai lainnya, terutama jika batas bawah dan atas ditentukan: Anda dapat mengasumsikan beberapa distribusi (misalnya seragam) dalam setiap kategori. Kasus lain dari data ordinal yang dapat dibuat interval adalah ketika level diberikan setara numerik. Misalnya: Tidak pernah (0%), kadang-kadang (10-30%), sekitar separuh waktu (50%) dan sebagainya.
Kepada (sekali lagi) mengutip David Cox:
sumber
Seperti yang telah disebutkan, berarti, SD dan titik engsel tidak berarti untuk data kategorikal. Titik engsel (mis. Median dan kuartil) mungkin bermakna untuk data ordinal. Judul Anda juga menanyakan statistik ringkasan apa yang harus digunakan untuk menggambarkan data kategorikal. Merupakan standar untuk mengkarakterisasi data kategorikal berdasarkan jumlah dan persentase. (Anda mungkin juga ingin memasukkan interval kepercayaan 95% di sekitar persentase.) Misalnya, jika data Anda:
Anda dapat meringkasnya seperti ini:
sumber
Jika Anda memiliki variabel nominal, tidak ada fungsi pemesanan atau jarak. Jadi, bagaimana Anda bisa mendefinisikan statistik ringkasan yang Anda sebutkan? Saya pikir Anda tidak bisa. Kuartil dan jangkauan setidaknya memerlukan pemesanan dan sarana dan varians memerlukan data numerik. Saya pikir grafik batang dan diagram lingkaran adalah contoh tipikal dari cara yang tepat untuk merangkum variabel kualitatif yang tidak ordinal.
sumber
Mode masih berfungsi! Apakah itu bukan ringkasan statistik yang penting? (Apa kategori yang paling umum?) Saya pikir saran median memiliki sedikit atau tidak ada nilai sebagai statistik, tetapi mode tidak.
Juga menghitung berbeda akan sangat berharga. (Berapa banyak kategori yang Anda miliki?)
Anda dapat membuat rasio, seperti (kategori paling umum) / (kategori paling tidak umum) atau (# 1 kategori paling umum) / (# 2 kategori paling umum). Juga (kategori paling umum) / (semua kategori lainnya), seperti aturan 80/20.
Anda juga dapat menetapkan angka untuk kategori Anda dan menjadi gila dengan semua statistik biasa. AA = 1, Hisp = 2, dll. Sekarang Anda dapat menghitung mean, median, mode, SD, dll.
sumber
Saya menghargai jawaban yang lain, tetapi bagi saya sepertinya latar belakang topologi akan memberikan struktur yang sangat dibutuhkan untuk tanggapan.
Definisi
Mari kita mulai dengan menetapkan definisi domain:
variabel kategori adalah variabel yang domainnya mengandung elemen, tetapi tidak ada hubungan yang diketahui di antara mereka (sehingga kami hanya memiliki kategori). Contohnya, tergantung pada konteksnya, tetapi saya akan mengatakan dalam kasus umum, sulit untuk membandingkan hari dalam seminggu: apakah Senin sebelum Minggu, jika demikian, bagaimana dengan Senin berikutnya? Mungkin contoh yang lebih mudah, tetapi kurang digunakan adalah potongan-potongan pakaian: tanpa memberikan konteks yang masuk akal akan suatu pesanan, sulit untuk mengatakan apakah celana panjang datang sebelum jumper atau sebaliknya.
variabel ordinal adalah salah satu yang memiliki urutan total yang ditentukan atas domain, yaitu untuk setiap dua elemen domain, kita dapat mengatakan bahwa keduanya identik, atau satu lebih besar dari yang lain. Sebuah skala Likert adalah contoh yang baik dari definisi variabel ordinal. "agak setuju" jelas lebih dekat dengan "sangat setuju" daripada "tidak setuju".
variabel interval adalah satu, yang domainnya mendefinisikan jarak antara elemen ( metrik ), sehingga memungkinkan kita untuk menentukan interval.
Contoh domain
Sebagai seperangkat paling yang kita gunakan, alami dan bilangan real memiliki total order standar dan metrik. Inilah sebabnya mengapa kita harus berhati-hati ketika kita menetapkan angka untuk kategori kita. Jika kita tidak berhati-hati untuk mengabaikan ketertiban dan jarak, kita praktis mengkonversi data kategorikal kita menjadi data interval. Ketika seseorang menggunakan algoritma pembelajaran mesin tanpa mengetahui cara kerjanya, seseorang berisiko membuat asumsi seperti itu dengan enggan, sehingga berpotensi membatalkan hasil sendiri. Sebagai contoh, algoritma pembelajaran mendalam yang paling populer bekerja dengan bilangan real mengambil keuntungan dari interval dan sifat kontinu. Contoh lain, pikirkan skala Likert 5 poin, dan bagaimana analisis yang kami terapkan pada mereka mengasumsikan bahwa jarak antara sangat setuju dan setujusama dengan tidak setuju dan tidak setuju atau tidak setuju . Sulit membuat kasus untuk hubungan semacam itu.
Set lain yang sering kita kerjakan adalah string . Ada sejumlah metrik kesamaan string yang berguna saat bekerja dengan string. Namun, ini tidak selalu berguna. Misalnya, untuk alamat, John Smith Street dan John Smith Road cukup dekat dalam hal kesamaan string, tetapi jelas mewakili dua entitas yang berbeda yang dapat berjarak beberapa mil.
Statistik ringkasan
Ok, sekarang mari kita lihat bagaimana beberapa ringkasan statistik cocok dengan ini. Karena statistik berfungsi dengan angka, fungsinya didefinisikan dengan baik dalam interval waktu tertentu. Tapi mari kita lihat contoh apakah kita bisa menggeneralisasikannya ke data kategorikal atau ordinal:
Contoh kontekstualitas data
Pada akhirnya, saya ingin menekankan lagi bahwa urutan dan metrik yang Anda tetapkan pada data Anda sangat kontekstual. Ini seharusnya sudah jelas sekarang, tetapi izinkan saya memberi Anda contoh terakhir: ketika bekerja dengan lokasi geografis, kami memiliki banyak cara berbeda untuk mendekati mereka:
sumber