Saya sudah membaca di sejumlah tempat yang menghitung rata-rata variabel ordinal tidak tepat. Saya mencoba mendapatkan intuisi mengapa hal itu mungkin tidak pantas. Saya pikir itu karena, secara umum, variabel ordinal tidak terdistribusi secara normal dan perhitungan rata-rata akan memberikan representasi yang tidak akurat. Bisakah seseorang memberikan alasan yang lebih rinci mengapa menghitung rata-rata variabel ordinal mungkin tidak tepat?
mean
ordinal-data
luciano
sumber
sumber
Jawaban:
Jawaban singkatnya adalah ini kontroversial. Bertentangan dengan saran yang Anda sebutkan, orang-orang di banyak bidang memang menggunakan skala timbangan ordinal dan sering bahagia yang berarti melakukan apa yang mereka inginkan. Nilai rata-rata poin atau setara dalam banyak sistem pendidikan adalah salah satu contohnya.
Namun, data ordinal yang tidak didistribusikan secara normal bukan merupakan alasan yang valid, karena rerata
banyak digunakan untuk distribusi tidak normal
didefinisikan dengan baik secara matematis untuk sangat banyak distribusi non-normal, kecuali dalam beberapa kasus patologis.
Mungkin bukan ide yang baik untuk menggunakan mean dalam praktik jika data jelas tidak terdistribusi normal, tetapi itu berbeda.
Alasan yang lebih kuat untuk tidak menggunakan mean dengan data ordinal adalah karena nilainya tergantung pada konvensi pada pengkodean. Kode numerik seperti 1, 2, 3, 4 biasanya hanya dipilih untuk kesederhanaan atau kenyamanan, tetapi pada prinsipnya mereka bisa sama dengan 1, 23, 456, 7890 sejauh sesuai dengan urutan yang ditentukan seperti yang bersangkutan. Mengambil mean dalam kedua kasus akan melibatkan mengambil konvensi tersebut secara harfiah (yaitu, seolah-olah jumlahnya tidak sewenang-wenang, tetapi dapat dibenarkan), dan tidak ada alasan ketat untuk melakukan itu. Anda membutuhkan skala interval di mana perbedaan yang sama antara nilai-nilai dapat diambil secara harfiah untuk membenarkan cara pengambilan. Itu saya anggap sebagai argumen utama, tetapi seperti yang sudah ditunjukkan orang sering mengabaikannya dan sengaja, karena mereka menemukan cara yang berguna, apa pun teori pengukuran mengatakan.
Ini adalah contoh tambahan. Seringkali orang diminta untuk memilih salah satu dari "sangat tidak setuju" ... "sangat setuju" dan (sebagian tergantung pada apa yang diinginkan perangkat lunak) peneliti mengkode itu sebagai 1 .. 5 atau 0 .. 4 atau apa pun yang mereka inginkan, atau menyatakannya sebagai faktor yang dipesan (atau istilah apa pun yang digunakan perangkat lunak). Di sini pengkodeannya sewenang-wenang dan disembunyikan dari orang-orang yang menjawab pertanyaan.
Tetapi seringkali juga orang-orang ditanya (katakanlah) pada skala 1 sampai 5, bagaimana Anda menilai sesuatu? Banyak contoh: situs web, olahraga, jenis kompetisi lainnya, dan memang pendidikan. Di sini orang diperlihatkan skala dan diminta untuk menggunakannya. Dipahami secara luas bahwa non-integer masuk akal, tetapi Anda hanya diizinkan untuk menggunakan integer sebagai konvensi. Apakah ini skala ordinal? Ada yang bilang ya, ada yang bilang tidak. Jika tidak dimasukkan, bagian dari masalahnya adalah bahwa apa yang dimaksud dengan skala ordinal itu sendiri merupakan area fuzzy atau diperdebatkan.
Pertimbangkan lagi nilai untuk pekerjaan akademik, katakanlah E hingga A. Seringkali nilai tersebut juga diperlakukan secara numerik, katakan sebagai 1 hingga 5, dan secara rutin orang menghitung rata-rata untuk siswa, kursus, sekolah, dll. Dan melakukan analisis lebih lanjut atas data tersebut. Meskipun tetap benar bahwa setiap pemetaan terhadap skor numerik adalah arbitrer tetapi dapat diterima selama itu menjaga ketertiban, namun dalam praktiknya orang yang menugaskan dan menerima nilai tahu bahwa skor memiliki setara numerik dan tahu bahwa nilai akan dirata-ratakan .
Salah satu alasan pragmatis untuk menggunakan cara adalah bahwa median dan mode sering kali merupakan ringkasan yang buruk dari informasi dalam data. Misalkan Anda memiliki skala berjalan dari sangat tidak setuju untuk sangat setuju dan untuk kode kenyamanan poin 1 hingga 5. Sekarang bayangkan satu sampel berkode 1, 1, 2, 2, 2 dan lainnya 1, 2, 2, 4, 5. Sekarang naikkan tangan Anda jika Anda berpikir bahwa median dan mode adalah satu-satunya ringkasan yang dapat dibenarkan karena ini adalah skala ordinal. Sekarang angkat tangan Anda jika Anda menemukan rata-rata berguna juga, terlepas dari apakah jumlahnya didefinisikan dengan baik, dll.
Secara alami, rerata akan menjadi ringkasan hipersensitif jika kode adalah kuadrat atau kubus 1 hingga 5, katakan, dan itu mungkin bukan yang Anda inginkan. (Jika tujuan Anda adalah untuk mengidentifikasi selebaran tingkat tinggi dengan cepat, mungkin itulah yang Anda inginkan!) Tetapi itulah mengapa pengkodean konvensional dengan kode integer yang berurutan adalah pilihan yang praktis, karena sering berhasil dengan cukup baik dalam praktiknya. Itu bukan argumen yang membawa bobot dengan teori pengukuran, juga tidak seharusnya, tetapi analis data harus tertarik dalam menghasilkan ringkasan kaya informasi.
Saya setuju dengan siapa saja yang mengatakan: gunakan seluruh distribusi frekuensi kelas, tapi bukan itu masalahnya.
sumber
Misalkan kita mengambil nilai urut, misalnya 1 untuk sangat tidak setuju, 2 untuk tidak setuju, 3 untuk setuju, dan 4 untuk sangat setuju. Jika empat orang memberikan jawaban 1,2,3 dan 4, lalu apa artinya? Yaitu (1 + 2 + 3 + 4) /4=2.50.
Bagaimana seharusnya itu ditafsirkan, ketika respon rata-rata empat orang "tidak setuju atau setuju"? Itu sebabnya kita tidak harus menggunakan mean untuk data ordinal.
sumber
Saya sangat setuju dengan @Azeem. Tetapi hanya untuk mendorong titik ini pulang, saya akan sedikit lebih jauh.
Katakanlah Anda memiliki data ordinal seperti dalam contoh dari @Azeem, di mana skala Anda berkisar dari 1 hingga 4. Dan katakan juga Anda memiliki beberapa orang yang memberi peringkat sesuatu (seperti Ice Cream) pada skala ini. Bayangkan Anda mendapatkan hasil berikut:
Ketika Anda ingin menginterpretasikan hasil, Anda dapat menyimpulkan sesuatu sejauh:
Namun, Anda tidak tahu apa-apa tentang interval antara peringkat. Apakah perbedaan antara 1 dan 2 sama dengan perbedaan antara 3 dan 4? Apakah peringkat 4 benar-benar berarti bahwa orang tersebut menyukai Es Krim 4 kali lebih banyak daripada seseorang yang menilai 1? Dan seterusnya ... Ketika Anda menghitung rata-rata aritmatika, Anda memperlakukan angka-angka seolah-olah perbedaan di antara mereka sama. Tapi itu asumsi yang cukup kuat dengan data ordinal dan Anda harus membenarkannya.
sumber
Saya setuju dengan konsep bahwa mean aritmatika tidak dapat benar-benar dibenarkan dalam data skala ordinal. Alih-alih menghitung berarti kita dapat menggunakan mode atau median dalam situasi seperti itu yang dapat memberi kita interpretasi hasil yang lebih bermakna.
sumber