Apa statistik dasar yang baik untuk digunakan untuk data ordinal?

67

Saya memiliki beberapa data ordinal yang diperoleh dari pertanyaan survei. Dalam kasus saya, mereka adalah respons gaya likert (Sangat Tidak Setuju-Tidak Setuju-Netral-Setuju-Sangat Setuju). Dalam data saya mereka diberi kode 1-5.

Saya tidak berpikir cara berarti banyak di sini, jadi statistik ringkasan dasar apa yang dianggap berguna?

PaulHurleyuk
sumber
2
Pilihan umum termasuk - median, mode, proporsi atau proporsi kumulatif di masing-masing kelompok
Glen_b

Jawaban:

29

Tabel frekuensi adalah tempat yang baik untuk memulai. Anda dapat melakukan penghitungan, dan frekuensi relatif untuk setiap level. Juga, jumlah total, dan jumlah nilai yang hilang dapat digunakan.

Anda juga dapat menggunakan tabel kontingensi untuk membandingkan dua variabel sekaligus. Dapat ditampilkan menggunakan plot mosaik juga.

Neil McGuigan
sumber
32

Saya akan berdebat dari sudut pandang terapan bahwa mean sering merupakan pilihan terbaik untuk merangkum kecenderungan sentral dari item Likert. Secara khusus, saya memikirkan konteks seperti survei kepuasan siswa, skala penelitian pasar, survei pendapat karyawan, item tes kepribadian, dan banyak item survei ilmu sosial.

Dalam konteks seperti itu, konsumen penelitian sering menginginkan jawaban atas pertanyaan seperti:

  • Pernyataan mana yang memiliki lebih atau kurang persetujuan relatif terhadap yang lain?
  • Kelompok mana yang kurang lebih setuju dengan pernyataan yang diberikan?
  • Seiring berjalannya waktu, sudahkah perjanjian naik atau turun?

Untuk tujuan ini, rata-rata memiliki beberapa manfaat:

1. Berarti mudah untuk dihitung:

  • Sangat mudah untuk melihat hubungan antara data mentah dan rerata.
  • Secara pragmatis mudah untuk menghitung. Dengan demikian, rata-rata dapat dengan mudah dimasukkan ke dalam sistem pelaporan.
  • Ini juga memfasilitasi keterbandingan di seluruh konteks, dan pengaturan.

2. Berarti relatif dipahami dengan baik dan intuitif:

  • Rata-rata sering digunakan untuk melaporkan kecenderungan sentral dari item-item Likert. Dengan demikian, konsumen penelitian lebih cenderung memahami nilai tengah (dan karenanya mempercayainya, dan menindaklanjutinya).
  • Beberapa peneliti lebih suka opsi arguably, bahkan lebih intuitif untuk melaporkan persentase sampel yang menjawab 4 atau 5. Yaitu, ia memiliki interpretasi yang relatif intuitif dari "perjanjian persentase". Intinya, ini hanyalah bentuk alternatif dari mean, dengan 0, 0, 0, 1, 1coding.
  • Selain itu, seiring waktu, konsumen penelitian membangun kerangka referensi. Misalnya, ketika Anda membandingkan kinerja mengajar Anda dari tahun ke tahun, atau di seluruh mata pelajaran, Anda membangun rasa yang berbeda dari apa yang ditunjukkan oleh makna 3,7, 3,9, atau 4,1.

3. Mean adalah angka tunggal:

  • Satu angka sangat berharga, ketika Anda ingin membuat klaim seperti "siswa lebih puas dengan Subjek X daripada Subjek Y."
  • Saya juga menemukan, secara empiris, bahwa satu nomor sebenarnya adalah informasi utama yang menarik dalam item Likert. Deviasi standar cenderung terkait dengan sejauh mana rata-rata dekat dengan skor pusat (misalnya, 3.0). Tentu saja, secara empiris, ini mungkin tidak berlaku dalam konteks Anda. Sebagai contoh, saya membaca di suatu tempat bahwa ketika peringkat You Tube memiliki sistem bintang, ada sejumlah besar peringkat terendah atau tertinggi. Untuk alasan ini, penting untuk memeriksa frekuensi kategori.

4. Tidak ada bedanya

  • Meskipun saya belum secara resmi mengujinya, saya akan berhipotesis bahwa untuk tujuan membandingkan peringkat kecenderungan pusat di seluruh item, atau kelompok peserta, atau seiring waktu, setiap pilihan scaling yang masuk akal untuk menghasilkan rata-rata akan menghasilkan kesimpulan yang sama.
Jeromy Anglim
sumber
4
Pos yang bagus! Apakah Anda memiliki pemikiran tentang bagaimana berbagai budaya / negara dapat menggunakan skala likert yang secara drastis akan mempengaruhi hasil semacam ini?
Mengejar
@ chase Ada penelitian tentang ini, tapi sudah lama sejak saya melihatnya. Berikut ini adalah pencarian contoh pada sarjana Google scholar.google.com.au/...
Jeromy Anglim
Saya setuju dengan justifikasi Mr. Jeromy Anglim pada penggunaan mean (yaitu, tertimbang rata tepatnya) sebagai yang paling diandalkan berisi interpretasi yang lebih deskriptif dari variabel kategori memerintahkan seperti penggunaan skala Likert mana masing-masing titik data berkontribusi pada rata-rata akhir.
3
Saya mengajukan pertanyaan tentang perbedaan budaya dalam penggunaan skala respons di cogsci.stackexchange.com
Jeromy Anglim
28

Untuk ringkasan dasar, saya setuju bahwa tabel frekuensi pelaporan dan beberapa indikasi tentang kecenderungan pusat baik-baik saja. Sebagai kesimpulan, sebuah artikel baru-baru ini yang diterbitkan dalam PARE membahas uji t-vs. MWW, Butir-Butir Lima Poin: uji t versus Mann-Whitney-Wilcoxon .

Untuk perawatan lebih lanjut, saya akan merekomendasikan membaca ulasan Agresti pada variabel kategori yang dipesan:

Liu, Y dan Agresti, A (2005). Analisis data kategori terurut: Tinjauan umum dan survei perkembangan terkini . Sociedad de Estadística e Investigación Operativa Test , 14 (1), 1-73.

Ini sebagian besar melampaui statistik biasa, seperti model berbasis ambang (misalnya rasio odds proporsional), dan layak dibaca sebagai pengganti buku CDA Agresti .

Di bawah ini saya perlihatkan gambar tiga cara berbeda dalam memperlakukan item Likert; dari atas ke bawah, tampilan "frekuensi" (nominal), tampilan "numerik", dan tampilan "probabilistik" ( Model Kredit Sebagian ):

teks alternatif

Data berasal dari Sciencedata dalam ltmpaket, di mana item terkait teknologi ("Teknologi baru tidak tergantung pada penelitian ilmiah dasar", dengan respons "sangat tidak setuju" untuk "sangat setuju", pada skala empat poin)

chl
sumber
14

Praktik konvensional adalah menggunakan statistik jumlah non-parametrik dan jumlah rata - rata untuk menggambarkan data ordinal.

Begini cara kerjanya:

Jumlah Peringkat

  • menetapkan peringkat untuk setiap anggota di setiap kelompok;

  • mis. misalkan Anda melihat gol untuk setiap pemain di dua tim sepak bola yang berlawanan kemudian rangking setiap anggota pada kedua tim dari pertama hingga terakhir;

  • menghitung jumlah peringkat dengan menambahkan peringkat per kelompok ;

  • besarnya jumlah peringkat memberi tahu Anda seberapa dekat peringkat tersebut untuk setiap kelompok

Peringkat Berarti

M / R adalah statistik yang lebih canggih daripada R / S karena ini mengkompensasi ukuran yang tidak sama dalam kelompok yang Anda bandingkan. Karenanya, selain langkah-langkah di atas, Anda membagi setiap jumlah dengan jumlah anggota dalam grup.

Setelah Anda memiliki dua statistik ini, Anda dapat, misalnya, uji z jumlah rangking untuk melihat apakah perbedaan antara kedua kelompok secara statistik signifikan (saya percaya itu dikenal sebagai tes jumlah rangking Wilcoxon , yang dapat dipertukarkan, yaitu, secara fungsional setara dengan tes Mann-Whitney U).

R Fungsi untuk statistik ini (yang saya tahu tentangnya):

wilcox.test dalam instalasi R standar

Meanranks dalam Paket engkol

doug
sumber
3

Berdasarkan abstrak, artikel ini dapat membantu untuk membandingkan beberapa variabel yang berskala likert. Ini membandingkan dua jenis tes perbandingan berganda non-parametrik: Satu berdasarkan peringkat dan satu berdasarkan tes oleh Chacko. Ini termasuk simulasi.

Peter Flom - Pasang kembali Monica
sumber
Saat ini, ini hampir seperti komentar, @PeterFlom. Meskipun perpustakaan digital ACM mungkin kurang rentan terhadap tautan busuk, maukah Anda mengatakan sesuatu tentang artikel ini, mungkin prakarsa dari informasi bermanfaat yang disediakannya?
gung - Reinstate Monica
2
Hai @ gung Saya tidak yakin di mana harus meletakkan komentar di utas panjang ini. Saya menambahkan kutipan di sini karena pertanyaan yang diposting hari ini ditutup, dan artikel ini tampaknya berguna (dan mencakup masalah yang belum pernah saya lihat di tempat lain)
Peter Flom - Reinstate Monica
2

Saya biasanya suka menggunakan plot Mosaic. Anda dapat membuatnya dengan mengecewakan kovariat lain yang diminati (seperti: jenis kelamin, faktor bertingkat, dll.)

Teori Galois
sumber
2

Saya setuju dengan evaluasi Jeromy Anglim. Ingat bahwa respons Likert adalah perkiraan - Anda tidak menggunakan penggaris yang benar-benar dapat diandalkan untuk mengukur objek fisik dengan dimensi stabil. Mean adalah ukuran yang kuat ketika menggunakan ukuran sampel yang masuk akal.

Dalam bisnis dan produk R&D, rerata sejauh ini adalah statistik yang paling umum digunakan dengan skala Likert. Ketika menggunakan skala Likert saya biasanya memilih ukuran yang idealnya cocok dengan pertanyaan penelitian. Misalnya, jika Anda berbicara tentang "preferensi" atau "sikap" Anda dapat menggunakan beberapa indikator berbasis Likert, dengan masing-masing indikator memberikan wawasan yang sedikit berbeda.

Untuk mengevaluasi pertanyaan "bagaimana orang-orang di segmen bereaksi terhadap penawaran layanan ," Saya dapat melihat (1) rata-rata aritmatika, (2) median tepat, (3) persentase respons paling menguntungkan (kotak atas), (4)% dua kotak teratas, (5) rasio dua kotak teratas ke dua kotak paling bawah, (6) persentase dalam kotak menengah ... dll. Setiap ukuran menceritakan bagian cerita yang berbeda. Dalam proyek yang sangat kritis, saya menggunakan beberapa indikator berbasis Likert. Saya juga akan menggunakan banyak indikator dengan sampel kecil dan ketika tab lintas tertentu memiliki struktur "menarik" atau terlihat kaya informasi. Ahhh ... seni statistik.iX

VARNOLD
sumber
1

"Kotak skor" sering digunakan untuk merangkum data ordinal, terutama ketika datang dengan jangkar verbal yang bermakna. Dengan kata lain, Anda dapat melaporkan "2 kotak teratas", persentase yang memilih "setuju" atau "sangat setuju".

Jonathan
sumber