Kelompokkan perbedaan pada item Likert lima poin

22

Berikut dari pertanyaan ini : Bayangkan bahwa Anda ingin menguji perbedaan dalam kecenderungan sentral antara dua kelompok (misalnya, pria dan wanita) pada item Likert 5 poin (misalnya, kepuasan dengan kehidupan: Tidak puas dengan Kepuasan: Tidak puas dengan Kepuasan). Saya pikir t-test akan cukup akurat untuk sebagian besar tujuan, tetapi tes bootstrap perbedaan antara rata-rata kelompok sering memberikan perkiraan interval kepercayaan yang lebih akurat. Tes statistik apa yang akan Anda gunakan?

Jeromy Anglim
sumber
2
Pertanyaan terkait: Orang sering menggunakan tes Mann-Whitney nonparametric untuk data seperti ini. Karena hanya ada lima nilai yang mungkin, akan ada banyak peringkat terikat. Tes Mann-Whitney menyesuaikan untuk peringkat terikat, tetapi apakah penyesuaian ini berfungsi ketika ada banyak ikatan?
Harvey Motulsky
5
Anda mungkin tertarik pada artikel terbaru ini yang diterbitkan di PARE, Item Likert Lima Poin: uji t versus Mann-Whitney-Wilcoxon , j.mp/biLWrA .
chl
Saya tidak yakin apakah uji chi-square juga tepat, itu menguji apakah ada ketergantungan antara kelompok dan item (distribusi yang berbeda antara kelompok).
pe-pe-rry

Jawaban:

12

Clason & Dormody membahas masalah pengujian statistik untuk item Likert ( Menganalisis data yang diukur oleh masing-masing item tipe-Likert ). Saya pikir tes bootstrap tidak apa-apa ketika dua distribusi terlihat serupa (berbentuk lonceng dan varian yang sama). Namun, tes untuk data kategorikal (misalnya tren atau uji Fisher, atau regresi logistik ordinal) akan menarik juga karena memungkinkan untuk memeriksa distribusi respons di seluruh kategori item, lihat buku Agresti tentang Analisis Data Kategorikal (Bab 7 tentang model Logit untuk tanggapan multinomial ).

Selain itu, Anda dapat membayangkan situasi di mana uji-t atau tes non-parametrik lainnya akan gagal jika distribusi respons sangat tidak seimbang antara kedua kelompok. Misalnya, jika semua orang dari kelompok A menjawab 1 atau 5 (dalam proporsi yang sama) sedangkan semua orang dalam kelompok B menjawab 3, maka Anda berakhir dengan rata-rata dalam kelompok yang sama dan tes ini tidak bermakna sama sekali, meskipun dalam kasus ini asumsi homoseksualitas sebagian besar dilanggar.

chl
sumber
Artikel Clason and Dormody terlihat bagus. Komentar distribusi tanggapan Anda menarik untuk direnungkan. Saya setuju bahwa perbedaan dalam distribusi mungkin menarik. Tetapi jika Anda hanya tertarik pada apakah rata-rata kelompok penduduk berbeda, tidak perlu masalah distribusi apa yang menimbulkan kesetaraan tersebut.
Jeromy Anglim
Dalam hal ini, Anda mengasumsikan bahwa skala Likert Anda (dengan kata lain, perbedaan yang dirasakan antara, misalnya banyak puas dan "hanya" puas) berperilaku ideal dan dianggap memiliki makna yang sama di kedua populasi. Jadi Anda secara implisit membuat asumsi bahwa ini adalah skala numerik, tetapi saya setuju bahwa ini sering dianggap seperti itu dalam penelitian terapan, terutama jika peserta berasal dari negara yang sama. Maksud saya hanya untuk menekankan perspektif analisis data kategorikal, seperti yang biasanya ditemukan dalam tradisi Analisis Faktor, seperti dalam jawaban saya untuk Pertanyaan # 10.
chl
Saya berasumsi bahwa rata-rata sampel yang menanggapi item Likert umumnya adalah ringkasan yang bermakna dari posisi kelompok pada dimensi yang mendasarinya. Sangat menarik untuk memikirkan kapan arti dari item Likert akan bervariasi secara sistematis antara kelompok. Tentu saja, masalah ini tidak hanya mencakup item Likert, mungkin juga untuk prosedur pengukuran subyektif.
Jeromy Anglim
8

Bergantung pada ukuran dataset yang dipermasalahkan, tes permutasi mungkin lebih disukai daripada bootstrap karena mungkin dapat memberikan tes yang tepat dari hipotesis (dan CI yang tepat).

russellpierce
sumber
4

IMHO Anda tidak dapat menggunakan uji-t untuk skala Likert. Skala Likert bersifat ordinal dan "hanya tahu" tentang hubungan nilai-nilai variabel: misalnya "sama sekali tidak puas" lebih buruk daripada "entah bagaimana tidak puas". T-test di sisi lain perlu menghitung berarti dan lebih banyak dan dengan demikian membutuhkan data interval. Anda dapat memetakan skor skala Likert ke data interval ("sama sekali tidak puas" adalah 1 dan seterusnya) tetapi tidak ada yang menjamin bahwa "sama sekali tidak puas" adalah jarak yang sama dengan "entah bagaimana tidak puas" karena "entah bagaimana tidak puas" berasal dari "tidak juga". Ngomong-ngomong: apa perbedaan antara "sama sekali tidak puas" dan "entah bagaimana tidak puas"? Jadi pada akhirnya, Anda akan melakukan uji-t pada nilai kode dari data ordinal Anda tetapi itu tidak masuk akal.

xmjx
sumber
9
... namun itu biasa dilakukan. Satu hal yang perlu dikemukakan, dan ya ini sedikit berlebihan, jika Anda menggunakan item tipe Likert tunggal yang bukan skala Likert. Perbedaannya bermakna (meskipun penanya berbicara tentang item Likert dan ordinalitas adalah masalah). Skala Likert adalah konsekuensi dari menjumlahkan atau rata-rata beberapa item Likert. Pendekatan ini dikembangkan secara khusus untuk mengimbangi sejauh mana data ordinal sebenarnya ordinal dan membuatnya lebih masuk akal untuk diperlakukan sebagai skala interval.
russellpierce
3

Jika setiap item dalam kuesioner adalah ordinal, dan saya tidak berpikir bahwa poin ini dapat diperdebatkan mengingat bagaimana tidak ada cara untuk mengetahui apakah perbedaan kuantitatif antara "sangat setuju" dan "setuju" sama dengan yang ada di antara " sangat tidak setuju "dan" tidak setuju ", lalu mengapa penjumlahan dari semua skala tingkat ordinal ini menghasilkan nilai yang berbagi properti dari data tingkat interval yang benar?

Sebagai contoh, jika kita menginterpretasikan hasil dari inventori depresi, tidak masuk akal (setidaknya bagi saya) untuk mengatakan bahwa seseorang dengan skor "20" dua kali lebih depresi daripada orang dengan skor " 10 ". Ini karena setiap item dalam kuesioner tidak mengukur perbedaan aktual dalam tingkat depresi (dengan asumsi bahwa depresi adalah gangguan organik, stabil, intenal), melainkan penilaian subyektif orang tersebut dalam perjanjian dengan pernyataan tertentu. Ketika ditanya, "seberapa depresi Anda mengatakan suasana hati Anda berada pada skala 1-4, 1 menjadi sangat tertekan dan 4 tidak mengalami depresi sama sekali", bagaimana saya tahu bahwa peringkat subjektif satu responden dari 1 sama dengan responden lainnya ? Atau bagaimana saya bisa tahu apakah perbedaan antara 4 dan 3 sama dengan perbedaan 3 dan 4 dalam hal orang tersebut adalah tingkat depresi saat ini. Jika kita tidak dapat mengetahui semua ini, maka tidak masuk akal untuk memperlakukan penjumlahan semua item ordinal ini sebagai data tingkat interval. Bahkan jika data memang membentuk distribusi normal, saya pikir tidak pantas untuk memperlakukan perbedaan antara skor sebagai data level interval jika mereka dihitung dengan menambahkan semua tanggapan ke item likert. Distribusi data yang normal hanya berarti bahwa responsnya mungkin mewakili populasi yang lebih besar; itu tidak menyiratkan bahwa nilai-nilai yang diperoleh dari inventaris memiliki sifat-sifat penting dari data level interval. Saya pikir tidak pantas memperlakukan perbedaan antara skor sebagai data level interval jika dihitung dengan menambahkan semua respons ke item likert. Distribusi data yang normal hanya berarti bahwa responsnya mungkin mewakili populasi yang lebih besar; itu tidak menyiratkan bahwa nilai-nilai yang diperoleh dari inventaris memiliki sifat-sifat penting dari data level interval. Saya pikir tidak pantas memperlakukan perbedaan antara skor sebagai data level interval jika dihitung dengan menambahkan semua respons ke item likert. Distribusi data yang normal hanya berarti bahwa responsnya mungkin mewakili populasi yang lebih besar; itu tidak menyiratkan bahwa nilai-nilai yang diperoleh dari inventaris memiliki sifat-sifat penting dari data level interval.

Kita perlu berhati-hati dalam ilmu perilaku tentang bagaimana kita menggunakan statistik untuk berbicara dengan variabel laten yang kita pelajari, karena karena tidak ada cara langsung untuk mengukur konstruk hipotetis ini, akan ada masalah signifikan ketika kita mencoba mengukur subjeknya untuk tes parametrik. Sekali lagi, hanya karena kami telah menetapkan nilai pada serangkaian respons tidak berarti bahwa perbedaan antara nilai-nilai ini bermakna.

Justin
sumber
1
Jika Anda senang menjumlahkan skor item, Anda telah mengasumsikan lebih dari sekadar tingkat pengukuran ordinal. Sebenarnya, tindakan ordinal tidak dapat ditambahkan atau dirata-ratakan secara bermakna (kebetulan, Stevens jelas tentang itu). Setelah Anda melakukannya, memperlakukan skor yang dihasilkan sebagai data level interval adalah sangat masuk akal.
Gala
0

Model rasio odds proporsional lebih baik daripada uji-t untuk skala item Likert.

Wojtek
sumber
1
Apakah Anda ingin menjelaskan alasan Anda? Saya dapat melihat bagaimana model seperti itu dapat memberikan model yang lebih tepat dari respons yang diamati. Namun, dalam situasi penelitian praktis tipikal yang telah saya lihat, peneliti tertarik pada apakah kedua kelompok berbeda dalam hal rata-rata (misalnya, apakah kelompok pelatihan melaporkan kinerja yang lebih besar daripada kontrol; apakah kepuasan siswa lebih tinggi dari satu tahun ke tahun berikutnya). ). Model rasio odds proporsional tidak menguji pertanyaan ini sejauh yang saya ketahui.
Jeromy Anglim
0

Saya akan mencoba menjelaskan model rasio odds proporsional dalam konteks ini karena disarankan dan ditunjukkan dalam setidaknya 2 jawaban untuk pertanyaan ini.

Tes skor dari model odds proporsional setara dengan tes jumlah peringkat Wilcoxon.

Lebih tepatnya, statistik tes skor tanpa pengaruh kovariat dikotomis tunggal dalam model regresi logistik kumulatif odds proporsional (McCullagh 1980) untuk hasil ordinal ditunjukkan sama dengan statistik uji peringkat Wilcoxon rank sum. (Bukti perpanjangan Tes Wilcoxon Rank-Sum untuk data survei sampel yang kompleks .)

Sama seperti uji peringkat jumlah Wilcoxon, tes ini mendeteksi apakah dua sampel diambil dari distribusi yang berbeda, terlepas dari nilai yang diharapkan.

Tes ini tidak valid jika Anda hanya ingin mendeteksi apakah dua sampel diambil dari distribusi dengan nilai yang diharapkan berbeda, seperti halnya uji jumlah peringkat Wilcoxon.

Marko Lalović
sumber