Berikut dari pertanyaan ini : Bayangkan bahwa Anda ingin menguji perbedaan dalam kecenderungan sentral antara dua kelompok (misalnya, pria dan wanita) pada item Likert 5 poin (misalnya, kepuasan dengan kehidupan: Tidak puas dengan Kepuasan: Tidak puas dengan Kepuasan). Saya pikir t-test akan cukup akurat untuk sebagian besar tujuan, tetapi tes bootstrap perbedaan antara rata-rata kelompok sering memberikan perkiraan interval kepercayaan yang lebih akurat. Tes statistik apa yang akan Anda gunakan?
t-test
ordinal-data
likert
scales
Jeromy Anglim
sumber
sumber
Jawaban:
Clason & Dormody membahas masalah pengujian statistik untuk item Likert ( Menganalisis data yang diukur oleh masing-masing item tipe-Likert ). Saya pikir tes bootstrap tidak apa-apa ketika dua distribusi terlihat serupa (berbentuk lonceng dan varian yang sama). Namun, tes untuk data kategorikal (misalnya tren atau uji Fisher, atau regresi logistik ordinal) akan menarik juga karena memungkinkan untuk memeriksa distribusi respons di seluruh kategori item, lihat buku Agresti tentang Analisis Data Kategorikal (Bab 7 tentang model Logit untuk tanggapan multinomial ).
Selain itu, Anda dapat membayangkan situasi di mana uji-t atau tes non-parametrik lainnya akan gagal jika distribusi respons sangat tidak seimbang antara kedua kelompok. Misalnya, jika semua orang dari kelompok A menjawab 1 atau 5 (dalam proporsi yang sama) sedangkan semua orang dalam kelompok B menjawab 3, maka Anda berakhir dengan rata-rata dalam kelompok yang sama dan tes ini tidak bermakna sama sekali, meskipun dalam kasus ini asumsi homoseksualitas sebagian besar dilanggar.
sumber
Bergantung pada ukuran dataset yang dipermasalahkan, tes permutasi mungkin lebih disukai daripada bootstrap karena mungkin dapat memberikan tes yang tepat dari hipotesis (dan CI yang tepat).
sumber
IMHO Anda tidak dapat menggunakan uji-t untuk skala Likert. Skala Likert bersifat ordinal dan "hanya tahu" tentang hubungan nilai-nilai variabel: misalnya "sama sekali tidak puas" lebih buruk daripada "entah bagaimana tidak puas". T-test di sisi lain perlu menghitung berarti dan lebih banyak dan dengan demikian membutuhkan data interval. Anda dapat memetakan skor skala Likert ke data interval ("sama sekali tidak puas" adalah 1 dan seterusnya) tetapi tidak ada yang menjamin bahwa "sama sekali tidak puas" adalah jarak yang sama dengan "entah bagaimana tidak puas" karena "entah bagaimana tidak puas" berasal dari "tidak juga". Ngomong-ngomong: apa perbedaan antara "sama sekali tidak puas" dan "entah bagaimana tidak puas"? Jadi pada akhirnya, Anda akan melakukan uji-t pada nilai kode dari data ordinal Anda tetapi itu tidak masuk akal.
sumber
Jika setiap item dalam kuesioner adalah ordinal, dan saya tidak berpikir bahwa poin ini dapat diperdebatkan mengingat bagaimana tidak ada cara untuk mengetahui apakah perbedaan kuantitatif antara "sangat setuju" dan "setuju" sama dengan yang ada di antara " sangat tidak setuju "dan" tidak setuju ", lalu mengapa penjumlahan dari semua skala tingkat ordinal ini menghasilkan nilai yang berbagi properti dari data tingkat interval yang benar?
Sebagai contoh, jika kita menginterpretasikan hasil dari inventori depresi, tidak masuk akal (setidaknya bagi saya) untuk mengatakan bahwa seseorang dengan skor "20" dua kali lebih depresi daripada orang dengan skor " 10 ". Ini karena setiap item dalam kuesioner tidak mengukur perbedaan aktual dalam tingkat depresi (dengan asumsi bahwa depresi adalah gangguan organik, stabil, intenal), melainkan penilaian subyektif orang tersebut dalam perjanjian dengan pernyataan tertentu. Ketika ditanya, "seberapa depresi Anda mengatakan suasana hati Anda berada pada skala 1-4, 1 menjadi sangat tertekan dan 4 tidak mengalami depresi sama sekali", bagaimana saya tahu bahwa peringkat subjektif satu responden dari 1 sama dengan responden lainnya ? Atau bagaimana saya bisa tahu apakah perbedaan antara 4 dan 3 sama dengan perbedaan 3 dan 4 dalam hal orang tersebut adalah tingkat depresi saat ini. Jika kita tidak dapat mengetahui semua ini, maka tidak masuk akal untuk memperlakukan penjumlahan semua item ordinal ini sebagai data tingkat interval. Bahkan jika data memang membentuk distribusi normal, saya pikir tidak pantas untuk memperlakukan perbedaan antara skor sebagai data level interval jika mereka dihitung dengan menambahkan semua tanggapan ke item likert. Distribusi data yang normal hanya berarti bahwa responsnya mungkin mewakili populasi yang lebih besar; itu tidak menyiratkan bahwa nilai-nilai yang diperoleh dari inventaris memiliki sifat-sifat penting dari data level interval. Saya pikir tidak pantas memperlakukan perbedaan antara skor sebagai data level interval jika dihitung dengan menambahkan semua respons ke item likert. Distribusi data yang normal hanya berarti bahwa responsnya mungkin mewakili populasi yang lebih besar; itu tidak menyiratkan bahwa nilai-nilai yang diperoleh dari inventaris memiliki sifat-sifat penting dari data level interval. Saya pikir tidak pantas memperlakukan perbedaan antara skor sebagai data level interval jika dihitung dengan menambahkan semua respons ke item likert. Distribusi data yang normal hanya berarti bahwa responsnya mungkin mewakili populasi yang lebih besar; itu tidak menyiratkan bahwa nilai-nilai yang diperoleh dari inventaris memiliki sifat-sifat penting dari data level interval.
Kita perlu berhati-hati dalam ilmu perilaku tentang bagaimana kita menggunakan statistik untuk berbicara dengan variabel laten yang kita pelajari, karena karena tidak ada cara langsung untuk mengukur konstruk hipotetis ini, akan ada masalah signifikan ketika kita mencoba mengukur subjeknya untuk tes parametrik. Sekali lagi, hanya karena kami telah menetapkan nilai pada serangkaian respons tidak berarti bahwa perbedaan antara nilai-nilai ini bermakna.
sumber
Model rasio odds proporsional lebih baik daripada uji-t untuk skala item Likert.
sumber
Saya akan mencoba menjelaskan model rasio odds proporsional dalam konteks ini karena disarankan dan ditunjukkan dalam setidaknya 2 jawaban untuk pertanyaan ini.
Tes skor dari model odds proporsional setara dengan tes jumlah peringkat Wilcoxon.
Lebih tepatnya, statistik tes skor tanpa pengaruh kovariat dikotomis tunggal dalam model regresi logistik kumulatif odds proporsional (McCullagh 1980) untuk hasil ordinal ditunjukkan sama dengan statistik uji peringkat Wilcoxon rank sum. (Bukti perpanjangan Tes Wilcoxon Rank-Sum untuk data survei sampel yang kompleks .)
Sama seperti uji peringkat jumlah Wilcoxon, tes ini mendeteksi apakah dua sampel diambil dari distribusi yang berbeda, terlepas dari nilai yang diharapkan.
Tes ini tidak valid jika Anda hanya ingin mendeteksi apakah dua sampel diambil dari distribusi dengan nilai yang diharapkan berbeda, seperti halnya uji jumlah peringkat Wilcoxon.
sumber