Saya telah berjuang dengan masalah berikut dengan mudah-mudahan mudah untuk para ahli statistik (saya seorang programmer dengan beberapa paparan statistik).
Saya perlu meringkas tanggapan terhadap survei (untuk manajemen). Survei ini memiliki 100+ pertanyaan, dikelompokkan dalam berbagai area (dengan sekitar 5 hingga 10 pertanyaan per area). Semua jawaban bersifat kategoris (dalam skala ordinal, mereka seperti "tidak sama sekali", "jarang" ... "setiap hari atau lebih sering").
Manajemen ingin mendapatkan ringkasan untuk setiap bidang dan ini adalah masalah saya: bagaimana cara menjumlahkan jawaban kategoris dalam pertanyaan terkait? . Pertanyaannya terlalu banyak untuk membuat grafik atau bahkan plot kisi untuk setiap area. Saya menyukai pendekatan visual jika memungkinkan, dibandingkan dengan, katakanlah, tabel dengan angka (sayangnya, mereka tidak akan membacanya).
Satu-satunya hal yang bisa saya kemukakan adalah menghitung jumlah jawaban di setiap area, lalu plot histogram.
Apakah ada hal lain yang tersedia untuk data kategorikal?
Saya menggunakan R, tetapi tidak yakin apakah itu relevan, saya merasa ini lebih merupakan pertanyaan statistik umum.
sumber
Jawaban:
Anda benar-benar perlu mencari tahu apa pertanyaan yang Anda coba jawab- atau pertanyaan apa yang paling diminati manajemen. Kemudian Anda dapat memilih pertanyaan survei yang paling relevan dengan masalah Anda.
Tanpa mengetahui apa pun tentang masalah atau dataset Anda, berikut adalah beberapa solusi umum:
sumber
Ada makalah yang bagus tentang teknik visualisasi yang mungkin Anda gunakan oleh Michael Friendly:
(Sebenarnya, ada seluruh buku yang dikhususkan untuk ini oleh penulis yang sama.) Paket vcd di R mengimplementasikan banyak teknik ini.
sumber
Opsi standar meliputi:
Mengingat bahwa Anda mengumpulkan lebih dari item dan sampel besar orang dalam organisasi, kedua opsi di atas (yaitu rata-rata 1 hingga 5 atau rata-rata persentase di atas satu poin) akan dapat diandalkan di tingkat organisasi ( lihat di sini untuk diskusi lebih lanjut ). Jadi, salah satu dari opsi di atas pada dasarnya mengkomunikasikan informasi yang sama.
Secara umum saya tidak akan khawatir tentang fakta bahwa barang-barang itu kategorikal. Pada saat Anda membuat skala dengan mengumpulkan lebih dari item dan kemudian mengumpulkan sampel responden Anda, skala akan menjadi perkiraan yang mendekati skala berkelanjutan.
Manajemen mungkin menemukan satu metrik lebih mudah untuk ditafsirkan. Ketika saya mendapatkan skor Kualitas Pengajaran (yaitu, skor kepuasan siswa rata-rata mengatakan 100 siswa), itu adalah rata-rata pada skala 1 hingga 5 dan itu bagus. Bertahun-tahun setelah melihat skor saya sendiri dari tahun ke tahun dan juga melihat beberapa norma untuk universitas saya telah mengembangkan kerangka referensi tentang apa arti nilai-nilai yang berbeda. Namun, manajemen kadang-kadang lebih suka memikirkan tentang persentase yang mendukung suatu pernyataan, atau persentase tanggapan positif bahkan ketika dalam arti persentase.
Tantangan utama adalah memberikan kerangka acuan yang nyata untuk skor. Manajemen ingin tahu apa arti angka-angka itu . Misalnya, jika respons rata-rata untuk skala adalah 4.2, Apa artinya itu? Apakah itu baik? Apa itu buruk? Apakah itu baik-baik saja?
Jika Anda menggunakan survei selama beberapa tahun atau di berbagai organisasi, maka Anda dapat mulai mengembangkan beberapa norma. Akses ke norma adalah salah satu alasan organisasi sering mendapatkan penyedia survei eksternal atau menggunakan survei standar.
Anda mungkin juga ingin menjalankan analisis faktor untuk memvalidasi bahwa penugasan item untuk skala dapat dibenarkan secara empiris.
Dalam hal pendekatan visual, Anda dapat memiliki grafik garis atau batang sederhana dengan tipe skala pada sumbu x dan skor pada sumbu y. Jika Anda memiliki data normatif, Anda dapat menambahkannya juga.
sumber
Iya. Saya menemukan pengelompokan menjadi pendekatan yang sangat efektif untuk pengurangan data untuk mengurangi data survei untuk pemahaman dan presentasi manajemen.
Analisis Kelas Laten (memperlakukan skala respons sebagai ordinal) atau k-means (memperlakukannya sebagai kontinu) dapat dilihat sebagai bentuk kompresi informasi . Mengklasifikasikan responden ke dalam segmen mereka yang paling mungkin umumnya menghasilkan variabel kategori yang memiliki penjelasan intuitif ketika diprofilkan dalam hal respons.
Anda kemudian dapat memberi nama segmen, dan menggunakan variabel tersebut untuk analisis dan presentasi tingkat ringkasan.
Pasangkan kluster untuk grup item terkait (mis. Bawah) atau mungkin semuanya bersamaan.
Saya sering menggunakan LatentGold, tetapi menemukan FASTCLUS di SAS sebagai solusi yang baik.
Sebelum melakukannya, Anda harus mempertimbangkan menyesuaikan respons masing-masing individu untuk penggunaan skala (kontroversial tapi pragmatis). Beberapa orang hanya bersandar pada salah satu ujung skala, baik menghindari yang negatif atau positif. Clustering tanggapan mentah biasanya cenderung memecah belah orang dengan perilaku itu.
Membakukan jawaban masing-masing responden terhadap maksud dan pengelompokan mereka sendiri yang sering memperlihatkan variabel yang bergerak bersama dengan cara yang sangat menarik.
sumber