Cepat mengevaluasi (secara visual) korelasi antara data kategorikal yang dipesan dalam R?

Saya mencari korelasi antara jawaban untuk pertanyaan yang berbeda dalam survei ("umm, mari kita lihat apakah jawaban untuk pertanyaan 11 berkorelasi dengan jawaban pertanyaan 78"). Semua jawaban bersifat kategoris (sebagian besar berkisar dari "sangat tidak bahagia" hingga "sangat bahagia"), tetapi beberapa memiliki rangkaian jawaban yang berbeda. Kebanyakan dari mereka dapat dianggap ordinal jadi mari kita pertimbangkan kasus ini di sini.

Karena saya tidak memiliki akses ke program statistik komersial, saya harus menggunakan R.

Saya mencoba Rattle (paket data mining freeware untuk R, sangat bagus) tapi sayangnya tidak mendukung data kategorikal. Satu retas yang dapat saya gunakan adalah mengimpor R versi kode dari survei yang memiliki angka (1..5) alih-alih "sangat tidak bahagia" ... "bahagia" dan biarkan Rattle percaya bahwa mereka adalah data numerik.

Saya berpikir untuk melakukan plot pencar dan memiliki ukuran titik yang proporsional dengan jumlah angka untuk setiap pasangan. Setelah beberapa googling saya menemukan http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/ tetapi tampaknya sangat rumit (bagi saya).

Saya bukan ahli statistik (tetapi seorang programmer) tetapi telah memiliki beberapa bacaan dalam masalah ini dan, jika saya mengerti dengan benar, Spearman rho akan sesuai di sini.

Jadi versi singkat dari pertanyaan untuk mereka yang terburu-buru: apakah ada cara untuk dengan cepat merencanakan rho Spearman di R ? Plot lebih disukai daripada matriks angka karena lebih mudah dilihat dan juga bisa dimasukkan dalam materi.

Terima kasih sebelumnya.

PS Saya merenung sebentar apakah akan memposting ini di situs SO utama atau di sini. Setelah mencari kedua situs untuk korelasi R, saya merasa situs ini lebih cocok untuk pertanyaan itu.

r correlation categorical-data data-visualization wishihadabettername
sumber

Anda terdengar seperti R lebih rendah daripada perangkat lunak kepatutan. :)

Roman Luštrik

Bagi saya kedengarannya sangat masuk akal untuk menggunakan korelasi-momen-produk pearson (dengan asumsi data kontinu) dalam kasus Anda (dengan asumsi poin yang cukup pada skala Anda dan bukan titik tengah yang tidak tahu). Seluruh bidang dalam psikologi (misalnya, kepribadian atau psikologi sosial) bertumpu (berhasil) dengan asumsi bahwa jawaban untuk satu item pada skala eg, lima poin (atau tujuh poin) mulai dari sangat un-X hingga sangat X dapat menjadi diperlakukan sebagai kontinu. Lihat juga utas ini: stats.stackexchange.com/questions/539/...

Henrik

@romunov: Tidak yakin bagaimana Anda mendapat kesan bahwa saya percaya R lebih rendah dari yang lainnya. Tapi itu tidak terjadi sama sekali.

wishihadabettername

Saya hanya menjadi sok pintar. Saya harap tidak ada perasaan sulit. :)

Roman Luštrik

Jawaban:

Visualisasi korelasi lain yang baik ditawarkan oleh paket corrplot , memberi Anda hal-hal seperti ini: teks alternatif

Ini adalah paket yang bagus.

Lihat juga jawabannya di sini , mungkin ada baiknya Anda mengetahuinya.

Terakhir, jika Anda memiliki saran bagaimana kode pada pos yang Anda rujuk bisa lebih sederhana - beri tahu saya.

Tal Galili
sumber

Terima kasih Tal, saya akan coba corrplot sekarang. Saya juga berharap saya tahu cara menyederhanakan solusi Anda (yang saya tautkan dalam pertanyaan) tapi saya hanya pemula di R sehingga Anda tahu lebih banyak dari saya. Saya akan memperbarui pertanyaan untuk mengklarifikasi solusi yang terlihat rumit bagi saya

wishihadabettername

Corrplot terlihat bagus. Ini memberikan gambaran visual besar ukuran dan arah korelasi. Dalam kasus variabel kategoris 5-poin yang dipesan, mungkin berguna untuk menyediakan beberapa ukuran hubungan lain selain korelasi Pearson: misalnya, korelasi polikorik. Ukuran korelasi Pearson standar dari variabel kategori terurut agak dipengaruhi oleh rata-rata dari dua variabel.

Jeromy Anglim

Beberapa ide plot tambahan adalah:

Plot bunga matahari
Plot pencar dengan jitter menggunakan grafis dasar atau ggplot2

Jeromy Anglim
sumber

The Sunflower adalah solusi yang menyenangkan. Menggunakan jitter adalah apa yang saya coba ketika pertama kali saya melihat topik, tetapi saya menemukan itu tidak cukup efektif untuk merencanakan matriks korelasi ...

Tal Galili

Ya, jitter bisa sangat berantakan dengan scattermatrix dengan banyak variabel. Saya kira manfaat jitter dan bunga matahari adalah Anda bisa melihat data mentah (meskipun terganggu dalam kasus jitter).

Jeromy Anglim

Setuju (Saya suka jitter, hanya tidak untuk ini :))

Tal Galili