Saya ingin menemukan korelasi antara variabel kontinu (variabel dependen) dan variabel kategori (nominal: jenis kelamin, variabel independen). Data kontinu tidak terdistribusi normal. Sebelumnya, saya telah dihitung dengan menggunakan Spearman . Namun, saya telah diberitahu bahwa itu tidak benar.
Saat mencari di internet, saya menemukan bahwa boxplot dapat memberikan gambaran tentang seberapa banyak mereka terkait; Namun, saya sedang mencari nilai diukur seperti koefisien product moment Pearson atau Spearman . Bisakah Anda membantu saya tentang cara melakukan ini? Atau, informasikan metode mana yang sesuai?
Akankah Koefisien Biserial Point menjadi pilihan yang tepat?
correlation
categorical-data
descriptive-statistics
biostatistics
spearman-rho
Md. Ferdous Wahid
sumber
sumber
Jawaban:
Resensi harus memberitahu Anda mengapa Spearman tidak tepat. Ini adalah salah satu versinya: Biarkan datanya mana adalah variabel terukur dan adalah indikator gender, katakan itu 0 (pria), 1 (wanita). Kemudian Spearman dihitung berdasarkan jajaran masing-masing. Karena hanya ada dua nilai yang mungkin untuk indikator , akan ada banyak ikatan, sehingga rumus ini tidak sesuai. Jika Anda mengganti peringkat dengan peringkat rata-rata, maka Anda hanya akan mendapatkan dua nilai yang berbeda, satu untuk pria, satu lagi untuk wanita. Laluρ (Zi,Ii) Z I ρ Z,I I ρ pada dasarnya akan menjadi versi yang disusun kembali dari peringkat rata-rata antara kedua kelompok. Akan lebih sederhana (lebih dapat diartikan) untuk hanya membandingkan cara! Pendekatan lain adalah sebagai berikut.
Misalkan menjadi pengamatan variabel kontinu di antara pria, sama di antara wanita. Sekarang, jika distribusi dan adalah sama, maka akan menjadi 0,5 (mari kita asumsikan distribusinya benar-benar kontinu, sehingga tidak ada ikatan). Dalam kasus umum, tentukan mana adalah undian acak di antara pria, antara wanita. Bisakah kita memperkirakan dari sampel kita? Bentuk semua pasangan (anggap tidak ada ikatan) dan hitung berapa banyak yang kita miliki "pria lebih besar" ( ) (X1,…,Xn Y1,…,Ym X Y P(X>Y)
sumber
Saya mengalami masalah yang sama sekarang. Saya belum melihat ada orang yang referensi ini, tapi saya sedang meneliti Korelasi Point-Biserial yang dibangun dari koefisien korelasi Pearson. Ini berarti untuk variabel kontinu dan variabel dikotomis.
Baca cepat: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php
Saya menggunakan R, tetapi saya menemukan SPSS memiliki dokumentasi yang bagus.
sumber
Tampaknya perbandingan yang paling tepat adalah membandingkan median (karena tidak normal) dan distribusi antara kategori biner. Saya akan menyarankan tes Mann-Whitney non-parametrik ...
sumber
Untuk masalah yang ditentukan, mengukur Area Di Bawah Kurva Kurva Karakteristik Operator Penerima mungkin membantu.
Saya bukan ahli dalam hal ini jadi saya mencoba untuk membuatnya tetap sederhana. Berikan komentar tentang kesalahan atau interpretasi yang salah sehingga saya dapat mengubahnya.
y x x xx adalah variabel kontinu Anda. adalah kategori Anda. Lihat berapa banyak Positif Sejati dan Positif Salah yang Anda dapatkan jika Anda memilih nilai sebagai ambang batas antara positif dan negatif (atau pria dan wanita) dan Anda membandingkannya dengan label asli. Misalnya, Anda memilih 7, maka di atas = 7 semuanya wanita (1) dan di bawah = 7 semuanya pria (0). Bandingkan ini dengan label asli dan dapatkan jumlah positif benar dan positif salah prediksi Anda.y x x x
Mengulangi prosedur yang dijelaskan di atas, dari min ( ) hingga maks ( ) Anda akan menghasilkan tingkat positif dan positif palsu yang benar dan kemudian Anda dapat memplotnya seperti pada gambar di bawah ini dan Anda dapat menghitung Area Di Bawah Kurva.xx x
Idenya adalah bahwa jika tidak ada korelasi antara variabel, Anda akan mendapatkan rasio positif dan benar negatif yang sama untuk semua nilai , namun, jika ada korelasi yang baik (dan singkatan yang sama untuk anti-korelasi) rasio dari positif sejati ke negatif sejati akan sangat bervariasi karena bervariasi.xx x
Pernyataan di atas dihitung dengan Area Di Bawah Kurva.
Contoh korelasi baik (kanan) dan anti-korelasi adil (kiri).
sumber
Anda harus menggunakan alternatif tren linier untuk independensi. jika Anda tidak tahu cara ini, Anda dapat mempelajari pengantar analisis data kategorikal halaman 41.
sumber