Korelasi antara variabel kontinyu dan kategorikal (nominal)

42

Saya ingin menemukan korelasi antara variabel kontinu (variabel dependen) dan variabel kategori (nominal: jenis kelamin, variabel independen). Data kontinu tidak terdistribusi normal. Sebelumnya, saya telah dihitung dengan menggunakan Spearman . Namun, saya telah diberitahu bahwa itu tidak benar.ρ

Saat mencari di internet, saya menemukan bahwa boxplot dapat memberikan gambaran tentang seberapa banyak mereka terkait; Namun, saya sedang mencari nilai diukur seperti koefisien product moment Pearson atau Spearman . Bisakah Anda membantu saya tentang cara melakukan ini? Atau, informasikan metode mana yang sesuai?ρ

Akankah Koefisien Biserial Point menjadi pilihan yang tepat?

Md. Ferdous Wahid
sumber
Biasanya, seseorang tidak dapat memberikan saran hanya berdasarkan format data! Apa yang diwakili data, dan apa yang ingin Anda capai dengan analisis Anda?
kjetil b halvorsen
1
Terima kasih kjetil, saya ingin membandingkan hubungan antara gender dan variabel kontinu lainnya. Hanya untuk mengetahui, variabel kontinu mana yang berkorelasi sedang / kuat dan variabel mana yang tidak.
Md. Ferdous Wahid
1
Sepertinya duplikat stats.stackexchange.com/questions/25229/... Bisakah Anda memberi tahu kami jika jawaban untuk yang satu itu membantu Anda?
kjetil b halvorsen
Ya, pertanyaan saya mirip dengan itu. Namun, saya mendapat umpan balik di mana resensi menunjukkan bahwa Spearman tidak yang sesuai. Ukuran sampel saya adalah 31. Menurut jawaban (tautan yang disediakan), non-normal tidak akan menjadi masalah dan metode korelasi apa pun dapat digunakan (Spearman / Pearson / Point-Biserial) untuk dataset besar. Apakah itu benar untuk dataset kecil juga? Ngomong-ngomong, gender bukanlah skala nominal dikotomis yang diciptakan secara artifisial. Tautan di atas harus menggunakan koefisien korelasi biserial. ρ
Ny. Ferdous Wahid
3
Korelasi antara variabel nominal dan interval atau variabel ordinal.stackexchange.com/q/73065/3277
ttnphns

Jawaban:

25

Resensi harus memberitahu Anda mengapa Spearman tidak tepat. Ini adalah salah satu versinya: Biarkan datanya mana adalah variabel terukur dan adalah indikator gender, katakan itu 0 (pria), 1 (wanita). Kemudian Spearman dihitung berdasarkan jajaran masing-masing. Karena hanya ada dua nilai yang mungkin untuk indikator , akan ada banyak ikatan, sehingga rumus ini tidak sesuai. Jika Anda mengganti peringkat dengan peringkat rata-rata, maka Anda hanya akan mendapatkan dua nilai yang berbeda, satu untuk pria, satu lagi untuk wanita. Laluρ(Zi,Ii)ZIρZ,IIρpada dasarnya akan menjadi versi yang disusun kembali dari peringkat rata-rata antara kedua kelompok. Akan lebih sederhana (lebih dapat diartikan) untuk hanya membandingkan cara! Pendekatan lain adalah sebagai berikut.

Misalkan menjadi pengamatan variabel kontinu di antara pria, sama di antara wanita. Sekarang, jika distribusi dan adalah sama, maka akan menjadi 0,5 (mari kita asumsikan distribusinya benar-benar kontinu, sehingga tidak ada ikatan). Dalam kasus umum, tentukan mana adalah undian acak di antara pria, antara wanita. Bisakah kita memperkirakan dari sampel kita? Bentuk semua pasangan (anggap tidak ada ikatan) dan hitung berapa banyak yang kita miliki "pria lebih besar" ( ) (X1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjM) dan berapa banyak "wanita lebih besar" ( ) ( ). Maka satu perkiraan sampel adalah Itu adalah salah satu ukuran korelasi yang masuk akal! (Jika hanya ada beberapa ikatan, abaikan saja). Tetapi saya tidak yakin apa itu namanya, jika memiliki nama. Ini mungkin sudah dekat: https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaXi<YjWθ
MM+W
kjetil b halvorsen
sumber
5
Korelasi peringkat Spearman hanyalah korelasi Pearson yang diterapkan pada peringkat variabel numerik dan nilai-nilai variabel biner asli (peringkat tidak berpengaruh di sini). Jadi Spearman rho adalah analogi pangkat dari korelasi Point-biserial. Saya tidak melihat ada masalah dalam menggunakan Spearman rho secara deskriptif dalam situasi ini.
Michael M
Michael Mayer: Ya, mungkin berhasil, mungkin, tetapi apakah ada gunanya? Itu tidak memberikan informasi yang tidak terkandung dalam beberapa perbedaan cara! dan itu lebih langsung diartikan.
kjetil b halvorsen
1
Apakah perbedaan dalam peringkat lebih mudah diinterpretasikan sebagai Spearman rho? Bahkan jika demikian, akankah Anda menyebut Spearman rho salah? Sedih karena kami tidak melihat alasan pengulas.
Michael M
1
Apa yang Anda sarankan itu bagus. Tampaknya terkait dengan statistik uji dua sampel uji Wilcoxon, yang itu sendiri mirip dengan korelasi peringkat Kendall antara hasil numerik dan variabel kelompok biner.
Michael M
1
@ tao.hong Dalam arti apa menurut Anda asimetris? Jika Anda mengganti label (pria / wanita), maka keduanya dan beralih dengan cara yang sama, menjadi . qθθ^1θ
kjetil b halvorsen
8

Saya mengalami masalah yang sama sekarang. Saya belum melihat ada orang yang referensi ini, tapi saya sedang meneliti Korelasi Point-Biserial yang dibangun dari koefisien korelasi Pearson. Ini berarti untuk variabel kontinu dan variabel dikotomis.

Baca cepat: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Saya menggunakan R, tetapi saya menemukan SPSS memiliki dokumentasi yang bagus.

Jon
sumber
1
Referensi hebat untuk menemukan korelasi antara variabel kontinu dan variabel dikotomis! Namun, asumsi yang tercantum agak kuat.
SUNDONG
1

Tampaknya perbandingan yang paling tepat adalah membandingkan median (karena tidak normal) dan distribusi antara kategori biner. Saya akan menyarankan tes Mann-Whitney non-parametrik ...

brca1
sumber
6
Sementara Mann-Whitney akan menjadi cara mengidentifikasi pergeseran lokasi dalam suatu variabel (atau memang bentuk yang lebih umum dari dominasi stokastik) di seluruh variabel kategori biner, Mann-Whitney tidak membandingkan median, setidaknya bukan tanpa asumsi tambahan.
Glen_b
1

Untuk masalah yang ditentukan, mengukur Area Di Bawah Kurva Kurva Karakteristik Operator Penerima mungkin membantu.

Saya bukan ahli dalam hal ini jadi saya mencoba untuk membuatnya tetap sederhana. Berikan komentar tentang kesalahan atau interpretasi yang salah sehingga saya dapat mengubahnya.

y x x xx adalah variabel kontinu Anda. adalah kategori Anda. Lihat berapa banyak Positif Sejati dan Positif Salah yang Anda dapatkan jika Anda memilih nilai sebagai ambang batas antara positif dan negatif (atau pria dan wanita) dan Anda membandingkannya dengan label asli. Misalnya, Anda memilih 7, maka di atas = 7 semuanya wanita (1) dan di bawah = 7 semuanya pria (0). Bandingkan ini dengan label asli dan dapatkan jumlah positif benar dan positif salah prediksi Anda.yxxx

Mengulangi prosedur yang dijelaskan di atas, dari min ( ) hingga maks ( ) Anda akan menghasilkan tingkat positif dan positif palsu yang benar dan kemudian Anda dapat memplotnya seperti pada gambar di bawah ini dan Anda dapat menghitung Area Di Bawah Kurva.xxx

Idenya adalah bahwa jika tidak ada korelasi antara variabel, Anda akan mendapatkan rasio positif dan benar negatif yang sama untuk semua nilai , namun, jika ada korelasi yang baik (dan singkatan yang sama untuk anti-korelasi) rasio dari positif sejati ke negatif sejati akan sangat bervariasi karena bervariasi.xxx

Pernyataan di atas dihitung dengan Area Di Bawah Kurva.

Contoh korelasi yang baik (kanan) dan anti-korelasi yang adil (kiri) Contoh korelasi baik (kanan) dan anti-korelasi adil (kiri).

aerijman
sumber
1
Selamat datang di CV! Jawaban Anda agak terlalu pendek, dan sepertinya tidak membantu menemukan: "korelasi antara variabel kontinu (variabel dependen) dan variabel kategori (nominal: jenis kelamin, variabel independen)" . Bisakah Anda mengedit jawaban Anda untuk memasukkan bagaimana AUROC seharusnya mencapai ini?
Frans Rodenburg
-3

Anda harus menggunakan alternatif tren linier untuk independensi. jika Anda tidak tahu cara ini, Anda dapat mempelajari pengantar analisis data kategorikal halaman 41.

Mehdi Loohs
sumber
4
Sudah ada jawaban yang diterima. Dan tidak jelas apa kontribusi jawaban Anda. Bisakah Anda menjelaskan lebih lanjut? Saya berasumsi Anda membuat referensi ke pengantar Agresti untuk analisis data kategorikal. Harap berikan kutipan lengkap.
TEG - Pasang kembali Monica