Korelasi antara data kontinu dan jumlah data

9

Misalkan kita berurusan dengan kumpulan data ini mana adalah variabel kontinu (misalnya Eksponensial) dan adalah distribusi diskrit (misalnya Poisson) untuk . Mari kita mengatakan bahwa adalah korelasi antara dan . Bagaimana seseorang bisa mendefinisikan ? (Xsaya,Nsaya)XsayaNsayasaya=1,...,nρXNρ

pengguna9292
sumber
Adalah umum untuk melakukan pemilihan variabel untuk pemodelan ketika beberapa variabel prediktor menghitung data dan data responsnya kontinu. Tidak ada larangan membandingkan antara bilangan real dan bilangan bulat. Bentuk distribusi akan menjadi masalah yang lebih besar. Anda akan ingin mencoba serangkaian fungsi tangga Tukey (alias seri daya).
Chris
@ Chris Terima kasih atas komentarnya. Saya tidak berurusan dengan regresi di sini (meskipun seseorang dapat berpendapat bahwa membangun GLMg(Y)=βNakan menangkap korelasinya). Saya tertarik apakah ada ukuran korelasi (yaitu, Pearson untuk data berkelanjutan).
user9292
2
Mengapa korelasi Pearson biasa tidak menjadi ukuran korelasi untuk masalah ini?
Glen_b -Reinstate Monica

Jawaban:

13

Saya akan mengatakan setidaknya ada 3 opsi yang layak yang masuk akal untuk Anda:

  1. Polyserial Correlation - Ini akan menjadi yang paling eksotis dari 3 opsi dan melibatkan pendekatan variabel laten, kontinu yang digunakan untuk membangun variabel diskrit (Nsaya dalam kasus Anda) serta prosedur estimasi kemungkinan maksimum untuk yang paling mungkin ρ yang bisa dihasilkan antara variabel kontinu laten dan yang asli, Xsaya, ketika diperlakukan sebagai sampel normal bivariat (contoh implementasi dalam R: polycor ). Ada beberapa referensi untuk ide ini di luar sana, tetapi ini adalah publikasi asli pada subjek dari 1974: Estimasi Korelasi Antara Variabel Kontinu dan Diskrit .
  2. Korelasi Nonparametrik - Koefisien Korelasi Peringkat Spearman kemungkinan merupakan opsi yang baik dalam kasus ini. Perhitungan untuk Spearman's Rho bekerja berdasarkan peringkat nilai-nilai dari masing-masing variabel daripada nilai-nilai itu sendiri yang membuatnya lebih luas berlaku di hadapan hubungan nonlinear atau tipe data campuran.
  3. Pemodelan - Saya tahu Anda sebutkan di komentar bahwa Anda tidak mencoba melakukan pemodelan apa pun, tapi saya masih berpikir satu atau dua parameter estimasi dari hubungan fungsional yang pas antara kedua variabel jauh lebih informatif daripada setiap koefisien korelasi yang akan Anda temukan (kecuali variabel diskrit benar-benar dibuat dari setengah nilai distribusi normal bivariat - yang saya ragu).

Untuk menjawab pertanyaan Anda lebih langsung, hitung ρseperti biasa (dengan asumsi maksud Anda koefisien korelasi momen-produk dengan itu) kemungkinan akan memiliki sifat yang Anda harapkan, atau setidaknya itu akan menjadi lebih besar ketika ketergantungan linear antara variabel tumbuh. Namun, uji statistik signifikansi korelasi tidak akan valid karena salah satu asumsi yang diperlukan untuk tes tersebut adalah normalitas bivariat dan itu jelas tidak benar jika salah satu variabel diskrit.

Pengujian signifikansi dengan koefisien korelasi nonparametrik (misalnya Spearman) mungkin dilakukan dan akan mudah untuk menemukan implementasi yang terdokumentasi dengan baik dalam bahasa apa pun.

Eric Czech
sumber