Ukuran korelasi mana yang harus digunakan dengan kesenjangan besar (data yang hilang)?

8

Saya mencoba menghubungkan usia (6-90 thn) dengan kenyaringan suara (dalam dB). Namun, data saya tidak mengandung titik data dalam kisaran 20-50 tahun.

Ukuran korelasi apa yang paling sesuai dengan jeda yang begitu besar, dan mengapa? Saya telah menggunakan Kendall Tau sejauh ini.

Perhatikan bahwa kami tidak berurusan dengan data yang didistribusikan secara bimodal di sini, tetapi dengan kesenjangan data yang hilang dalam rentang usia.

whuber
sumber
1
Judul menyebutkan bahwa ada kesenjangan dalam satu variabel, tetapi dari tubuh tampaknya kesenjangan tersebut ada di kedua variabel yang Anda coba hitung korelasinya. Jadi, data apa yang sebenarnya hilang?
mpiktas

Jawaban:

8

Buat sebar scatter untuk memeriksa apakah masuk akal untuk menganggap bahwa koefisien korelasi tunggal adalah deskripsi yang memadai tentang hubungan antara variabel.

Misalnya, dalam data (simulasi) ini korelasi untuk usia 6-20 adalah 90%, untuk usia 50+ -70%, dan secara keseluruhan 15%. Dalam situasi seperti ini melaporkan koefisien korelasi tunggal akan sama menipu seperti melaporkan bahwa jumlah rata-rata kaki di antara hewan peliharaan rumah tangga adalah empat ketika setengah dari hewan peliharaan adalah ikan dan setengah lainnya adalah laba-laba ...

Scatterplot kenyaringan vs usia untuk 150 orang yang disimulasikan

Pilihan bagaimana mengekspresikan korelasi adalah masalah sekunder dan bertumpu pada aspek lain dari dataset.

whuber
sumber
whuber itu bijak. Dengan celah sebesar itu, saya pikir hampir tidak pernah dibenarkan untuk memberikan arti penting pada ukuran korelasi tunggal.
Michael Bishop
(+1) anekdot ikan laba-laba yang bagus!
Dmitrij Celov