Korelasi antara variabel dikotomis dan kontinu

Saya mencoba menemukan korelasi antara dikotomis dan variabel kontinu.

Dari pekerjaan dasar saya pada ini saya menemukan bahwa saya harus menggunakan independent t-test dan prasyarat untuk itu adalah bahwa distribusi variabel harus normal.

Saya melakukan tes Kolmogorov-Smirnov untuk menguji normalitas dan menemukan bahwa variabel kontinu adalah tidak normal dan condong (sekitar 4.000 titik data).

Saya melakukan tes Kolmogorov-Smirnov untuk seluruh rentang variabel. Haruskah saya membaginya menjadi kelompok dan melakukan tes? Yaitu, katakan jika saya memiliki risk level( 0= Tidak berisiko, 1= Berisiko) dan kadar kolesterol, maka haruskah saya:

Bagilah mereka menjadi dua kelompok, seperti

Risk level =0 (Cholestrol level) -> Apply KS
Risk level =1 (Cholestrol level) -> Apply KS

Bawa mereka bersama dan terapkan tes? (Saya melakukannya hanya pada seluruh dataset.)

Setelah itu, tes apa yang harus saya lakukan jika masih tidak normal?

EDIT: Skenario di atas hanyalah deskripsi yang saya coba berikan untuk masalah saya. Saya memiliki dataset yang berisi lebih dari 1000 variabel dan sekitar 4000 sampel. Mereka bersifat kontinu atau kategoris. Tugas saya adalah untuk memprediksi variabel dikotomi berdasarkan variabel-variabel ini (mungkin muncul dengan model regresi logistik). Jadi saya pikir penyelidikan awal akan melibatkan menemukan korelasi antara dikotomi dan variabel kontinu.

Saya mencoba melihat bagaimana distribusi variabel dan karenanya mencoba untuk uji-t. Di sini saya menemukan normalitas sebagai masalah. Tes Kolmogorov-Smirnov memberikan nilai signifikansi 0,00 di sebagian besar variabel ini.

Haruskah saya menganggap normal di sini? Skewness dan kurtosis dari variabel-variabel ini juga menunjukkan bahwa data miring (> 0) di hampir semua kasus.

Sesuai catatan yang diberikan di bawah ini saya akan menyelidiki korelasi point-biserial lebih lanjut. Tetapi tentang distribusi variabel saya masih tidak yakin.

normal-distribution categorical-data continuous-data kolmogorov-smirnov association-measure Sree Aurovindh
sumber

Korelasi (dalam bentuk apa pun) antara variabel kontinu dan biner (grup), tidak jauh lebih (dan mungkin lebih sedikit ...) daripada hanya perbandingan rata-rata (semacam rata-rata ...) antara kelompok, jadi biasanya harusnya lebih baik lakukan saja!

kjetil b halvorsen

Jawaban:

Saya sedikit bingung; judul Anda mengatakan "korelasi" tetapi posting Anda mengacu pada uji-t. Uji-t adalah uji lokasi pusat - lebih khusus, apakah rerata satu set data berbeda dari rerata set lainnya? Korelasi, di sisi lain, menunjukkan hubungan antara dua variabel. Ada berbagai ukuran korelasi, tampaknya korelasi point-biserial sesuai untuk kasus Anda.

Anda benar bahwa uji-t mengasumsikan normalitas; Namun, uji normalitas cenderung memberikan hasil yang signifikan bahkan untuk non-normal sepele dengan N dari 4000. Uji-T cukup kuat untuk penyimpangan sederhana dari normalitas jika varians dari dua set data kira-kira sama dan sampel ukurannya kira-kira sama. Tetapi tes nonparametrik lebih kuat untuk pencilan dan sebagian besar memiliki kekuatan hampir setinggi uji-t, bahkan jika distribusinya normal.

Namun, dalam contoh Anda, Anda menggunakan "kolesterol" sebagai berisiko atau tidak berisiko. Ini hampir pasti merupakan ide yang buruk. Dikotomi variabel kontinu memunculkan pemikiran magis. Dikatakan bahwa, pada titik tertentu, kolesterol berubah dari "tidak berisiko" menjadi "berisiko". Misalkan Anda menggunakan 200 sebagai cutoff Anda - maka Anda mengatakan bahwa seseorang dengan kolesterol 201 sama seperti seseorang dengan 400, dan seseorang dengan 199 sama seperti seseorang dengan 100. Ini tidak masuk akal.

Peter Flom - Pasang kembali Monica
sumber

Saya setuju, dan saya pikir sebagian besar dari kita setuju, bahwa dikotomi membuang-buang informasi dan dapat berupa metode kasar atau kasar atau canggung. Saya hanya berpikir argumen "pemikiran magis" sedikit melampaui batas. Memilih untuk mengabaikan perbedaan tidak sama dengan meyakini bahwa tidak ada perbedaan. Saya berharap akan ada waktu di depan ketika saya akan merasa nyaman dan layak tradeoff untuk membuat kategori dari beberapa variabel kontinu, baik untuk tujuan analitik atau pelaporan. Hanya 2 sen saya.

rolando2

Membuat kategori dari variabel kontinu lebih buruk daripada magis. Setan mungkin kata yang lebih baik. Jika Anda ingin memaksimalkan kompleksitas model, meningkatkan bias, dan meningkatkan varians secara bersamaan, dikotomisasi adalah untuk Anda. [Ini memaksimalkan kompleksitas karena informasi yang hilang karena kategorisasi memerlukan lebih banyak variabel yang ditambahkan ke model untuk mencapai .]

R^{2}

$R^2$

Frank Harrell

Mari sederhanakan. Dengan N = 4.000 untuk tingkat kolesterol, Anda seharusnya tidak memiliki masalah dengan hasil yang bias oleh pencilan. Karena itu Anda dapat menggunakan korelasi itu sendiri, seperti yang tersirat dalam kalimat awal Anda. Ini akan membuat sedikit perbedaan apakah Anda menilai korelasi melalui metode Pearson, Spearman, atau Point-Biserial.

Jika sebaliknya Anda benar-benar perlu mengutarakan hasil dalam hal perbedaan kolesterol khas antara kelompok Berisiko Tinggi dan Berisiko Rendah, tes Mann-Whitney U boleh digunakan, tetapi Anda sebaiknya menggunakan uji- t yang lebih informatif . Dengan N ini (dan sekali lagi, dengan outlier astronomi sesuatu yang tidak dapat Anda singkirkan), Anda tidak perlu khawatir bahwa kurangnya normalitas akan mengganggu hasil Anda.

rolando2
sumber

Terima kasih untuk balasan Anda. Tetapi jika saya harus tahu tentang outlier membuat distorsi besar apakah benar menggunakan kurtosis dan kecenderungan untuk mendeteksinya? Dalam kasus jika ini benar di atas apa nilai-nilai kurtosis dan skewness harus saya asumsikan bahwa distribusi tidak normal. Terima kasih atas balasan Anda

Sree Aurovindh

Saya berasumsi berdasarkan pengetahuan konten yang terbatas bahwa dengan kolesterol, Anda tidak akan memiliki nilai yang banyak urutan besarnya lebih tinggi daripada yang lain. Itu sebabnya saya pikir Anda dapat menggunakan metode parametrik seperti korelasi atau uji-t. Bukannya saya pikir distribusinya normal. Anda tidak perlu menjadi normal. Ngomong-ngomong, mengingat jawaban Peter: Saya percaya (dan berharap) bahwa Anda memiliki beberapa sumber status Risiko Tinggi / Rendah yang tidak tergantung pada skor kolesterol. Saya setuju bahwa mungkin tidak membantu untuk mendikotomi.

rolando2

Dapatkah saya menyarankan Anda menambahkan bagian ke pertanyaan awal Anda, bertanda "EDIT: ....", yang menjabarkan pertanyaan apa yang tersisa untuk Anda yang belum diatasi oleh jawaban dan komentar yang Anda terima sejauh ini.

rolando2

Terima kasih atas saran Anda. Saya telah memperbarui yang sama. Maaf untuk pertanyaan ambigu di tempat pertama. Terima kasih

Sree Aurovindh