Saya mencoba menemukan korelasi antara dikotomis dan variabel kontinu.
Dari pekerjaan dasar saya pada ini saya menemukan bahwa saya harus menggunakan independent t-test dan prasyarat untuk itu adalah bahwa distribusi variabel harus normal.
Saya melakukan tes Kolmogorov-Smirnov untuk menguji normalitas dan menemukan bahwa variabel kontinu adalah tidak normal dan condong (sekitar 4.000 titik data).
Saya melakukan tes Kolmogorov-Smirnov untuk seluruh rentang variabel. Haruskah saya membaginya menjadi kelompok dan melakukan tes? Yaitu, katakan jika saya memiliki risk level
( 0
= Tidak berisiko, 1
= Berisiko) dan kadar kolesterol, maka haruskah saya:
Bagilah mereka menjadi dua kelompok, seperti
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Bawa mereka bersama dan terapkan tes? (Saya melakukannya hanya pada seluruh dataset.)
Setelah itu, tes apa yang harus saya lakukan jika masih tidak normal?
EDIT: Skenario di atas hanyalah deskripsi yang saya coba berikan untuk masalah saya. Saya memiliki dataset yang berisi lebih dari 1000 variabel dan sekitar 4000 sampel. Mereka bersifat kontinu atau kategoris. Tugas saya adalah untuk memprediksi variabel dikotomi berdasarkan variabel-variabel ini (mungkin muncul dengan model regresi logistik). Jadi saya pikir penyelidikan awal akan melibatkan menemukan korelasi antara dikotomi dan variabel kontinu.
Saya mencoba melihat bagaimana distribusi variabel dan karenanya mencoba untuk uji-t. Di sini saya menemukan normalitas sebagai masalah. Tes Kolmogorov-Smirnov memberikan nilai signifikansi 0,00 di sebagian besar variabel ini.
Haruskah saya menganggap normal di sini? Skewness dan kurtosis dari variabel-variabel ini juga menunjukkan bahwa data miring (> 0) di hampir semua kasus.
Sesuai catatan yang diberikan di bawah ini saya akan menyelidiki korelasi point-biserial lebih lanjut. Tetapi tentang distribusi variabel saya masih tidak yakin.
sumber
Jawaban:
Saya sedikit bingung; judul Anda mengatakan "korelasi" tetapi posting Anda mengacu pada uji-t. Uji-t adalah uji lokasi pusat - lebih khusus, apakah rerata satu set data berbeda dari rerata set lainnya? Korelasi, di sisi lain, menunjukkan hubungan antara dua variabel. Ada berbagai ukuran korelasi, tampaknya korelasi point-biserial sesuai untuk kasus Anda.
Anda benar bahwa uji-t mengasumsikan normalitas; Namun, uji normalitas cenderung memberikan hasil yang signifikan bahkan untuk non-normal sepele dengan N dari 4000. Uji-T cukup kuat untuk penyimpangan sederhana dari normalitas jika varians dari dua set data kira-kira sama dan sampel ukurannya kira-kira sama. Tetapi tes nonparametrik lebih kuat untuk pencilan dan sebagian besar memiliki kekuatan hampir setinggi uji-t, bahkan jika distribusinya normal.
Namun, dalam contoh Anda, Anda menggunakan "kolesterol" sebagai berisiko atau tidak berisiko. Ini hampir pasti merupakan ide yang buruk. Dikotomi variabel kontinu memunculkan pemikiran magis. Dikatakan bahwa, pada titik tertentu, kolesterol berubah dari "tidak berisiko" menjadi "berisiko". Misalkan Anda menggunakan 200 sebagai cutoff Anda - maka Anda mengatakan bahwa seseorang dengan kolesterol 201 sama seperti seseorang dengan 400, dan seseorang dengan 199 sama seperti seseorang dengan 100. Ini tidak masuk akal.
sumber
Mari sederhanakan. Dengan N = 4.000 untuk tingkat kolesterol, Anda seharusnya tidak memiliki masalah dengan hasil yang bias oleh pencilan. Karena itu Anda dapat menggunakan korelasi itu sendiri, seperti yang tersirat dalam kalimat awal Anda. Ini akan membuat sedikit perbedaan apakah Anda menilai korelasi melalui metode Pearson, Spearman, atau Point-Biserial.
Jika sebaliknya Anda benar-benar perlu mengutarakan hasil dalam hal perbedaan kolesterol khas antara kelompok Berisiko Tinggi dan Berisiko Rendah, tes Mann-Whitney U boleh digunakan, tetapi Anda sebaiknya menggunakan uji- t yang lebih informatif . Dengan N ini (dan sekali lagi, dengan outlier astronomi sesuatu yang tidak dapat Anda singkirkan), Anda tidak perlu khawatir bahwa kurangnya normalitas akan mengganggu hasil Anda.
sumber