Ini sedikit pemeriksaan usus, tolong bantu saya melihat apakah saya salah memahami konsep ini, dan dengan cara apa.
Saya memiliki pemahaman fungsional tentang korelasi, tetapi saya merasa sedikit mengerti untuk benar-benar menjelaskan prinsip-prinsip di balik pemahaman fungsional itu.
Seperti yang saya pahami, korelasi statistik (berlawanan dengan penggunaan istilah yang lebih umum) adalah cara untuk memahami dua variabel kontinu dan cara di mana mereka cenderung atau tidak cenderung naik atau turun dengan cara yang sama.
Alasan Anda tidak dapat menjalankan korelasi pada, katakanlah, satu variabel kategori kontinu dan satu adalah karena tidak mungkin untuk menghitung kovarians antara keduanya, karena variabel kategori menurut definisi tidak dapat menghasilkan rata-rata, dan dengan demikian bahkan tidak dapat masuk ke variabel pertama langkah-langkah analisis statistik.
Apakah itu benar?
Jawaban:
Korelasi adalah kovarians standar , yaitu kovariansx dan y dibagi dengan standar deviasi x dan y . Izinkan saya menggambarkannya.
Secara longgar, statistik dapat diringkas sebagai model yang cocok untuk data dan menilai seberapa baik model menggambarkan poin data tersebut ( Hasil = Model + Kesalahan ). Salah satu cara untuk melakukannya adalah dengan menghitung jumlah penyimpangan, atau residu (res) dari model:
Banyak perhitungan statistik didasarkan pada ini, termasuk. koefisien korelasi (lihat di bawah).
Berikut ini adalah contoh dataset yang dibuat
R
(residual ditunjukkan sebagai garis merah dan nilainya ditambahkan di sebelahnya):Dengan melihat setiap titik data secara individual dan mengurangi nilainya dari model (misalnya rata-rata; dalam kasus iniSS ):
X=11
danY=5.4
), orang dapat menilai keakuratan model. Bisa dikatakan model tersebut melebih-lebihkan nilai sebenarnya. Namun, ketika menjumlahkan semua penyimpangan dari model, kesalahan total cenderung menjadi nol , nilai-nilai membatalkan satu sama lain karena ada nilai-nilai positif (model meremehkan titik data tertentu) dan nilai-nilai negatif (model melebih-lebihkan data tertentu titik). Untuk mengatasi masalah ini, jumlah penyimpangan dikuadratkan dan sekarang disebut jumlah kuadrat (Untuk kenyamanan, akar kuadrat dari varians sampel dapat diambil, yang dikenal sebagai standar deviasi sampel:
Sekarang, kovarians menilai apakah dua variabel terkait satu sama lain. Nilai positif menunjukkan bahwa ketika satu variabel menyimpang dari rata-rata, variabel lainnya menyimpang dalam arah yang sama.
X
Y
Singkat cerita, ya perasaan Anda benar tapi saya harap jawaban saya dapat memberikan beberapa konteks.
sumber
Anda (hampir) benar. Kovarian (dan karenanya korelasi juga) hanya dapat dihitung antara variabel numerik. Itu termasuk variabel kontinu tetapi juga variabel numerik diskrit.
Variabel kategorikal dapat digunakan untuk menghitung korelasi hanya dengan memberikan kode numerik yang bermanfaat bagi mereka, tetapi ini tidak mungkin untuk mendapatkan keuntungan praktis - mungkin itu bisa berguna untuk beberapa variabel variabel level dua, tetapi alat lain cenderung lebih cocok.
sumber
Sama sekali tidak ada yang salah dengan menghitung korelasi di mana salah satu variabelnya kategorikal. Korelasi positif yang kuat akan menyiratkan bahwa menghidupkan atau mematikan variabel kategori Anda tergantung pada konvensi Anda) menyebabkan peningkatan respons. Misalnya ini bisa terjadi ketika menghitung regresi logistik di mana variabelnya kategorikal: memprediksi kemungkinan serangan jantung mengingat komorbiditas pasien seperti diabetes dan bmi. Dalam hal ini BMI akan memiliki korelasi yang sangat kuat dengan serangan jantung. Akankah Anda menyimpulkan bahwa itu tidak berguna?
sumber