Mengambil korelasi sebelum atau sesudah transformasi log variabel

9

Apakah ada prinsip umum tentang apakah seseorang harus menghitung korelasi pearson untuk dua variabel acak X dan Y sebelum mengambil transformasi log atau setelahnya? Apakah ada prosedur untuk menguji mana yang lebih tepat? Mereka menghasilkan nilai yang sama tetapi berbeda, karena transformasi log adalah non-linear. Apakah ini tergantung pada apakah X atau Y lebih dekat dengan normalitas setelah log? Jika demikian, mengapa itu penting? Dan apakah itu berarti bahwa seseorang harus melakukan uji normalitas pada X dan Y terhadap log (X) dan log (Y) dan berdasarkan pada itu memutuskan apakah pearson (x, y) lebih tepat daripada pearson (log (x), log ( y))?

user9097
sumber
@vinux memiliki jawaban yang bagus, dan menyediakan tautan informatif untuk memahami peran normal dalam korelasi. Saya hanya ingin menunjukkan pertanyaan ini: stats.stackexchange.com/questions/298 yang sangat baik untuk memahami apa yang dilakukan log dalam regresi.
gung - Reinstate Monica

Jawaban:

5

catatan(X)catatan(Y)XYρSρS(X,Y)=ρS(catatan(X),catatan(Y))

Kavka
sumber
4

Korelasi (pearson) mengukur hubungan linear antara dua variabel kontinu. Tidak ada pilihan untuk (X, Y) atau (log X, log Y). Plot sebar dari variabel dapat digunakan untuk memahami hubungan.

Tautan berikut dapat menjawab tentang masalah normalitas. tautan

vinux
sumber
-3

Korelasi Pearson adalah untuk pengujian parametrik dan lebih kuat daripada uji non-parametirc. Dengan demikian, kami memilih untuk menggunakan transformasi sebelum prosedur non-parametrik. Ubah data Anda dan dapatkan korelasi pearsons. Itu dia.

abi
sumber
@ abi: Tergantung pada ukuran sampel, koefisien Spearman dan Kendall relatif sama dalam hal kekuatan dan MSE dengan Pearson dengan data yang terdistribusi normal, dan jauh lebih unggul dengan kontaminasi data yang sedikit sekalipun.
Patrick