Saya melatih jaringan saraf tiruan (backpropagation, feed-forward) dengan data terdistribusi tidak normal. Selain kesalahan rata-rata kuadrat akar, literatur sering menyarankan koefisien korelasi Pearson untuk mengevaluasi kualitas jaring yang dilatih. Tetapi, apakah koefisien korelasi Pearson masuk akal, jika data pelatihan tidak terdistribusi secara normal? Bukankah lebih masuk akal untuk menggunakan ukuran korelasi berbasis peringkat, misalnya Spearman rho?
9
Jawaban:
Koefisien korelasi Pearson mengukur hubungan linier. Didasarkan pada momen sentral kedua empiris, ia dipengaruhi oleh nilai-nilai ekstrem. Karena itu:
Bukti nonlinier di sebar nilai aktual-vs-prediksi akan menyarankan menggunakan alternatif seperti koefisien korelasi peringkat (Spearman);
Jika hubungan terlihat rata-rata monoton (seperti pada baris atas dari ilustrasi), koefisien korelasi peringkat akan efektif;
Kalau tidak, hubungannya adalah curvilinear (seperti dalam beberapa contoh dari baris bawah ilustrasi, seperti yang paling kiri atau yang berbentuk u tengah) dan kemungkinan ukuran korelasi akan menjadi deskripsi yang tidak memadai; menggunakan koefisien korelasi peringkat tidak akan memperbaikinya.
Kehadiran data outlying di scatterplot menunjukkan koefisien korelasi Pearson mungkin melebih-lebihkan kekuatan hubungan linier. Itu mungkin atau mungkin tidak benar; gunakan dengan hati-hati. Koefisien korelasi peringkat mungkin atau mungkin tidak lebih baik, tergantung pada seberapa dapat dipercaya nilai-nilai yang ada.
(Gambar disalin dari artikel Wikipedia tentang koefisien korelasi momen-produk Pearson .)
sumber