Katakanlah saya menguji bagaimana variabel Y
bergantung pada variabel X
dalam kondisi eksperimental yang berbeda dan mendapatkan grafik berikut:
Garis putus-putus pada grafik di atas menunjukkan regresi linier untuk setiap seri data (pengaturan eksperimental) dan angka-angka dalam legenda menunjukkan korelasi Pearson dari setiap seri data.
Saya ingin menghitung "korelasi rata-rata" (atau "korelasi rata-rata") antara X
dan Y
. Bolehkah saya hanya r
nilai rata-rata ? Bagaimana dengan "kriteria penentuan rata-rata", ? Haruskah saya menghitung rata-rata dan daripada mengambil kuadrat dari nilai itu atau haruskah saya menghitung rata-rata masing-masing ?r
sumber
Untuk koefisien korelasi Pearson, umumnya sesuai untuk mentransformasikan nilai r menggunakan transformasi Fisher z . Kemudian rata-rata z- nilai dan konversi kembali rata-rata ke nilai r .
Saya membayangkan itu akan baik-baik saja untuk koefisien Spearman juga.
Ini makalah dan entri wikipedia .
sumber
Korelasi rata-rata bisa bermaknaul. Juga pertimbangkan distribusi korelasi (misalnya, plot histogram).
Tapi seperti yang saya pahami, untuk setiap individu Anda memiliki peringkat item ditambah peringkat yang diprediksi dari item-item untuk individu itu, dan Anda melihat korelasi antara peringkat individu dan yang diprediksi.n
Dalam hal ini, mungkin korelasi itu bukan ukuran terbaik dari seberapa baik algoritma membuat prediksi. Sebagai contoh, bayangkan bahwa algoritma mendapatkan 100 item pertama dengan sempurna dan 200 item berikutnya benar-benar kacau, sebaliknya. Bisa jadi Anda hanya peduli dengan kualitas peringkat teratas. Dalam hal ini, Anda mungkin melihat jumlah dari perbedaan mutlak antara ini individu peringkat dan diprediksi peringkat, tapi hanya di kalangan atas individu item.m
sumber
Bagaimana dengan menggunakan mean squared predict eror (MSPE) untuk kinerja algoritme? Ini adalah pendekatan standar untuk apa yang Anda coba lakukan, jika Anda mencoba membandingkan kinerja prediktif antara satu set algoritma.
sumber