Rata-rata nilai korelasi

20

Katakanlah saya menguji bagaimana variabel Ybergantung pada variabel Xdalam kondisi eksperimental yang berbeda dan mendapatkan grafik berikut:

masukkan deskripsi gambar di sini

Garis putus-putus pada grafik di atas menunjukkan regresi linier untuk setiap seri data (pengaturan eksperimental) dan angka-angka dalam legenda menunjukkan korelasi Pearson dari setiap seri data.

Saya ingin menghitung "korelasi rata-rata" (atau "korelasi rata-rata") antara Xdan Y. Bolehkah saya hanya rnilai rata-rata ? Bagaimana dengan "kriteria penentuan rata-rata", ? Haruskah saya menghitung rata-rata dan daripada mengambil kuadrat dari nilai itu atau haruskah saya menghitung rata-rata masing-masing ?R2rR2

Boris Gorelik
sumber

Jawaban:

15

Cara sederhananya adalah dengan menambahkan variabel kategorikal untuk mengidentifikasi kondisi eksperimental yang berbeda dan memasukkannya ke dalam model Anda bersama dengan "interaksi" dengan ; yaitu, . Ini melakukan semua lima regresi sekaligus. Its adalah apa yang Anda inginkan.x y z + x # z R 2zxyz+x#zR2

Untuk melihat mengapa rata-rata nilai individu mungkin salah, misalkan arah kemiringan dibalik dalam beberapa kondisi eksperimental. Anda akan rata-rata sekelompok 1 dan -1 di sekitar 0, yang tidak akan mencerminkan kualitas dari setiap cocok. Untuk melihat mengapa rata-rata (atau transformasi tetapnya) tidak benar, anggaplah bahwa dalam sebagian besar kondisi eksperimental Anda hanya memiliki dua pengamatan, sehingga semuanya sama dengan , tetapi dalam satu percobaan Anda memiliki seratus pengamatan dengan . Rata-rata dari hampir 1 tidak akan mencerminkan situasi dengan benar.R 2 R 2 1 R 2 = 0 R 2RR2R21R2=0R2

whuber
sumber
1
maafkan ketidaktahuan saya, tapi apa arti tanda # dalam jawaban Anda?
Boris Gorelik
1
Saya pikir jawaban Anda sangat bagus untuk definisi tersirat dari korelasi yang digunakan. Bagaimana jika mereka memaknainya sebagai kemiringan standar (mungkin tersirat oleh gambar)? Dalam hal ini Anda ingin negatif dan positif dibatalkan. Anda tidak mengerti tentang masalah ukuran sampel. Juga, pertimbangkan untuk memindahkan komentar Anda ke dalam jawaban Anda.
John
Apakah Anda ingin atau disesuaikan ? R 2R2R2
russellpierce
@whuber di komentar awal Anda di sana, berarti Anda bahwa korelasinya bisa ; yang dalam setiap kasus adalah . (Saya sadar ini hanya masalah pengetikan atau pengeditan; itu tidak mengubah maksud Anda, tetapi mungkin menyesatkan.)R 2 1±1R21
Glen_b -Reinstate Monica
@ rpierce Pada paragraf kedua tidak ada bedanya dengan ide-ide jika Anda menggunakan disesuaikan hanya bayangkan set tiga , daripada dua poin, yang hampir collinear. disesuaikan dapat mendekati mendekati . R 2 1R2R21
whuber
24

Untuk koefisien korelasi Pearson, umumnya sesuai untuk mentransformasikan nilai r menggunakan transformasi Fisher z . Kemudian rata-rata z- nilai dan konversi kembali rata-rata ke nilai r .

Saya membayangkan itu akan baik-baik saja untuk koefisien Spearman juga.

Ini makalah dan entri wikipedia .

Amyunimus
sumber
1
+1; Jawaban ini tampaknya lebih tepat dan umum daripada jawaban yang diterima namun dalam kasus penggunaan tertentu bukankah itu akan berantakan untuk nilai r 1? Apakah sesuatu seperti logit empiris masuk akal di sini di mana orang hanya akan "menambahkan" titik data yang tidak memiliki korelasi? Jika demikian, di mana orang akan menambahkannya? Apakah kita harus melakukan sim monte carlo mengambil dua variabel acak dari distribusi sumber? Atau akankah seseorang hanya menyesuaikan r ke beberapa nilai sedikit kurang dari 1? Sejauh mana seseorang harus menyesuaikan?
russellpierce
3

Korelasi rata-rata bisa bermaknaul. Juga pertimbangkan distribusi korelasi (misalnya, plot histogram).

Tapi seperti yang saya pahami, untuk setiap individu Anda memiliki peringkat item ditambah peringkat yang diprediksi dari item-item untuk individu itu, dan Anda melihat korelasi antara peringkat individu dan yang diprediksi.n

Dalam hal ini, mungkin korelasi itu bukan ukuran terbaik dari seberapa baik algoritma membuat prediksi. Sebagai contoh, bayangkan bahwa algoritma mendapatkan 100 item pertama dengan sempurna dan 200 item berikutnya benar-benar kacau, sebaliknya. Bisa jadi Anda hanya peduli dengan kualitas peringkat teratas. Dalam hal ini, Anda mungkin melihat jumlah dari perbedaan mutlak antara ini individu peringkat dan diprediksi peringkat, tapi hanya di kalangan atas individu item.m

Karl
sumber
1

Bagaimana dengan menggunakan mean squared predict eror (MSPE) untuk kinerja algoritme? Ini adalah pendekatan standar untuk apa yang Anda coba lakukan, jika Anda mencoba membandingkan kinerja prediktif antara satu set algoritma.

StatsStudent
sumber
Saya tidak yakin mengapa postingan ini stats.stackexchange.com/questions/17129/… digabung dengan yang ini. Mereka sebenarnya mengajukan dua pertanyaan berbeda dalam pendapat saya - ada dua tujuan yang berbeda.
StatsStudent
1
Anda benar: itu adalah pertanyaan yang berbeda. Saya telah memilih untuk membuka kembali posting lain (meskipun efek apa yang mungkin terjadi tidak jelas). Saya minta maaf karena tidak melihat komentar Anda: jika Anda telah menandai pos itu, itu akan menjadi perhatian kami beberapa tahun lebih cepat!
whuber