Apakah dapat diterima untuk menyimpan data, menghitung rata-rata sampah, dan kemudian mendapatkan koefisien korelasi Pearson berdasarkan rata-rata ini? Tampaknya prosedur yang agak mencurigakan bagi saya dalam hal itu (jika Anda menganggap data sebagai sampel populasi) sebaran rata-rata ini akan menjadi kesalahan standar rata-rata dan karenanya sangat ketat jika besar. Jadi Anda mungkin akan mendapatkan koefisien korelasi yang jauh lebih baik daripada dari data primer, dan itu keliru. Di sisi lain, orang sering rata-rata mereplikasi pengukuran sebelum perhitungan korelasi yang tidak jauh berbeda.
correlation
binning
James
sumber
sumber
Jawaban:
Tidak persis sama dengan pertanyaan Anda, tetapi pada catatan terkait, saya ingat pernah membaca sebuah artikel beberapa waktu yang lalu (baik The American Statistician atau majalah Chance, sekitar tahun 2000 dan 2003) yang menunjukkan bahwa untuk setiap dataset dari 2 variabel di mana mereka cukup banyak tidak berkorelasi Anda dapat menemukan cara untuk bin variabel "prediktor", kemudian mengambil rata-rata variabel respon dalam setiap bin dan tergantung pada bagaimana Anda melakukan binning menunjukkan hubungan positif atau hubungan negatif dalam tabel atau plot sederhana.
sumber
Mari kita perhatikan dua variabel ( , ). Ketika Anda mengatakan bin data, dan Anda "bin" pada , maksud Anda mengulangi pengukuran untuk sama untuk mendapatkan nilai sesuai ? Jika Anda mengulangi pengukuran seperti ini, maka kesalahan rata-rata akan berkurang dengan , dan saya pikir Anda bebas melakukan apa pun yang Anda inginkan dengannya. Pastikan Anda menggunakan koefisien korelasi tertimbang jika Anda mempertimbangkan titik data dengan bilah galat yang sangat berbeda.Xi Yi Xi Xi Y′i n−−√
Sekarang katakanlah Anda tidak mengulangi pengukuran , tetapi sebaliknya mempertimbangkan dan yang sesuai dan -binning pada dan mendapatkan nilai yang disimpan di dalam . Saya pikir dalam situasi ini solusinya akan tergantung pada hubungan antara ukuran tempat sampah, kesalahan pada pengukuran, dan kemiringan korelasi. Saya berharap bahwa jika dan kecil, situasinya akan sama dengan paragraf sebelumnya. Kalau tidak, mungkin menguntungkan untuk bin atau tidak; itu akan mengubah hasil karena cov ( ,Xi Xi±δ Yi±δ′ δ δ δ δ´ Xi,bin Yi,bin ) akan berbeda dari nilai - nilai yang tidak dicentang, tapi saya pikir itu masih berlaku untuk melakukannya. Saya pikir Anda tidak melanggar asumsi apa pun; Saya hanya akan memastikan itu menguntungkan untuk melakukannya, dan saya akan menguji signifikansinya melalui uji permutasi (untuk menghindari membuat asumsi pada distribusi koefisien).
sumber
Alasan utama untuk bin data adalah untuk memungkinkan kemungkinan hubungan nonlinear antara variabel. Korelasi Pearson mengukur kekuatan hubungan linier , sehingga tidak berfungsi dengan baik ketika hubungannya tidak linier.
Jelas ada banyak cara yang lebih baik untuk menangani masalah ini daripada binning. Misalnya, Anda mungkin cocok dengan model regresi nonlinier atau lokal dan mengkorelasikan nilai respons yang diprediksi dan yang sebenarnya (meskipun ini mengasumsikan bahwa pendekatan respons-prediktor valid, sedangkan korelasinya simetris). Binning hanyalah cara memecahkan masalah nonlinier yang mungkin digunakan orang tanpa latar belakang statistik atau alat statistik.
sumber