Saya memiliki dataset dengan variabel dependen dan independen. Keduanya bukan deret waktu. Saya memiliki 120 pengamatan. Koefisien korelasi adalah 0,43
Setelah perhitungan ini, saya telah menambahkan kolom untuk kedua variabel dengan rata-rata untuk setiap 12 pengamatan, menghasilkan 2 kolom baru dengan 108 pengamatan (pasangan). Koefisien korelasi kolom-kolom ini adalah 0,77
Sepertinya saya memperbaiki korelasinya dengan cara ini. Apakah ini boleh dilakukan? Apakah saya meningkatkan kekuatan penjelasan variabel independen dengan menggunakan rata-rata?
regression
correlation
mean
predictor
cross-section
pengguna2165379
sumber
sumber
Jawaban:
Mari kita lihat dua vektor, yang pertama
dan vektor kedua adalah
Menghitung korelasi Pearson yang akan Anda dapatkan
Namun jika Anda mengambil rata-rata pasangan berturut-turut untuk nilai-nilai kedua vektor identik. Vektor identik memiliki korelasi 1.
Contoh sederhana ini menggambarkan kelemahan metode Anda.
Sunting : Untuk menjelaskannya secara lebih umum: Koefisien korelasi dihitung dengan cara berikut.
sumber
Rata-rata bisa menarik atau nyaman. Ini juga bisa menjadi sumber penipuan, penipuan paling buruk, jadi selangkah hati-hati bahkan ketika ada alasan yang jelas untuk rata-rata.
Ada beberapa situasi di mana rata-rata bisa masuk akal. Misalnya, jika variasi musiman sedikit atau tidak ada minat, maka rata-rata ke nilai tahunan membuat dataset berkurang di mana Anda bisa fokus pada nilai-nilai tahunan tersebut.
Dalam berbagai bidang, para peneliti dapat tertarik pada korelasi pada skala yang sangat berbeda, misalnya antara pengangguran dan kejahatan untuk individu, kabupaten, negara bagian, negara (menggantikan istilah apa pun yang paling masuk akal).
Minat, dan sering juga merupakan sumber utama masalah inferensi, adalah dalam menafsirkan apa yang terjadi pada skala atau tingkat yang berbeda. Misalnya, korelasi yang tinggi antara tingkat pengangguran dan tingkat kejahatan untuk daerah tidak selalu berarti bahwa pengangguran memiliki kecenderungan lebih tinggi untuk menjadi penjahat; Anda perlu data tentang individu untuk menjelaskan hal itu. Penyediaan data dapat menjadi canggung secara maksimal karena data hanya tersedia pada skala yang paling tidak menarik, mungkin karena masalah ekonomi atau kerahasiaan.
Saya perhatikan juga bahwa banyak pengukuran berada di tempat pertama sering rata-rata selama interval waktu kecil dan / atau interval ruang kecil, sehingga data sering tiba rata-rata dalam hal apa pun.
sumber