Hal seperti korelasi tertimbang?

14

Saya memiliki beberapa data menarik tentang artis-artis musik paling populer yang dialirkan dibagi berdasarkan lokasi ke sekitar 200 distrik kongres. Saya ingin melihat apakah mungkin untuk polling seseorang pada preferensi musiknya dan menentukan apakah dia "mendengarkan seperti seorang Demokrat" atau "mendengarkan seperti seorang Republikan." (Tentu ini adalah hati yang ringan, tetapi ada entropi nyata dalam data!)

Saya memiliki data sekitar 100 artis, ditambah persentase suara rata-rata untuk Partai Republik dan Demokrat di setiap distrik selama tiga siklus pemilu terakhir. Jadi saya menjalankan korelasi pada masing-masing artis untuk melihat mana yang paling tidak proporsional - sebagai fungsi pembagian suara untuk Demokrat. Korelasi-korelasi tersebut berkisar dari -0,3 hingga 0,3 untuk setiap artis tertentu, dengan banyak di tengah yang memiliki sedikit atau tidak ada kekuatan prediksi.

Saya punya dua pertanyaan: Pertama, jumlah keseluruhan aliran per kabupaten sangat bervariasi. Saat ini, saya mengkorelasikan persentase semua aliran per distrik yang dimiliki, katakanlah, Beyonce, terhadap persentase suara yang diberikan untuk Demokrat. Tetapi total aliran di satu kabupaten mungkin dalam jutaan, sementara yang lain di 100.000 rendah. Apakah saya perlu mempertimbangkan korelasi untuk memperhitungkan ini?

Kedua, saya ingin tahu bagaimana menggabungkan korelasi ini menjadi tebakan komposit untuk politik pengguna. Katakanlah saya mengambil 20 artis dengan nilai korelatif absolut tertinggi (positif dan negatif), sepuluh di setiap arah, dan polling pengguna pada seberapa banyak dia suka setiap artis. Jadi saya memiliki suara naik atau turun pada setiap artis ditambah korelasi ke politik untuk semua 20 nilai. Apakah ada cara standar untuk menggabungkan korelasi ini ke dalam satu estimasi? (Saya sedang memikirkan sesuatu seperti kuis dialek terkenal NYTimes , di mana ia menggabungkan probabilitas regional untuk 25 pertanyaan menjadi peta panas. Tetapi dalam kasus ini, saya hanya perlu satu nilai tentang bagaimana selera musik Demokrat atau Republik dalam musik.

Terima kasih!

Chris Wilson
sumber

Jawaban:

25

Formula untuk korelasi Pearson tertimbang dapat dengan mudah ditemukan di web , StackOverflow , dan Wikipedia dan diimplementasikan dalam beberapa paket R misalnya psik , atau bobot dan dalam paket statsmodel Python . Ini dihitung seperti korelasi reguler tetapi dengan menggunakan cara tertimbang ,

mX=iwixiiwi,    mY=iwiyiiwi

varian tertimbang ,

sX=iwi(ximX)2iwi,    sY=iwi(yimY)2iwi

dan kovarians tertimbang

sXY=iwi(ximX)(yimY)iwi

memiliki semua ini, Anda dapat dengan mudah menghitung korelasi tertimbang

ρXY=sXYsXsY

Mengenai pertanyaan kedua Anda, seperti yang saya mengerti, Anda akan memiliki data tentang korelasi antara orientasi politik dan preferensi untuk dua puluh seniman dan pengguna jawaban biner tentang pilihannya dan Anda ingin mendapatkan semacam ukuran agregat dari itu.

Mari kita mulai dengan rata-rata korelasi. Ada beberapa metode untuk rata-rata probabilitas , tetapi tampaknya tidak ada begitu banyak pendekatan untuk rata-rata korelasi. Satu hal yang dapat dilakukan adalah menggunakan transformasi z -Fisherz seperti yang dijelaskan pada MathOverflow , yaitu

ρ¯=tanh-1(j=1Ktanh(ρj)K)

Pada dasarnya mengambil garis singgung koefisien korelasi "meratakan" nilai-nilai ekstrim (lihat di bawah) sehingga mereka memiliki pengaruh yang lebih rendah pada estimasi akhir dan membuat distribusi mereka lebih dekat ke normal. Prosedur ini juga dijelaskan oleh Bushman dan Wang (1995) dan Corey, Dunlap dan Burke (1998).

masukkan deskripsi gambar di sini

Selanjutnya, Anda harus memperhatikan bahwa jika r=cHair(X,Y)-r=cHair(-X,Y)=cHair(X,-Y)

Sekarang, mari kita mendefinisikan sebagai korelasi preferensi musik j artis -th beberapa orientasi politik, danrjjxsayajsayajxij=1xij=1

r¯i=tanh1(j=1Ktanh(rjxij)K)

11

Tapi...

Tidakkah Anda berpikir bahwa semua ini adalah kerja keras untuk sesuatu yang pada dasarnya merupakan masalah regresi berganda? Alih-alih semua pembobotan dan rata-rata Anda cukup menggunakan regresi berganda tertimbang (linier atau logistik tergantung jika Anda memprediksi preferensi biner atau menurunkan preferensi di kedua arah) di mana bobot didasarkan pada ukuran sub-sampel. Anda akan menggunakan preferensi musik untuk masing-masing artis sebagai prediktor. Pada akhirnya Anda akan menggunakan preferensi pengguna untuk membuat prediksi. Pendekatan ini lebih sederhana dan lebih elegan secara statistik. Ini juga berlaku relatifAB


Bushman, BJ, & Wang, MC (1995). Prosedur untuk menggabungkan koefisien korelasi sampel dan penghitungan suara untuk mendapatkan estimasi dan interval kepercayaan untuk koefisien korelasi populasi. Buletin Psikologis, 117 (3), 530.

Corey, DM, Dunlap, WP, dan Burke, MJ (1998). Rata-rata Korelasi: Nilai yang Diharapkan dan Bias dalam Kombinasi Pearson rs dan Fisher's z, Jurnal Psikologi Umum, 125 (3), 245-261.

Tim
sumber
Terima kasih! Ini sangat membantu. Akan memberikan hadiah saat tersedia hari ini.
Chris Wilson
@ Tim Bagaimana kovarians tertimbang dihitung dalam kasus di mana xiyi
1
@ Karagaratsch Saya tidak pernah melihat formula seperti itu. Ini memenuhi syarat sebagai pertanyaan yang bagus untuk ditanyakan.
Tim