Mengapa antara dua variabel mewakili proporsi varian bersama?

8

Pertama, saya menghargai bahwa diskusi tentang umumnya memancing penjelasan tentang (yaitu, koefisien determinasi dalam regresi). Masalah yang ingin saya jawab adalah menggeneralisasikan hal itu pada semua contoh korelasi antara dua variabel.r2R2

Jadi, saya agak bingung tentang varian yang dibagikan untuk sementara waktu. Saya punya beberapa penjelasan yang ditawarkan tetapi semuanya tampak bermasalah:

  1. Itu hanya istilah lain untuk kovarians. Ini tidak bisa menjadi kasus, karena literatur analisis faktor membedakan antara PCA dan EFA dengan menyatakan bahwa yang terakhir bertanggung jawab untuk varians bersama dan yang pertama tidak (PCA jelas merupakan akuntansi untuk kovarians yang beroperasi melalui matriks kovarians, jadi dibagi varians harus konsep yang berbeda).

  2. Ini adalah koefisien korelasi kuadrat ( ). Lihat:r2

Ini sedikit lebih masuk akal. Masalahnya di sini adalah menafsirkan bagaimana itu menyiratkan itu varian bersama. Sebagai contoh, satu interpretasi dari 'varians berbagi' adalah . tidak mengurangi itu, atau memang konsep intuitif mudah [ ; yang merupakan objek 4 dimensi].cov(A,B)/[var(A)+var(B)]r2cov(A,B)2/(var(A)×var(B))

Tautan di atas keduanya berusaha menjelaskannya melalui diagram Ballentine. Mereka tidak membantu. Pertama, lingkaran berukuran sama (yang tampaknya penting untuk ilustrasi karena beberapa alasan), yang tidak menjelaskan variasi yang tidak sama. Orang bisa berasumsi itu adalah diagram Ballentine untuk variabel standar, maka varians yang sama, dalam hal mana segmen yang tumpang tindih akan menjelaskan kovarians antara dua variabel standar (korelasi). Jadi , bukan .rr2

TL; DR: Penjelasan varian yang dibagikan mengatakan ini:

Dengan mengkuadratkan koefisien, Anda tahu berapa varians, dalam persentase, dua variabel berbagi.

Mengapa demikian?

Sue Doh Nimh
sumber
1
Kedua poin ("kovarian" dan "r-kuadrat") adalah interpretasi yang benar. Saya merekomendasikan Anda ini jawaban saya: adalah produk dari dua besaran relatif dari kovarians, dan merupakan probabilitas gabungan semu. r2
ttnphns
1
Dalam EFA, mereka biasanya mengatakan "varian umum", bukan "varian bersama". Varians umum adalah bidang kolinearitas total. Di sisi lain, istilah "varians bersama" tidak cukup jelas (pertanyaan Anda adalah bagaimana mendefinisikannya).
ttnphns
1
Diagram Venn (Ballentine) gagal menghubungkan konsep karena magnitudo kovarians bukanlah area persimpangan dari dua lingkaran (varian). Kovarian bergantung pada kedua varian. Ukuran kovarians bisa lebih besar dari ukuran varians yang lebih kecil (yang tentu saja tidak mungkin ditampilkan di Venn melalui persimpangan). r2
ttnphns
1
Itu membawa kita kembali ke definisi sebagai . Jadi, jika situasinya homoseksual, Anda dapat melihat sendiri dengan mudah ...r21SSresid/SStot
ttnphns
1
Kovarian adalah "varian yang dibagikan", besarnya mentah jika. Dinormalisasi dengan besaran relatif, bisa dari dua versi, r dan r-sq. r-sq dapat diartikan sebagai% dari varians bersama dalam varians gabungan.
ttnphns

Jawaban:

3

Orang hanya bisa menebak apa yang dimaksud seorang penulis tertentu dengan "varian yang dibagikan". Kita mungkin berharap untuk membatasi kemungkinan dengan mempertimbangkan sifat apa yang dimiliki konsep ini (secara intuitif). Kita tahu bahwa "varians add": varians dari jumlah adalah jumlah dari varian dan ketika dan memiliki nol kovarians. Itu wajar untuk mendefinisikan "varians bersama" dari dengan jumlah yang akan fraksi varians dari jumlah diwakili oleh varian . Ini cukup untuk menyiratkan varians bersama setiap dua variabel acakX+εXεXεXXXdan harus kuadrat dari koefisien korelasinya.Y

Hasil ini memberi makna pada interpretasi koefisien korelasi kuadrat sebagai "varians bersama": dalam arti yang sesuai, itu benar-benar adalah sebagian kecil dari total varians yang dapat ditugaskan ke satu variabel dalam jumlah.

Detailnya mengikuti.

Prinsip dan implikasinya

Tentu saja jika , "varians bersama" mereka (sebut saja "SV" mulai sekarang) seharusnya 100%. Tetapi bagaimana jika dan hanya versi yang diskalakan atau bergeser satu sama lain? Sebagai contoh, bagaimana jika mewakili suhu kota dalam derajat F dan mewakili suhu dalam derajat C? Saya ingin menyarankan bahwa dalam kasus seperti dan harus masih memiliki 100% SV, sehingga konsep ini akan tetap bermakna terlepas dari bagaimana dan dapat diukur:Y=XYXYXXYXY

(1)SV(α+βX,γ+δY)=SV(X,Y)

untuk angka apa pun dan angka bukan nol .α,γβ,δ

Prinsip lain mungkin bahwa ketika adalah variabel acak independen , maka varians dapat secara unik didekomposisi menjadi dua bagian non-negatif,εXX+ε

Var(X+ε)=Var(X)+Var(ε),

menyarankan kami mencoba untuk mendefinisikan SV dalam kasus khusus ini sebagai

(2)SV(X,X+ε)=Var(X)Var(X)+Var(ϵ).

Karena semua kriteria ini hanya sampai urutan kedua - mereka hanya melibatkan momen pertama dan kedua dari variabel dalam bentuk ekspektasi dan varian - mari kita bersantai persyaratan bahwa dan menjadi independen dan hanya menuntut agar mereka tidak berkorelasi . Ini akan membuat analisis jauh lebih umum daripada yang seharusnya.Xε

Hasil

Prinsip-prinsip ini - jika Anda menerimanya - mengarah pada konsep yang unik, akrab, dan dapat ditafsirkan. Caranya adalah dengan mengurangi kasus umum ke kasus khusus dari jumlah, di mana kita dapat menerapkan definisi .(2)

Mengingat , kami hanya mencoba untuk menguraikan menjadi versi diskalakan dan bergeser ditambah variabel yang tidak berkorelasi dengan : yaitu, mari cari (jika mungkin) konstanta dan dan variabel acak untuk itu(X,Y)YXXαβϵ

(3)Y=α+βX+ε

dengan . Agar dekomposisi memiliki peluang untuk menjadi unik, kita harus menuntutCov(X,ε)=0

E[ε]=0

sehingga setelah ditemukan, ditentukan olehβα

α=E[Y]βE[X].

Ini terlihat sangat mengerikan seperti regresi linier dan memang begitu. Prinsip pertama mengatakan kita dapat mengubah skala dan untuk memiliki varian unit (dengan asumsi mereka masing-masing memiliki varian nol) dan bahwa ketika dilakukan, hasil regresi standar menyatakan nilai dalam adalah korelasi dan :XYβ(3)XY

(4)β=ρ(X,Y).

Selain itu, mengambil varian dari memberi(1)

1=Var(Y)=β2Var(X)+Var(ε)=β2+Var(ε),

menyiratkan

(5)Var(ε)=1β2=1ρ2.

Karena itu

SV(X,Y)=SV(X,α+βX+ε)(Model 3)=SV(βX,βX+ε)(Property 1)=Var(βX)Var(βX)+Var(ϵ)(Definition 2)=β2β2+(1β2)=β2(Result 5)=ρ2(Relation 4).

Perhatikan bahwa karena koefisien regresi pada (ketika dibakukan untuk varians unit) adalah , "varian bersama" itu sendiri simetris, membenarkan terminologi yang menyarankan urutan dan tidak masalah:Yρ(Y,X)=ρ(X,Y)XY

SV(X,Y)=ρ(X,Y)2=ρ(Y,X)2=SV(Y,X).
whuber
sumber