Pertama, saya menghargai bahwa diskusi tentang umumnya memancing penjelasan tentang (yaitu, koefisien determinasi dalam regresi). Masalah yang ingin saya jawab adalah menggeneralisasikan hal itu pada semua contoh korelasi antara dua variabel.
Jadi, saya agak bingung tentang varian yang dibagikan untuk sementara waktu. Saya punya beberapa penjelasan yang ditawarkan tetapi semuanya tampak bermasalah:
Itu hanya istilah lain untuk kovarians. Ini tidak bisa menjadi kasus, karena literatur analisis faktor membedakan antara PCA dan EFA dengan menyatakan bahwa yang terakhir bertanggung jawab untuk varians bersama dan yang pertama tidak (PCA jelas merupakan akuntansi untuk kovarians yang beroperasi melalui matriks kovarians, jadi dibagi varians harus konsep yang berbeda).
Ini adalah koefisien korelasi kuadrat ( ). Lihat:
Ini sedikit lebih masuk akal. Masalahnya di sini adalah menafsirkan bagaimana itu menyiratkan itu varian bersama. Sebagai contoh, satu interpretasi dari 'varians berbagi' adalah . tidak mengurangi itu, atau memang konsep intuitif mudah [ ; yang merupakan objek 4 dimensi].
Tautan di atas keduanya berusaha menjelaskannya melalui diagram Ballentine. Mereka tidak membantu. Pertama, lingkaran berukuran sama (yang tampaknya penting untuk ilustrasi karena beberapa alasan), yang tidak menjelaskan variasi yang tidak sama. Orang bisa berasumsi itu adalah diagram Ballentine untuk variabel standar, maka varians yang sama, dalam hal mana segmen yang tumpang tindih akan menjelaskan kovarians antara dua variabel standar (korelasi). Jadi , bukan .
TL; DR: Penjelasan varian yang dibagikan mengatakan ini:
Dengan mengkuadratkan koefisien, Anda tahu berapa varians, dalam persentase, dua variabel berbagi.
Mengapa demikian?
sumber
Jawaban:
Orang hanya bisa menebak apa yang dimaksud seorang penulis tertentu dengan "varian yang dibagikan". Kita mungkin berharap untuk membatasi kemungkinan dengan mempertimbangkan sifat apa yang dimiliki konsep ini (secara intuitif). Kita tahu bahwa "varians add": varians dari jumlah adalah jumlah dari varian dan ketika dan memiliki nol kovarians. Itu wajar untuk mendefinisikan "varians bersama" dari dengan jumlah yang akan fraksi varians dari jumlah diwakili oleh varian . Ini cukup untuk menyiratkan varians bersama setiap dua variabel acakX+ ε X ε X ε X X X dan harus kuadrat dari koefisien korelasinya.Y
Hasil ini memberi makna pada interpretasi koefisien korelasi kuadrat sebagai "varians bersama": dalam arti yang sesuai, itu benar-benar adalah sebagian kecil dari total varians yang dapat ditugaskan ke satu variabel dalam jumlah.
Detailnya mengikuti.
Prinsip dan implikasinya
Tentu saja jika , "varians bersama" mereka (sebut saja "SV" mulai sekarang) seharusnya 100%. Tetapi bagaimana jika dan hanya versi yang diskalakan atau bergeser satu sama lain? Sebagai contoh, bagaimana jika mewakili suhu kota dalam derajat F dan mewakili suhu dalam derajat C? Saya ingin menyarankan bahwa dalam kasus seperti dan harus masih memiliki 100% SV, sehingga konsep ini akan tetap bermakna terlepas dari bagaimana dan dapat diukur:Y= X Y X Y X X Y X Y
untuk angka apa pun dan angka bukan nol .α , γ β, δ
Prinsip lain mungkin bahwa ketika adalah variabel acak independen , maka varians dapat secara unik didekomposisi menjadi dua bagian non-negatif,ε X X+ε
menyarankan kami mencoba untuk mendefinisikan SV dalam kasus khusus ini sebagai
Karena semua kriteria ini hanya sampai urutan kedua - mereka hanya melibatkan momen pertama dan kedua dari variabel dalam bentuk ekspektasi dan varian - mari kita bersantai persyaratan bahwa dan menjadi independen dan hanya menuntut agar mereka tidak berkorelasi . Ini akan membuat analisis jauh lebih umum daripada yang seharusnya.X ε
Hasil
Prinsip-prinsip ini - jika Anda menerimanya - mengarah pada konsep yang unik, akrab, dan dapat ditafsirkan. Caranya adalah dengan mengurangi kasus umum ke kasus khusus dari jumlah, di mana kita dapat menerapkan definisi .(2)
Mengingat , kami hanya mencoba untuk menguraikan menjadi versi diskalakan dan bergeser ditambah variabel yang tidak berkorelasi dengan : yaitu, mari cari (jika mungkin) konstanta dan dan variabel acak untuk itu(X,Y) Y X X α β ϵ
dengan . Agar dekomposisi memiliki peluang untuk menjadi unik, kita harus menuntutCov(X,ε)=0
sehingga setelah ditemukan, ditentukan olehβ α
Ini terlihat sangat mengerikan seperti regresi linier dan memang begitu. Prinsip pertama mengatakan kita dapat mengubah skala dan untuk memiliki varian unit (dengan asumsi mereka masing-masing memiliki varian nol) dan bahwa ketika dilakukan, hasil regresi standar menyatakan nilai dalam adalah korelasi dan :X Y β (3) X Y
Selain itu, mengambil varian dari memberi(1)
menyiratkan
Karena itu
Perhatikan bahwa karena koefisien regresi pada (ketika dibakukan untuk varians unit) adalah , "varian bersama" itu sendiri simetris, membenarkan terminologi yang menyarankan urutan dan tidak masalah:Y ρ(Y,X)=ρ(X,Y) X Y
sumber