Intuisi tentang definisi kovarians

11

Saya mencoba memahami Kovarian dua variabel acak dengan lebih baik dan memahami bagaimana orang pertama yang memikirkannya, sampai pada definisi yang secara rutin digunakan dalam statistik. Saya pergi ke wikipedia untuk memahaminya dengan lebih baik. Dari artikel tersebut, tampaknya ukuran atau kuantitas kandidat yang baik untuk harus memiliki properti berikut:Cov(X,Y)

  1. Haruskah ia memiliki tanda positif ketika dua variabel acak serupa (yaitu ketika satu meningkatkan yang lain lakukan dan ketika satu menurun yang lain juga).
  2. Kami juga ingin itu memiliki tanda negatif ketika dua variabel acak sangat mirip (yaitu ketika satu meningkatkan variabel acak lainnya cenderung menurun)
  3. Terakhir, kami ingin jumlah kovarian ini menjadi nol (atau mungkin sangat kecil?) Ketika kedua variabel saling independen (yaitu mereka tidak saling berbeda dalam hal yang saling berkaitan).

Dari properti di atas, kami ingin mendefinisikan . Pertanyaan pertama saya adalah, tidak sepenuhnya jelas bagi saya mengapa memenuhi sifat-sifat tersebut. Dari sifat-sifat yang kita miliki, saya akan mengharapkan lebih dari persamaan "turunan" menjadi kandidat yang ideal. Misalnya, sesuatu yang lebih seperti, "jika perubahan X positif, maka perubahan Y juga harus positif". Juga, mengapa mengambil perbedaan dari rata-rata hal yang "benar" untuk dilakukan?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]Cov(X,Y)Cov(X,Y)=E[(XE[X])(YE[Y])]

Sebuah pertanyaan yang lebih tangensial, tetapi masih menarik, adakah definisi yang berbeda yang bisa memuaskan sifat-sifat itu dan masih akan bermakna dan bermanfaat? Saya menanyakan hal ini karena tampaknya tidak ada yang mempertanyakan mengapa kita menggunakan definisi ini di tempat pertama (rasanya seperti, "selalu seperti ini", yang menurut saya, adalah alasan yang mengerikan dan itu menghalangi ilmiah dan rasa ingin tahu dan pemikiran matematis). Apakah definisi yang diterima adalah definisi "terbaik" yang bisa kita miliki?


Ini adalah pemikiran saya tentang mengapa definisi yang diterima masuk akal (hanya akan menjadi argumen intuitif):

Biarkan menjadi beberapa perbedaan untuk variabel X (yaitu berubah dari beberapa nilai ke beberapa nilai lain pada suatu waktu). Demikian pula untuk define .Δ YΔXΔY

Untuk satu contoh waktu, kita dapat menghitung apakah mereka terkait atau tidak dengan melakukan:

sign(ΔXΔY)

Ini agak bagus! Untuk satu contoh waktu, itu memenuhi properti yang kita inginkan. Jika keduanya meningkat bersama, maka sebagian besar waktu, jumlah di atas harus positif (dan sama ketika mereka sangat mirip, itu akan negatif, karena akan memiliki tanda yang berlawanan).Delta

Tapi itu hanya memberi kita jumlah yang kita inginkan untuk satu contoh dalam waktu, dan karena mereka rv kita mungkin overfit jika kita memutuskan untuk mendasarkan hubungan dua variabel berdasarkan hanya pada 1 pengamatan. Lalu mengapa tidak mengambil harapan ini untuk melihat produk perbedaan "rata-rata".

sign(E[ΔXΔY])

Yang seharusnya menangkap rata-rata apa hubungan rata-rata seperti yang didefinisikan di atas! Tetapi satu-satunya masalah yang dimiliki penjelasan ini adalah, dari mana kita mengukur perbedaan ini? Yang tampaknya ditangani dengan mengukur perbedaan ini dari rata-rata (yang karena beberapa alasan adalah hal yang benar untuk dilakukan).

Saya kira masalah utama yang saya miliki dengan definisi adalah mengambil perbedaan dari rata-rata . Saya belum bisa membenarkan hal itu pada diri saya sendiri.


Penafsiran untuk tanda dapat dibiarkan untuk pertanyaan yang berbeda, karena tampaknya menjadi topik yang lebih rumit.

Charlie Parker
sumber
2
Titik paling awal mungkin konsep atau intuisi dari produk-silang (kovarians hanyalah perpanjangan dari itu). Jika kita memiliki dua seri angka X dan Y dengan panjang yang sama, dan kita mendefinisikan produk silang yang dijumlahkan sebagai Sum (Xi * Yi), maka dimaksimalkan jika kedua seri diurutkan dalam urutan yang sama, dan diminimalkan jika satu seri diurutkan naik dan yang lainnya turun.
ttnphns
Perbedaan dari rata-rata bukanlah masalah mendasar. Hanya besarnya yang penting, perbedaan dari asalnya; untuk beberapa alasan, wajar dan nyaman untuk menempatkan asal ke dalam rata-rata.
ttnphns
@ttnphns Anda mengatakan bahwa jika mereka kovari bersama maka kovarians harus "dimaksimalkan" dan jika mereka kovari berlawanan itu harus negatif karena bisa? (Yaitu diminimalkan) Mengapa tidak didefinisikan kemudian sebagai harapan dari produk-silang?
Charlie Parker
Kovarian adalah variabel alami untuk tanpa asal asalnya. Kami kemudian menghitung mean sebagai asal (berarti memiliki sifat bagus yang tidak berkaitan dengan tema asosiasi, sehingga biasanya dipilih). Jika asal adalah inheren dan bermakna, masuk akal untuk tetap padanya, maka "kovarians" (co-outburst) tidak akan simetris, tetapi siapa yang peduli?
ttnphns
1
Jawaban ini memberikan intuisi yang sangat bagus berkaitan dengan kovarian.
Glen_b -Reinstate Monica

Jawaban:

10

Bayangkan kita mulai dengan tumpukan angka yang kosong. Kemudian kita mulai menggambar pasangan dari distribusi bersama mereka. Satu dari empat hal dapat terjadi:(X,Y)

  1. Jika kedua X dan Y lebih besar dari rata-rata masing-masing, kami katakan pasangannya serupa dan karenanya kami menempatkan angka positif ke tumpukan.
  2. Jika kedua X dan Y lebih kecil dari rata-rata masing-masing, kami katakan pasangan serupa dan menempatkan angka positif ke tumpukan.
  3. Jika X lebih besar dari rata-rata dan Y lebih kecil dari rata-rata, kami katakan pasangan berbeda dan memasukkan angka negatif ke tumpukan.
  4. Jika X lebih kecil dari rata-rata dan Y lebih besar dari rata-rata, kami katakan pasangan berbeda dan memasukkan angka negatif ke tumpukan.

Kemudian, untuk mendapatkan ukuran keseluruhan dari kemiripan (dis-) X dan Y kita menjumlahkan semua nilai angka pada stack. Jumlah positif menunjukkan variabel bergerak ke arah yang sama pada saat yang sama. Jumlah negatif menunjukkan variabel bergerak dalam arah yang berlawanan lebih sering daripada tidak. Jumlah nol menunjukkan mengetahui arah dari satu variabel tidak memberi tahu Anda banyak tentang arah yang lain.

Sangat penting untuk memikirkan 'lebih besar dari rata-rata' daripada hanya 'besar' (atau 'positif') karena dua variabel non-negatif kemudian akan dinilai sama (misalnya ukuran kecelakaan mobil berikutnya pada M42 dan jumlah tiket yang dibeli di stasiun kereta Paddington besok).

Formula kovarian adalah formalisasi dari proses ini:

Cov(X,Y)=E[(XE[X])(YE[Y])]

Menggunakan distribusi probabilitas daripada simulasi monte carlo dan menentukan ukuran angka yang kita masukkan ke stack.

dugaan
sumber
Wow, ini jawaban yang sangat bagus. Hanya satu hal terakhir, apakah Anda keberatan menambahkan rincian lebih lanjut tentang alasan mengapa itu harus menjadi perbedaan dari rata - rata ? Kenapa tidak nilai lain? Mengapa itu masuk akal? Saya pikir itulah hal utama yang membuat saya terjebak tentang sepenuhnya menginternalisasi definisi ini. Terima kasih btw!
Charlie Parker
Terima kasih. Misalkan ada dua truk besar di dua negara yang berbeda. Sekarang truk besar cenderung mengangkut muatan besar. Jika kami menambahkan angka positif ke tumpukan setiap kali setiap truk mengangkut muatan besar, pada akhirnya kami harus mengatakan bahwa perilaku kedua truk itu sangat mirip. Tetapi sebenarnya ukuran beban yang diangkut oleh satu truk tidak terkait dengan ukuran beban yang diangkut oleh truk lain pada waktu tertentu. Mereka berdua menjadi truk besar. Jadi ukuran kesamaan kita tidak akan berguna. Itu sebabnya kita harus memikirkan 'lebih besar dari rata-rata'.
Dugaan
Maaf ini agak terlambat, tetapi saya memutuskan untuk mengulas topik ini dan saya masih memiliki pertanyaan tentang mengapa perbedaannya dari rata-rata. Apakah perbedaan dari masing-masing sarana penting karena setiap variabel acak X dan Y mungkin berasal dari skala yang berbeda? yaitu Untuk memiliki rasa apa "besar" itu, berbeda tergantung pada skala dasar apa mereka. Jadi untuk mengatasi masalah skala ini kita membandingkannya dengan cara masing-masing?
Charlie Parker
1

Inilah cara intuitif saya dalam memandangnya tanpa persamaan apa pun.

  1. Ini merupakan generalisasi dari varian ke dimensi yang lebih tinggi. Motivasi mungkin berasal dari mencoba menggambarkan bagaimana data berperilaku. Untuk urutan pertama, kami memiliki lokasi - maksudnya. Untuk urutan kedua, kita memiliki hamburan - kovarian.

    Saya kira masalah utama yang saya miliki dengan definisi adalah mengambil perbedaan dari rata-rata. Saya belum bisa membenarkan hal itu pada diri saya sendiri.

    sebaran dievaluasi relatif terhadap pusat distribusi. Definisi paling mendasar dari varian adalah 'penyimpangan rata-rata dari mean'. karenanya, Anda harus mengurangi mean juga dalam kasus Kovarian.

  2. Motivasi utama lain yang terlintas dalam pikiran adalah kebutuhan untuk mendefinisikan cara untuk mengukur jarak antara variabel acak. Jarak Mahalanobis dan Kovarian berjalan beriringan: Diberikan distribusi Gaussian dan dua sampel lain yang memiliki jarak Euclidean yang sama dengan rata-rata distribusi. Jika saya akan bertanya kepada Anda sampel mana yang lebih cenderung menjadi pencilan yang tidak diambil dari distribusi gaussian, jarak Euclidean tidak akan dilakukan. Jarak Mahalanobis memiliki satu perbedaan penting dari jarak Euclidean: ia memperhitungkan penyebaran (Covariance) dari distribusi. Ini memungkinkan Anda untuk menyamaratakan jarak ke variabel acak.

radar
sumber
1
  1. Terakhir, kami ingin jumlah kovarian ini menjadi nol (atau mungkin sangat kecil?) Ketika kedua variabel saling independen (yaitu mereka tidak saling berbeda dalam hal yang saling berkaitan).

(12)XYE[XY]E[XY]=14X^=1000XY^=1000YE[X^Y^]=250,000(X,Y)=E[(X-E[X])(Y-E[Y])]

  1. Kami juga ingin itu memiliki tanda negatif ketika dua variabel acak sangat mirip (yaitu ketika satu meningkatkan variabel acak lainnya cenderung menurun)

XY=1-XE[XY]=0(X,Y)=E[(X-E[X])(Y-E[Y])]

  1. Seharusnya (sic) memiliki tanda positif ketika dua variabel acak serupa (yaitu ketika satu meningkatkan yang lain lakukan dan ketika satu menurun yang lain juga).

XY=X-1E[XY](X,Y)=E[(X-E[X])(Y-E[Y])] memberikan nilai positif seperti yang Anda inginkan.

X=Y

Dilip Sarwate
sumber
1

Saya bertanya-tanya tentang pertanyaan yang sama, dan intuisi yang diberikan oleh dugaan membantu saya. Untuk memvisualisasikan intuisi, saya mengambil dua vektor normal acak, x dan y, diplot plot sebaran dan warna setiap titik dengan produk penyimpangan mereka dari masing-masing berarti (biru untuk nilai positif, merah untuk negatif).

Seperti yang jelas dari plot, produk paling positif di kuadran kanan atas dan kiri bawah, sedangkan yang paling negatif di kuadran kanan bawah dan kiri atas. Efek menjumlahkan produk akan menghasilkan 0, karena titik biru membatalkan yang merah.

Tetapi Anda dapat melihat bahwa jika kami menghapus titik merah, data yang tersisa menunjukkan hubungan positif satu sama lain, yang divalidasi oleh jumlah positif produk (yaitu jumlah dari titik biru).

masukkan deskripsi gambar di sini

charleslow
sumber
0

dalam ruang vektor variabel acak, adalah wajar untuk mendefinisikan kuadrat jarak antara dua variabel acak x dan y dengan E {(xy) ^ 2} sekarang sehubungan dengan definisi produk dot jarak ini atau hubungan variabel acak akan menjadi E {xy} yang sangat mirip dengan definisi kovarians kecuali istilah -E {x} dan -E {y} yang merupakan jenis normalisasi.

nima
sumber