Menggabungkan dua matriks kovarians

11

Saya menghitung kovarians distribusi secara paralel dan saya perlu menggabungkan hasil yang didistribusikan ke dalam Gaussian tunggal. Bagaimana saya menggabungkan keduanya?

Interpolasi linier antara keduanya hampir berhasil, jika keduanya terdistribusi dan berukuran sama.

Wikipedia menyediakan forumla di bagian bawah untuk kombinasi tetapi tampaknya tidak benar; dua distribusi yang identik harus memiliki kovarians yang sama, tetapi rumus di bagian bawah halaman menggandakan kovarians.

Apakah ada cara untuk menggabungkan dua matriks?

Matt Kemp
sumber
3
Rumus Wikipedia menjawab pertanyaan Anda, Matt: Anda mungkin tidak memperhatikan bahwa itu adalah rumus parsial di mana setelah itu Anda perlu membaginya dengan ukuran sampel.
whuber
1
Saya sudah menemukan jawabannya sekarang, dengan bantuan Anda - jika Anda memasukkan ini ke dalam jawaban, saya akan menandainya sebagai jawaban.
Matt Kemp

Jawaban:

12

Pertanyaan ini banyak muncul dalam berbagai samaran. Yang umum bagi mereka adalah

Bagaimana saya bisa menggabungkan statistik berbasis momen yang telah dihitung dari subset terpisah dari data saya?

Aplikasi paling sederhana menyangkut data yang telah dipecah menjadi dua kelompok. Anda tahu ukuran grup dan artinya grup. Dalam hal empat kuantitas ini saja, apa arti keseluruhan data?

Aplikasi lain menggeneralisasi dari cara ke varians, standar deviasi, matriks kovarian, skewness, dan statistik multivariat; dan mungkin melibatkan beberapa subkelompok data. Perhatikan bahwa banyak dari jumlah ini adalah kombinasi momen yang agak rumit: deviasi standar, misalnya, adalah akar kuadrat dari kombinasi kuadratik dari momen pertama dan kedua (mean dan mean square).

Semua kasus seperti itu mudah ditangani dengan mengurangi berbagai momen menjadi jumlah, karena jumlah jelas dan mudah dikombinasikan: mereka ditambahkan. Secara matematis, ia turun ke ini: Anda memiliki kumpulan datayang telah dipisahkan menjadi kelompok-kelompok terpisah ukuran:. Sebut sajagrup ke-. Menurut definisi,th saat dari setiap batch data yangadalah rata-rataj 1 , j 2 , ... , j g ( x 1 , x 2 , ... , x j 1 ; x j 1 + 1 , ... , x j 1 + j 2 ; x j 1 + j 2 + 1 ,X=(x1,x2,...,xn)j1,j2,...,jgi X ( i ) = ( x j i + 1 , x j i + 2 , ... , x j i + 1 ) k y 1 , , y j k(x1,x2,,xj1;xj1+1,,xj1+j2;xj1+j2+1,;;,xn)iX(i)=(xji+1,xji+2,,xji+1)ky1,,yjkkekuatan th,

μk(y)=(y1k+y2k++yjk)/j.

Jelas adalah jumlah dari kekuatan ke- . Oleh karena itu, mengacu pada dekomposisi kami sebelumnya data ke subkelompok, kita dapat mematahkan sejumlah kekuatan ke dalam kelompok jumlah, memperolehk g njμk(y)kgn

nμk(X)=(x1k+x2k++xnk)=(x1k+x2k++xj1k)++(xj1++jg-1+1k+xj1++jg-1+2k++xnk)=j1μk(X(1))+j2μk(X(2))++jgμk(X(g)).

Dibagi dengan menunjukkan momen ke- dari seluruh batch dalam hal momen ke- dari subkelompoknya.k knkk

Dalam aplikasi ini, entri dalam matriks kovarians, tentu saja, kovarian, yang dapat dinyatakan dalam hal momen multivariat detik dan momen pertama. Bagian penting dari perhitungan adalah sebagai berikut: pada setiap langkah Anda akan berfokus pada dua komponen tertentu dari data multivarian Anda; sebut saja mereka dan . Angka-angka yang Anda lihat ada dalam formuliryxy

((x1,y1),(x2,y2),...,(xn,yn)),

dipecah seperti sebelumnya menjadi kelompok . Untuk setiap grup, Anda mengetahui jumlah rata-rata produk : ini adalah momen multivarian , . Untuk menggabungkan nilai-nilai grup ini, Anda akan mengalikannya dengan ukuran grup, menjumlahkan hasil itu, dan membagi totalnya dengan .gxsayaysaya(1,1)μ(1,1)n

Untuk menerapkan pendekatan ini, Anda perlu berpikir ke depan : tidak mungkin untuk menggabungkan, katakanlah, kovarian jika Anda hanya tahu kovarian dan ukuran subkelompok: Anda juga perlu mengetahui cara subkelompok (karena cara terlibat dalam cara yang penting dalam semua rumus kovarians), atau sesuatu yang secara aljabar direduksi menjadi rata-rata. Anda juga mungkin perlu memperhatikan konstanta yang muncul dalam formula; perangkap utama bagi yang tidak waspada adalah mengacaukan "kovarian sampel" (yang melibatkan sejumlah produk dibagi dengan ) dengan "kovarians populasi" (di mana pembagiannya adalah dengan ). Ini tidak memperkenalkan sesuatu yang baru; Anda hanya perlu ingat untuk melipatgandakan kovarians sampel dengan (atau kelompok kovarians dengann-1nn-1jsaya-1 ) untuk memulihkan jumlah, bukan dengan (atau ).njsaya


Oh, ya: tentang pertanyaan ini. Formula yang diberikan dalam artikel Wikipedia diberikan dalam bentuk sarana kelompok (momen pertama) dan jumlah kelompok produk. Seperti yang saya jelaskan di atas, ini akan digabungkan dengan menambahkannya dan kemudian menyesuaikan hasilnya dengan divisi untuk mendapatkan kovarian. Pembagian akhir oleh tidak ditampilkan.n

whuber
sumber
Saya sedikit bingung tentang definisi momen ke-k. Apakah Anda mengasumsikan nol data berarti?
reschu
@reschu Anda tampaknya memikirkan momen-momen sentral . Untuk memastikan bahwa posting ini akan dipahami dengan benar, saya mendefinisikan apa yang saya maksud dengan momen " ." Definisi muncul tepat sebelum formula pertama. kth
whuber
Mungkin buruk! Saya mencampuradukkan momen 'sentral' dan 'mentah'. Terima kasih atas klarifikasi!
reschu
Saya pikir "untuk mengetahui cara ukuran subkelompok" dalam paragraf kedua dari belakang harus membaca "untuk mengetahui cara dari subkelompok" sebagai gantinya? (Saya ragu untuk mengedit ini sendiri karena saya tidak repot-repot mempelajari jawabannya dengan sangat hati-hati)
Juho Kokkala
@ Juho Kamu benar sekali. Terima kasih telah memperhatikan itu!
Whuber