Saya menjalankan eksperimen di mana saya mengumpulkan sampel (independen) secara paralel, saya menghitung varian masing-masing kelompok sampel dan sekarang saya ingin menggabungkan semua untuk menemukan varian total dari semua sampel.
Saya mengalami kesulitan menemukan derivasi untuk ini karena saya tidak yakin dengan terminologi. Saya menganggapnya sebagai partisi dari satu RV.
Jadi saya ingin mencari dari , , ..., dan , di mana = .
EDIT: Partisi tidak memiliki ukuran / kardinalitas yang sama, tetapi jumlah ukuran partisi sama dengan jumlah sampel dalam set sampel keseluruhan.
EDIT 2: Ada rumus untuk perhitungan paralel di sini , tetapi hanya mencakup kasus partisi menjadi dua set, bukan set.
Jawaban:
Rumusnya cukup mudah jika semua sub-sampel memiliki ukuran sampel yang sama. Jika Anda memiliki -sampel sub ukuran k (untuk total sampel g k ), maka varians dari sampel gabungan tergantung pada rata-rata E j dan varians V j dari masing-masing sub-sampel: V a r ( X 1 , … , X g k ) = k - 1g k gk Ej Vj mana olehVar(Ej)berarti varians dari mean sampel.
Demonstrasi dalam R:
Jika ukuran sampel tidak sama, rumusnya tidak begitu bagus.
EDIT: rumus untuk ukuran sampel yang tidak sama
Sekali lagi, demonstrasi:
sumber
Ini hanyalah add-on untuk jawaban aniko dengan sketsa kasar derivasi dan beberapa kode python, sehingga semua kredit masuk ke aniko.
penurunan
python code
The following python function works for arrays that have been splitted along the first dimension and implements the "more complex" formula for differently sized parts.
It can be used as follows:
sumber