Katakanlah ada elemen dibagi menjadi dua kelompok ( dan ). dari grup pertama adalah \ sigma_m ^ 2 dan varians dari grup kedua adalah . Elemen-elemen itu sendiri dianggap tidak diketahui tetapi saya tahu cara dan .
Apakah ada cara untuk menghitung varians gabungan ?
Varians tidak harus tidak bias sehingga penyebutnya adalah dan tidak .
Jawaban:
Gunakan definisi rata-rata
dan varians sampel
(istilah terakhir dalam tanda kurung adalah penaksir varians tidak bias yang sering dihitung secara default dalam perangkat lunak statistik) untuk menemukan jumlah kuadrat dari semua data . Mari kita memesan indeks sehingga menunjuk elemen-elemen dari kelompok pertama dan menunjuk elemen-elemen dari kelompok kedua. Pecahkan jumlah kuadrat itu dengan kelompok dan ungkapkan kembali kedua bagian dalam hal varians dan rata-rata subset dari data: i i = 1 , … , n i = n + 1 , … , n + mxi i i=1,…,n i=n+1,…,n+m
Mengatasi hal ini secara aljabar untuk dalam hal jumlah hasil (dikenal) lainnyaσ2m+n
Tentu saja, dengan menggunakan pendekatan yang sama, dapat diekspresikan dalam hal kelompok berarti juga.μ1:m+n=(nμ1:n+mμ1+n:m+n)/(m+n)
Kontributor anonim menunjukkan bahwa ketika mean sampel sama (sehingga ), solusi untuk adalah rata-rata tertimbang dari varians sampel grup.μ1:n=μ1+n:m+n=μ1:m+n σ2m+n
sumber
sqrt(weighted.mean(u^2 + rho^2, n) - weighted.mean(u, n)^2)
di manan
,u
danrho
sama-panjang vektor. Misalnyan=c(10, 14, 9)
untuk tiga sampel.Saya akan menggunakan notasi standar untuk mean sampel dan varians sampel dalam jawaban ini, daripada notasi yang digunakan dalam pertanyaan. Menggunakan notasi standar, rumus lain untuk varians sampel gabungan dari dua kelompok dapat ditemukan di O'Neill (2014) (Hasil 1):
Rumus ini bekerja langsung dengan mean sampel yang mendasari dan varians sampel dari dua subkelompok, dan tidak memerlukan perhitungan antara rata-rata sampel yang dikumpulkan. (Bukti hasil dalam kertas tertaut.)
sumber
Ya, mengingat rerata, jumlah sampel, dan varians atau standar deviasi dari masing-masing dua atau lebih kelompok sampel, Anda dapat dengan tepat menghitung varians atau standar deviasi dari kelompok gabungan.
Halaman web ini menjelaskan cara melakukannya, dan mengapa itu bekerja; itu juga termasuk kode sumber di Perl: http://www.burtonsys.com/climate/composite_standard_deviations.html
BTW, bertentangan dengan jawaban yang diberikan di atas,
Lihat sendiri, misalnya, dalam R:
sumber
R
sd(c(-1,1))
1.414214
1
sqrt(9/10)*sd(x)
sd(x)
n <- 10; x <- rnorm(n,5,2); m <- mean(x); s <- sd(x) * sqrt((n-1)/n); m2 <- sum(x^2); c(lhs=n * (m^2 + s^2), rhs=m2)