Bagaimana cara menghitung varians yang dikumpulkan dari dua kelompok atau lebih yang diberikan varians kelompok yang diketahui, sarana, dan ukuran sampel?

32

Katakanlah ada elemen m+n dibagi menjadi dua kelompok ( m dan n ). σm2 dari grup pertama adalah \ sigma_m ^ 2 dan varians dari grup kedua adalah σn2 . Elemen-elemen itu sendiri dianggap tidak diketahui tetapi saya tahu cara μm dan μn .

Apakah ada cara untuk menghitung varians gabungan σ(m+n)2 ?

Varians tidak harus tidak bias sehingga penyebutnya adalah (m+n) dan tidak (m+n1) .

pengguna1809989
sumber
Ketika Anda mengatakan Anda tahu cara dan varian dari kelompok-kelompok ini, apakah mereka parameter atau nilai sampel? Jika itu adalah sampel rata-rata / varians, Anda tidak boleh menggunakan μ dan σ ...
Jonathan Christensen
Saya hanya menggunakan simbol sebagai representasi. Kalau tidak, akan sulit untuk menjelaskan masalah saya.
user1809989
1
Untuk nilai sampel, kami biasanya menggunakan huruf Latin (misalnya m dan s ). Huruf Yunani biasanya disediakan untuk parameter. Menggunakan simbol "benar" (diharapkan) akan membantu Anda berkomunikasi lebih jelas.
Jonathan Christensen
Jangan khawatir, saya akan ikuti itu mulai sekarang! Cheers
user1809989
1
@ Jonathan Karena ini bukan pertanyaan tentang sampel atau estimasi, satu sah dapat mengambil pandangan bahwa dan adalah benar varians mean dan distribusi empiris dari batch data, sehingga membenarkan penggunaan konvensional Yunani huruf daripada huruf latin untuk merujuk mereka. σ 2μσ2
whuber

Jawaban:

36

Gunakan definisi rata-rata

μ1:n=1ni=1nxi

dan varians sampel

σ1:n2=1ni=1n(xiμ1:n)2=n1n(1n1i=1n(xiμ1:n)2)

(istilah terakhir dalam tanda kurung adalah penaksir varians tidak bias yang sering dihitung secara default dalam perangkat lunak statistik) untuk menemukan jumlah kuadrat dari semua data . Mari kita memesan indeks sehingga menunjuk elemen-elemen dari kelompok pertama dan menunjuk elemen-elemen dari kelompok kedua. Pecahkan jumlah kuadrat itu dengan kelompok dan ungkapkan kembali kedua bagian dalam hal varians dan rata-rata subset dari data: i i = 1 , , n i = n + 1 , , n + mxiii=1,,ni=n+1,,n+m

(m+n)(σ1:m+n2+μ1:m+n2)=i=11:n+mxi2=i=1nxi2+i=n+1n+mxi2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2).

Mengatasi hal ini secara aljabar untuk dalam hal jumlah hasil (dikenal) lainnyaσm+n2

σ1:m+n2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2)m+nμ1:m+n2.

Tentu saja, dengan menggunakan pendekatan yang sama, dapat diekspresikan dalam hal kelompok berarti juga.μ1:m+n=(nμ1:n+mμ1+n:m+n)/(m+n)


Kontributor anonim menunjukkan bahwa ketika mean sampel sama (sehingga ), solusi untuk adalah rata-rata tertimbang dari varians sampel grup.μ1:n=μ1+n:m+n=μ1:m+nσm+n2

whuber
sumber
4
Tag "pekerjaan rumah" tidak berarti pertanyaannya dasar atau bodoh: itu digunakan untuk pertanyaan belajar mandiri yang bahkan dapat mencakup pertanyaan tingkat penelitian. Ini membedakan pertanyaan rutin, lebih atau kurang bebas konteks (dari jenis yang biasanya rahmat forum matematika) dari pertanyaan terapan spesifik.
whuber
Saya tidak dapat memahami bagian pertama Anda: Dalam khususnya saya mendapatkan yang membutuhkan Apakah saya kehilangan sesuatu? Bisakah Anda jelaskan ini? n(σ2+μ2)=(xμ)2+nμ2=?x2[(xμ)2+μ2]=[x22xμ]μ=0
DarioP
2
@Dario
(xμ)2+nμ2=(x22μx+nμ2)+nμ2=x22nμ2+2nμ2=x2.
whuber
Oh ya, saya melakukan kesalahan tanda bodoh pada derivasi saya, sekarang jelas, terima kasih !!
DarioP
4
Saya kira ini dapat diperluas ke jumlah sampel yang sewenang-wenang selama Anda memiliki mean dan varians untuk masing-masing. Menghitung dikumpulkan (bias) deviasi standar di R hanya sqrt(weighted.mean(u^2 + rho^2, n) - weighted.mean(u, n)^2)di mana n, udan rhosama-panjang vektor. Misalnya n=c(10, 14, 9)untuk tiga sampel.
Jonas Lindeløv
3

Saya akan menggunakan notasi standar untuk mean sampel dan varians sampel dalam jawaban ini, daripada notasi yang digunakan dalam pertanyaan. Menggunakan notasi standar, rumus lain untuk varians sampel gabungan dari dua kelompok dapat ditemukan di O'Neill (2014) (Hasil 1):

spooled2=1n1+n21[(n11)s12+(n21)s22+n1n2n1+n2(x¯1x¯2)2].

Rumus ini bekerja langsung dengan mean sampel yang mendasari dan varians sampel dari dua subkelompok, dan tidak memerlukan perhitungan antara rata-rata sampel yang dikumpulkan. (Bukti hasil dalam kertas tertaut.)

Pasang kembali Monica
sumber
-3

Ya, mengingat rerata, jumlah sampel, dan varians atau standar deviasi dari masing-masing dua atau lebih kelompok sampel, Anda dapat dengan tepat menghitung varians atau standar deviasi dari kelompok gabungan.

Halaman web ini menjelaskan cara melakukannya, dan mengapa itu bekerja; itu juga termasuk kode sumber di Perl: http://www.burtonsys.com/climate/composite_standard_deviations.html


BTW, bertentangan dengan jawaban yang diberikan di atas,

n(σ2+μ2)    i=1nxi2

Lihat sendiri, misalnya, dalam R:

> x = rnorm (10,5,2)
> x
 [1] 6.515139 8.273285 2.879483 3.624233 6.199610 3.683164 4.921028 8.084591
 [9] 2.974520 6.049962
> berarti (x)
[1] 5.320502
> sd (x)
[1] 2.007519
> jumlah (x ** 2)
[1] 319.3486
> 10 * (rata-rata (x) ** 2 + sd (x) ** 2)
[1] 323.3787
Dave Burton
sumber
itu karena Anda lupa faktor n-1, mis. coba dengan n * (rata-rata (x) ** 2 + sd (x) ** 2 / (n) * (n-1))
user603
user603, apa yang kamu bicarakan?
Dave Burton
3
Rsd(c(-1,1))1.4142141sqrt(9/10)*sd(x)sd(x)σμn <- 10; x <- rnorm(n,5,2); m <- mean(x); s <- sd(x) * sqrt((n-1)/n); m2 <- sum(x^2); c(lhs=n * (m^2 + s^2), rhs=m2)