Apakah mungkin untuk menemukan standar deviasi gabungan?

32

Misalkan saya punya 2 set:

Set A : jumlah item , ,n=10μ=2.4σ=0.8

Set B : jumlah item , ,n=5μ=2σ=1.2

Saya dapat menemukan mean gabungan ( ) dengan mudah, tetapi bagaimana saya bisa menemukan standar deviasi gabungan?μ

kype
sumber

Jawaban:

30

Jadi, jika Anda hanya ingin menyatukan dua sampel ini menjadi satu, Anda memiliki:

s1=1n1Σi=1n1(xiy¯1)2

s2=1n2Σi=1n2(yiy¯2)2

di mana dan adalah rata-rata sampel dan dan adalah contoh standar deviasi. ˉ y 2s1s2y¯1y¯2s1s2

Untuk menambahkannya, Anda harus:

s=1n1+n2Σi=1n1+n2(ziy¯)2

yang tidak semudah itu karena rata-rata baru berbeda dari ˉ y 1 dan ˉ y 2 :y¯y¯1y¯2

y¯=1n1+n2Σi=1n1+n2zi=n1y¯1+n2y¯2n1+n2

Formula terakhir adalah:

s=n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2

Untuk versi standar deviasi standar Bessel-corrected (" -denominator") yang digunakan, hasil untuk mean adalah seperti sebelumnya, tetapin1

s=(n11)s12+(n21)s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n21

Anda dapat membaca info lebih lanjut di sini: http://en.wikipedia.org/wiki/Standard_deviation

sashkello
sumber
1
Jika OP menggunakan versi penyimpangan standar sampel yang dikoreksi Bessel ( untuk varian) (karena hampir semua orang yang bertanya di sini akan melakukan), jawaban ini tidak akan cukup memberi mereka apa yang mereka cari. n1
Glen_b -Reinstate Monica
Dalam hal ini , bagian ini melakukan trik. (sunting untuk menautkan ke versi wikipedia lama karena sudah dihapus dari yang baru)
Glen_b -Reinstate Monica
@ Glen_b Tangkapan bagus. Bisakah Anda mengedit ini menjadi jawaban agar lebih bermanfaat?
sashkello
Saya pergi ke Wikipedia untuk menemukan buktinya, tetapi sayangnya formula ini tidak ada lagi. Mau uraikan (buktinya) atau tingkatkan Wikipedia? :)
Rauni Lillemets
8

Ini jelas meluas ke grup :K

s=k=1K(nk1)sk2+nk(y¯ky¯)2(k=1Knk)1
Ravi Varadhan
sumber
7
Ini agak singkat dari standar. Bisakah Anda mengatakan sedikit lebih banyak tentang bagaimana ini diturunkan dan mengapa ini adalah jawaban yang benar?
Sycorax berkata Reinstate Monica
1

Saya memiliki masalah yang sama: memiliki standar deviasi, sarana dan ukuran beberapa himpunan bagian dengan persimpangan kosong, menghitung standar deviasi penyatuan himpunan bagian tersebut.

Saya suka jawaban sashkello dan Glen_b ♦ , tetapi saya ingin menemukan buktinya. Saya melakukannya dengan cara ini, dan saya meninggalkannya di sini kalau-kalau itu membantu bagi siapa pun.


s=(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2

(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1(xiy1¯)2+i=1n2(yiy2¯)2+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1((xiy1¯)2+(y¯1y¯)2)+i=1n2((yiy2¯)2+(y¯2y¯)2)n1+n2)1/2=(i=1n1(xi2+y¯2+2y1¯22xiy1¯2y1¯y¯)n1+n2+i=1n2(yi2+y¯2+2y2¯22yiy2¯2y2¯y¯)n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯i=1n1xin1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯i=1n2yin1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯n1y1¯n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯n2y2¯n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)n1+n2)1/2

Now the trick is to realize that we can reorder the sums: since each

2y¯j=1n1xjn1
term appears n1 times, we can re-write the numerator as
i=1n1(xi2+y¯22y¯xi),

and hence, continuing with the equality chain:

=(i=1n1(xiy¯)2n1+n2+i=1n2(yiy¯)2n1+n2)1/2=(i=1n1+n2(ziy¯)2n1+n2)1/2=s

This been said, there is probably a simpler way to do this.

The formula can be extended to k subsets as stated before. The proof would be induction on the number of sets. The base case is already proven, and for the induction step you should apply a similar equality chain to the latter.

iipr
sumber
I don't see how the question is clear. Are the two data sets assumed to come from the same distribution? Does the OP have the actual observations available or just the sample estimates of mean and standard deviation?
Michael R. Chernick
Yes they are assumed to come from the same distribution. Observations are not available, just the mean and standard deviation of the subsets.
iipr
Then why are using a formula that involves the individual observations?
Michael R. Chernick
Maybe my answer is not clear. I am simply posting a mathematical proof of the above formula that allows to compute s from the standard deviations, means and sizes of two subsets. In the formula there is no reference to the individual observations. In the proof there is, but its just a proof, and from my point of view, correct.
iipr