Apakah mungkin untuk menemukan standar deviasi gabungan?

Jadi, jika Anda hanya ingin menyatukan dua sampel ini menjadi satu, Anda memiliki:

$s_1 = \sqrt{\frac{1}{n_1}\Sigma_{i = 1}^{n_1} (x_i - \bar{y}_1)^2}$

$s_2 = \sqrt{\frac{1}{n_2}\Sigma_{i = 1}^{n_2} (y_i - \bar{y}_2)^2}$

di mana dan adalah rata-rata sampel dan dan adalah contoh standar deviasi. $\bar{y}_1$ $\bar{y}_2$ $s_1$ $s_2$

Untuk menambahkannya, Anda harus:

$s = \sqrt{\frac{1}{n_1 + n_2}\Sigma_{i = 1}^{n_1 + n_2} (z_i - \bar{y})^2}$

yang tidak semudah itu karena rata-rata baru berbeda dari dan : $\bar{y}$ $\bar{y}_1$ $\bar{y}_2$

$\bar{y} = \frac{1}{n_1 + n_2}\Sigma_{i = 1}^{n_1 + n_2} z_i = \frac{n_1 \bar{y}_1 + n_2 \bar{y}_2}{n_1 + n_2}$

Formula terakhir adalah:

$s = \sqrt{\frac{n_1 s_1^2 + n_2 s_2^2+ n_1(\bar{y}_1-\bar{y})^2 +n_2(\bar{y}_2-\bar{y})^2}{n_1 + n_2 }}$

Untuk versi standar deviasi standar Bessel-corrected (" -denominator") yang digunakan, hasil untuk mean adalah seperti sebelumnya, tetapi $n-1$

$s = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2 + n_1(\bar{y}_1-\bar{y})^2 +n_2(\bar{y}_2-\bar{y})^2}{n_1+n_2 - 1} }$

Anda dapat membaca info lebih lanjut di sini: http://en.wikipedia.org/wiki/Standard_deviation

sashkello
sumber

Jika OP menggunakan versi penyimpangan standar sampel yang dikoreksi Bessel (

untuk varian) (karena hampir semua orang yang bertanya di sini akan melakukan), jawaban ini tidak akan cukup memberi mereka apa yang mereka cari.

n - 1

$n-1$

Glen_b -Reinstate Monica

Dalam hal ini , bagian ini melakukan trik. (sunting untuk menautkan ke versi wikipedia lama karena sudah dihapus dari yang baru)

Glen_b -Reinstate Monica

@ Glen_b Tangkapan bagus. Bisakah Anda mengedit ini menjadi jawaban agar lebih bermanfaat?

sashkello

Saya pergi ke Wikipedia untuk menemukan buktinya, tetapi sayangnya formula ini tidak ada lagi. Mau uraikan (buktinya) atau tingkatkan Wikipedia? :)

Rauni Lillemets

@RauniLillemets lihat en.wikipedia.org/wiki/Pooled_variance#Pooled_standard_deviation

Chris

Saya memiliki masalah yang sama: memiliki standar deviasi, sarana dan ukuran beberapa himpunan bagian dengan persimpangan kosong, menghitung standar deviasi penyatuan himpunan bagian tersebut.

Saya suka jawaban sashkello dan Glen_b ♦ , tetapi saya ingin menemukan buktinya. Saya melakukannya dengan cara ini, dan saya meninggalkannya di sini kalau-kalau itu membantu bagi siapa pun.

s = {(\frac{n_{1} s_{1}^{2} + n_{2} s_{2}^{2} + n_{1} ({\bar{y}}_{1} - \bar{y})^{2} + n_{2} ({\bar{y}}_{2} - \bar{y})^{2}}{n_{1} + n_{2}})}^{1 / 2}

$s = \left(\frac{n_1 s_1^2 + n_2 s_2^2+ n_1(\bar{y}_1-\bar{y})^2 +n_2(\bar{y}_2-\bar{y})^2}{n_1 + n_2 }\right)^{1/2}$

{(\frac{n_{1} s_{1}^{2} + n_{2} s_{2}^{2} + n_{1} ({\bar{y}}_{1} - \bar{y})^{2} + n_{2} ({\bar{y}}_{2} - \bar{y})^{2}}{n_{1} + n_{2}})}^{1 / 2} = {(\frac{\sum_{i = 1}^{n_{1}} (x_{i} - \bar{y_{1}})^{2} + \sum_{i = 1}^{n_{2}} (y_{i} - \bar{y_{2}})^{2} + n_{1} ({\bar{y}}_{1} - \bar{y})^{2} + n_{2} ({\bar{y}}_{2} - \bar{y})^{2}}{n_{1} + n_{2}})}^{1 / 2} = {(\frac{\sum_{i = 1}^{n_{1}} ((x_{i} - \bar{y_{1}})^{2} + ({\bar{y}}_{1} - \bar{y})^{2}) + \sum_{i = 1}^{n_{2}} ((y_{i} - \bar{y_{2}})^{2} + ({\bar{y}}_{2} - \bar{y})^{2})}{n_{1} + n_{2}})}^{1 / 2} = {(\frac{\sum_{i = 1}^{n_{1}} (x_{i}^{2} + {\bar{y}}^{2} + 2 {\bar{y_{1}}}^{2} - 2 x_{i} \bar{y_{1}} - 2 \bar{y_{1}} \bar{y})}{n_{1} + n_{2}} + \frac{\sum_{i = 1}^{n_{2}} (y_{i}^{2} + {\bar{y}}^{2} + 2 {\bar{y_{2}}}^{2} - 2 y_{i} \bar{y_{2}} - 2 \bar{y_{2}} \bar{y})}{n_{1} + n_{2}})}^{1 / 2} = {(\frac{\sum_{i = 1}^{n_{1}} (x_{i}^{2} + {\bar{y}}^{2} - 2 \bar{y} \sum_{j = 1}^{n_{1}} \frac{x_{j}}{n_{1}}) + 2 n_{1} {\bar{y_{1}}}^{2} - 2 \bar{y_{1}} \sum_{i = 1}^{n_{1}} x_{i}}{n_{1} + n_{2}} + \frac{\sum_{i = 1}^{n_{2}} (y_{i}^{2} + {\bar{y}}^{2} - 2 \bar{y} \sum_{j = 1}^{n_{2}} \frac{y_{j}}{n_{2}}) + 2 n_{2} {\bar{y_{2}}}^{2} - 2 \bar{y_{2}} \sum_{i = 1}^{n_{2}} y_{i}}{n_{1} + n_{2}})}^{1 / 2} = {(\frac{\sum_{i = 1}^{n_{1}} (x_{i}^{2} + {\bar{y}}^{2} - 2 \bar{y} \sum_{j = 1}^{n_{1}} \frac{x_{j}}{n_{1}}) + 2 n_{1} {\bar{y_{1}}}^{2} - 2 \bar{y_{1}} n_{1} \bar{y_{1}}}{n_{1} + n_{2}} + \frac{\sum_{i = 1}^{n_{2}} (y_{i}^{2} + {\bar{y}}^{2} - 2 \bar{y} \sum_{j = 1}^{n_{2}} \frac{y_{j}}{n_{2}}) + 2 n_{2} {\bar{y_{2}}}^{2} - 2 \bar{y_{2}} n_{2} \bar{y_{2}}}{n_{1} + n_{2}})}^{1 / 2} = {(\frac{\sum_{i = 1}^{n_{1}} (x_{i}^{2} + {\bar{y}}^{2} - 2 \bar{y} \sum_{j = 1}^{n_{1}} \frac{x_{j}}{n_{1}})}{n_{1} + n_{2}} + \frac{\sum_{i = 1}^{n_{2}} (y_{i}^{2} + {\bar{y}}^{2} - 2 \bar{y} \sum_{j = 1}^{n_{2}} \frac{y_{j}}{n_{2}})}{n_{1} + n_{2}})}^{1 / 2}

$\left(\frac{n_1 s_1^2 + n_2 s_2^2+ n_1(\bar{y}_1-\bar{y})^2 +n_2(\bar{y}_2-\bar{y})^2}{n_1 + n_2 }\right)^{1/2} = \left(\frac{\sum_{i=1}^{n_1}(x_i - \bar{y_1})^2 + \sum_{i=1}^{n_2}(y_i - \bar{y_2})^2+ n_1(\bar{y}_1-\bar{y})^2 +n_2(\bar{y}_2-\bar{y})^2}{n_1 + n_2 }\right)^{1/2} = \left(\frac{\sum_{i=1}^{n_1}\left((x_i - \bar{y_1})^2 + (\bar{y}_1-\bar{y})^2\right) + \sum_{i=1}^{n_2}\left((y_i - \bar{y_2})^2 + (\bar{y}_2-\bar{y})^2\right)}{n_1 + n_2}\right)^{1/2} = \left(\frac{\sum_{i=1}^{n_1}\left(x_i^2 + \bar{y}^2 + 2\bar{y_1}^2 -2x_i\bar{y_1} -2\bar{y_1}\bar{y} \right)}{n_1 + n_2} + \frac{\sum_{i=1}^{n_2}\left(y_i^2 + \bar{y}^2 + 2\bar{y_2}^2 -2y_i\bar{y_2} -2\bar{y_2}\bar{y} \right)}{n_1 + n_2}\right)^{1/2} = \left(\frac{\sum_{i=1}^{n_1}\left(x_i^2 + \bar{y}^2 -2\bar{y}\sum_{j=1}^{n_1}\frac{x_j}{n_1}\right) + 2n_1\bar{y_1}^2 -2\bar{y_1}\sum_{i=1}^{n_1}x_i}{n_1 + n_2} + \frac{\sum_{i=1}^{n_2}\left(y_i^2 + \bar{y}^2 -2\bar{y}\sum_{j=1}^{n_2}\frac{y_j}{n_2}\right) + 2n_2\bar{y_2}^2 -2\bar{y_2}\sum_{i=1}^{n_2}y_i}{n_1 + n_2}\right)^{1/2} = \left(\frac{\sum_{i=1}^{n_1}\left(x_i^2 + \bar{y}^2 -2\bar{y}\sum_{j=1}^{n_1}\frac{x_j}{n_1}\right) + 2n_1\bar{y_1}^2 -2\bar{y_1}n_1\bar{y_1}}{n_1 + n_2} + \frac{\sum_{i=1}^{n_2}\left(y_i^2 + \bar{y}^2 -2\bar{y}\sum_{j=1}^{n_2}\frac{y_j}{n_2}\right) + 2n_2\bar{y_2}^2 -2\bar{y_2}n_2\bar{y_2}}{n_1 + n_2}\right)^{1/2} = \left(\frac{\sum_{i=1}^{n_1}\left(x_i^2 + \bar{y}^2 -2\bar{y}\sum_{j=1}^{n_1}\frac{x_j}{n_1}\right)}{n_1 + n_2} + \frac{\sum_{i=1}^{n_2}\left(y_i^2 + \bar{y}^2 -2\bar{y}\sum_{j=1}^{n_2}\frac{y_j}{n_2}\right)}{n_1 + n_2}\right)^{1/2}$

Now the trick is to realize that we can reorder the sums: since each

- 2 \bar{y} \sum_{j = 1}^{n_{1}} \frac{x_{j}}{n_{1}}

$-2\bar{y}\sum_{j=1}^{n_1}\frac{x_j}{n_1}$ term appears

n_{1}

$n_1$ times, we can re-write the numerator as

\sum_{i = 1}^{n_{1}} (x_{i}^{2} + {\bar{y}}^{2} - 2 \bar{y} x_{i}),

$\sum_{i=1}^{n_1}\left(x_i^2 + \bar{y}^2 -2\bar{y}x_i\right),$

and hence, continuing with the equality chain:

= {(\frac{\sum_{i = 1}^{n_{1}} {(x_{i} - \bar{y})}^{2}}{n_{1} + n_{2}} + \frac{\sum_{i = 1}^{n_{2}} {(y_{i} - \bar{y})}^{2}}{n_{1} + n_{2}})}^{1 / 2} = {(\frac{\sum_{i = 1}^{n_{1} + n_{2}} {(z_{i} - \bar{y})}^{2}}{n_{1} + n_{2}})}^{1 / 2} = s ◻

$= \left(\frac{\sum_{i=1}^{n_1}\left(x_i - \bar{y}\right)^2}{n_1 + n_2} + \frac{\sum_{i=1}^{n_2}\left(y_i - \bar{y}\right)^2}{n_1 + n_2}\right)^{1/2} = \left(\frac{\sum_{i=1}^{n_1 + n_2}\left(z_i - \bar{y}\right)^2}{n_1 + n_2}\right)^{1/2} = s \qquad \square$

This been said, there is probably a simpler way to do this.

The formula can be extended to $k$ subsets as stated before. The proof would be induction on the number of sets. The base case is already proven, and for the induction step you should apply a similar equality chain to the latter.

iipr
sumber

I don't see how the question is clear. Are the two data sets assumed to come from the same distribution? Does the OP have the actual observations available or just the sample estimates of mean and standard deviation?

Michael R. Chernick

Yes they are assumed to come from the same distribution. Observations are not available, just the mean and standard deviation of the subsets.

iipr

Then why are using a formula that involves the individual observations?

Michael R. Chernick

Maybe my answer is not clear. I am simply posting a mathematical proof of the above formula that allows to compute s from the standard deviations, means and sizes of two subsets. In the formula there is no reference to the individual observations. In the proof there is, but its just a proof, and from my point of view, correct.

iipr

Apakah mungkin untuk menemukan standar deviasi gabungan?

Jawaban: