Perhitungan deviasi standar baru menggunakan deviasi standar lama setelah perubahan dalam dataset

Saya memiliki array nilai riil, yang memiliki rata-rata dan standar deviasi . Jika elemen array digantikan oleh elemen lain , maka rata-rata baru akan menjadi $n$ $\mu_{old}$ $\sigma_{old}$ $x_i$ $x_j$

$\mu_{new}=\mu_{old}+\frac{x_j-x_i}{n}$

Keuntungan dari pendekatan ini adalah ia membutuhkan perhitungan yang konstan terlepas dari nilai . Apakah ada pendekatan untuk menghitung menggunakan seperti perhitungan menggunakan ? $n$ $\sigma_{new}$ $\sigma_{old}$ $\mu_{new}$ $\mu_{old}$

standard-deviation online pengguna
sumber

Apakah ini pekerjaan rumah? Tugas yang sangat mirip ditanyakan dalam kursus statistik matematika kami ...

krlmlr

@ user946850: Tidak, ini bukan pekerjaan rumah. Saya sedang melakukan tesis saya tentang Algoritma Evolusi . Saya ingin menggunakan standar deviasi sebagai ukuran keragaman populasi. Hanya mencari solusi yang lebih efisien.

pengguna

SD adalah akar kuadrat dari varians, yang hanya nilai kuadrat rata-rata (disesuaikan dengan kelipatan dari kuadrat rata-rata, yang sudah Anda ketahui cara memperbarui). Oleh karena itu, metode yang sama digunakan untuk menghitung rata-rata berjalan dapat diterapkan tanpa perubahan mendasar untuk menghitung varian berjalan. Faktanya, statistik yang jauh lebih canggih dapat dihitung secara online dengan menggunakan ide yang sama: lihat utas di stats.stackexchange.com/questions/6920 dan stats.stackexchange.com/questions/23481 , misalnya.

whuber

@whuber: Ini disebutkan dalam artikel Wikipedia untuk Variance , tetapi juga dengan catatan tentang pembatalan bencana (atau kehilangan arti penting) yang mungkin terjadi. Apakah ini berlebihan, atau masalah nyata untuk varian yang berjalan?

krlmlr

Itu pertanyaan yang bagus. Jika Anda mengakumulasikan varian secara naif, tanpa memusatkannya terlebih dahulu, Anda memang bisa mendapat masalah. Masalahnya terjadi ketika jumlahnya besar tetapi variansinya kecil. Misalnya, perhatikan serangkaian pengukuran akurat kecepatan cahaya dalam m / s, seperti pada 299792458.145, 299792457.883, 299792457.998, ...: varians mereka, yaitu sekitar 0,01, sangat kecil dibandingkan dengan kuadratnya, yaitu sekitar

, perhitungan yang ceroboh (bahkan dalam presisi ganda) akan menghasilkan nol varians: semua digit signifikan akan hilang.

10^{17}

$10^{17}$

whuber

Jawaban:

Sebuah bagian dalam artikel Wikipedia pada "Algoritma untuk menghitung varians" menunjukkan bagaimana untuk menghitung varians jika elemen ditambahkan ke pengamatan Anda. (Ingat bahwa standar deviasi adalah akar kuadrat dari varians.) Asumsikan bahwa Anda menambahkan ke array Anda, maka $x_{n+1}$

σ_{n e w}^{2} = σ_{o l d}^{2} + (x_{n + 1} - μ_{n e w}) (x_{n + 1} - μ_{o l d}) .

$\sigma_{new}^2 = \sigma_{old}^2 + (x_{n+1} - \mu_{new})(x_{n+1} - \mu_{old}).$

EDIT : Formula di atas sepertinya salah, lihat komentar.

Sekarang, mengganti elemen berarti menambahkan observasi dan menghapus yang lain; keduanya dapat dihitung dengan rumus di atas. Namun, perlu diingat bahwa masalah stabilitas numerik dapat terjadi; artikel yang dikutip juga mengusulkan varian yang stabil secara numerik.

Untuk mendapatkan formula sendiri, hitung menggunakan definisi varians sampel dan gantikan dengan formula yang Anda berikan saat yang tepat. Ini memberi Anda pada akhirnya, dan dengan demikian formula untuk diberikan dan $(n-1)(\sigma_{new}^2 - \sigma_{old}^2)$ $\mu_{new}$ $\sigma_{new}^2 - \sigma_{old}^2$ $\sigma_{new}$ $\sigma_{old}$ $\mu_{old}$ . Dalam notasi saya, saya menganggap Anda mengganti elemen $x_n$ dengan : $x_n'$

\begin{array}{rcl} σ^{2} & = & (n - 1)^{- 1} \sum_{k} (x_{k} - μ)^{2} \\ (n - 1) (σ_{n e w}^{2} - σ_{o l d}^{2}) & = & \sum_{k = 1}^{n - 1} ((x_{k} - μ_{n e w})^{2} - (x_{k} - μ_{o l d})^{2}) \\ + ((x_{n}^{'} - μ_{n e w})^{2} - (x_{n} - μ_{o l d})^{2}) \\ = & \sum_{k = 1}^{n - 1} ((x_{k} - μ_{o l d} - n^{- 1} (x_{n}^{'} - x_{n}))^{2} - (x_{k} - μ_{o l d})^{2}) \\ + ((x_{n}^{'} - μ_{o l d} - n^{- 1} (x_{n}^{'} - x_{n}))^{2} - (x_{n} - μ_{o l d})^{2}) \end{array}

$\begin{eqnarray*} \sigma^2 &=& (n-1)^{-1} \sum_k (x_k - \mu)^2 \\ (n-1)(\sigma_{new}^2 - \sigma_{old}^2) &=& \sum_{k=1}^{n-1} ((x_k - \mu_{new})^2 - (x_k - \mu_{old})^2) \\ &&+\ ((x_n' - \mu_{new})^2 - (x_n - \mu_{old})^2) \\ &=& \sum_{k=1}^{n-1} ((x_k - \mu_{old} - n^{-1}(x_n'-x_n))^2 - (x_k - \mu_{old})^2) \\ &&+\ ((x_n' - \mu_{old} - n^{-1}(x_n'-x_n))^2 - (x_n - \mu_{old})^2) \\ \end{eqnarray*}\\$

The $x_k$ in the sum transform into something dependent of $\mu_{old}$ , but you'll have to work the equation a little bit more to derive a neat result. This should give you the general idea.

krlmlr
sumber

the first formula you gave does not seem correct, well it means that if the

x_{n + 1}

$x_{n+1}$ is smaller/larger then from both new and old mean, the variance always increases, which does not make any sense. It may increase or decrease depending on the distribution.

Emmet B

@EmmetB: Yes, you're right -- this should probably be

σ_{n e w}^{2} = \frac{n - 1}{n} σ_{o l d}^{2} + \frac{1}{n} (x_{n + 1} - μ_{n e w}) (x_{n + 1} - μ_{o l d}) .

$\sigma_{new}^2 = \frac{n-1}{n} \sigma_{old}^2 + \frac{1}{n} (x_{n+1} - \mu_{new})(x_{n+1} - \mu_{old}).$ Unfortunately, this renders void my whole discussion from there, but I'm leaving it for historic purposes. Feel free to edit, though.

krlmlr

Based on what i think i'm reading on the linked Wikipedia article you can maintain a "running" standard deviation:

real sum = 0;
int count = 0;
real S = 0;
real variance = 0;

real GetRunningStandardDeviation(ref sum, ref count, ref S, x)
{
   real oldMean;

   if (count >= 1)
   {
       real oldMean = sum / count;
       sum = sum + x;
       count = count + 1;
       real newMean = sum / count;

       S = S + (x-oldMean)*(x-newMean)
   }
   else
   {
       sum = x;
       count = 1;
       S = 0;         
   }

   //estimated Variance = (S / (k-1) )
   //estimated Standard Deviation = sqrt(variance)
   if (count > 1)
      return sqrt(S / (count-1) );
   else
      return 0;
}

Although in the article they don't maintain a separate running sum and count, but instead have the single mean. Since in thing i'm doing today i keep a count (for statistical purposes), it is more useful to calculate the means each time.

Ian Boyd
sumber

Given original $\bar x$ , $s$ , and $n$ , as well as the change of a given element $x_n$ to $x_n'$ , I believe your new standard deviation $s'$ will be the square root of

s^{2} + \frac{1}{n - 1} (2 n Δ \bar{x} (x_{n} - \bar{x}) + n (n - 1) (Δ \bar{x})^{2}),

$s^2 + \frac{1}{n-1}\left(2n\Delta \bar x(x_n-\bar x) +n(n-1)(\Delta \bar x)^2\right),$ where

Δ \bar{x} = {\bar{x}}^{'} - \bar{x}

$\Delta \bar x = \bar x' - \bar x$ , with

{\bar{x}}^{'}

$\bar x'$ denoting the new mean.

Maybe there is a snazzier way of writing it?

I checked this against a small test case and it seemed to work.

Whistling in the Dark
sumber

@john / whistling in the Dark: I liked your answer, it seems work properly in my small dataset. Is there any mathematical foundation/reference on it? Could you kindly help?

Alok Chowdhury

The question was all @Whistling in the Dark, I just cleaned it up for the site. You should pose a new question referencing the question and answer here. And also you should upvote this answer if you feel that way.

John