Bagaimana cara 'menjumlahkan' standar deviasi?

68

Saya memiliki rata-rata bulanan untuk nilai dan standar deviasi yang sesuai dengan rata-rata itu. Sekarang saya menghitung rata-rata tahunan sebagai jumlah rata-rata bulanan, bagaimana saya bisa mewakili standar deviasi untuk jumlah rata-rata?

Misalnya mempertimbangkan output dari ladang angin:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Kita dapat mengatakan bahwa dalam rata-rata tahun ladang angin menghasilkan 10.358 MWh, tetapi apa standar deviasi yang sesuai dengan angka ini?

klonq
sumber
3
Diskusi setelah jawaban yang dihapus sekarang mencatat kemungkinan ambiguitas dalam pertanyaan ini: apakah Anda mencari SD dari rata-rata bulanan atau Anda ingin memulihkan SD dari semua nilai asli dari mana rata-rata itu dibangun? Balasan itu juga dengan tepat menunjukkan bahwa jika Anda menginginkan yang terakhir, Anda akan membutuhkan jumlah nilai yang terlibat dalam masing-masing rata-rata bulanan.
whuber
1
Sebuah komentar untuk balasan yang dihapus lainnya menunjukkan bahwa aneh untuk menghitung rata-rata sebagai jumlah : tentu saja Anda berarti bahwa Anda rata - rata rata - rata bulanan. Tetapi jika yang Anda inginkan adalah memperkirakan rata-rata semua data asli, maka prosedur seperti itu biasanya tidak bagus: rata-rata tertimbang diperlukan. Dan tentu saja itu tidak mungkin untuk memberikan jawaban yang baik untuk pertanyaan Anda tentang "SD untuk jumlah rata-rata" sampai jelas apa "jumlah rata-rata" dan apa yang dimaksudkan untuk diwakilkan. Tolong jelaskan itu untuk kami.
whuber
@whuber Saya telah menambahkan contoh untuk menjelaskan. Secara matematis saya percaya bahwa jumlah rata-rata sama dengan waktu rata-rata bulanan 12.
klonq
2
Ya, klonq, itu permintaan yang sangat masuk akal. Namun, balasan ini dihapus oleh pemiliknya, bukan oleh komunitas. Untuk mempertahankan nilainya, saya telah mencoba di sini untuk menyampaikan (pendapat saya) tentang ide-ide kunci yang muncul dalam balasan dan komentar mereka. BTW, suntingan terakhir Anda cukup membantu: orang-orang suka melihat contoh data.
whuber
1
Selamat datang di situs ini, @Hayden. Ini bukan jawaban untuk pertanyaan OP. Harap hanya menggunakan bidang "Jawaban Anda" untuk memberikan jawaban. Jika Anda memiliki pertanyaan tindak lanjut, klik [ASK QUESTION]di bagian atas & tanyakan di sana, maka kami dapat membantu Anda dengan baik. Karena Anda baru di sini, Anda mungkin ingin mengikuti tur kami , yang berisi informasi untuk pengguna baru.
gung - Pasang kembali Monica

Jawaban:

66

Jawaban singkat: Rata-rata variansnya ; maka Anda dapat mengambil akar kuadrat untuk mendapatkan standar deviasi rata-rata .


Contoh

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

Dan kemudian standar deviasi rata-rata adalahsqrt(53,964) = 232


Dari Jumlah variabel acak yang didistribusikan secara normal :

Jika dan Y adalah variabel acak independen yang terdistribusi normal (dan karenanya juga secara bersama-sama), maka jumlah mereka juga terdistribusi normalXY

... jumlah dari dua variabel acak yang terdistribusi secara normal adalah normal, dengan rerata menjadi jumlah dari dua rerata, dan variansnya adalah jumlah dari dua varian

Dan dari Distribusi Jumlah Normal Wolfram Alpha :

Hebatnya, distribusi sejumlah dua varian independen terdistribusi normal dan Y dengan rata-rata dan varians ( μ X , σ 2 X ) dan ( μ Y , σ 2 Y ) , masing-masing adalah distribusi normal lainXY(μX,σX2)(μY,σY2)

PX+Y(kamu)=12π(σX2+σY2)e-[kamu-(μX+μY)]2/[2(σX2+σY2)]

yang memiliki makna

μX+Y=μX+μY

dan varians

σX+Y2=σX2+σY2

Untuk data Anda:

  • jumlah: 10,358 MWh
  • perbedaan: 647,564
  • standar deviasi: 804.71 ( sqrt(647564) )

masukkan deskripsi gambar di sini

Jadi, untuk menjawab pertanyaanmu:

  • Bagaimana cara 'menjumlahkan' standar deviasi ?
  • Anda menjumlahkannya secara kuadrat:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Secara konseptual Anda menjumlahkan varians, kemudian mengambil akar kuadrat untuk mendapatkan simpangan baku.


Karena saya penasaran, saya ingin tahu rata-rata bulanan rata-rata daya, dan yang standar deviasi . Melalui induksi, kita membutuhkan 12 distribusi normal yang:

  • jumlah rata-rata 10,358
  • jumlah varian 647,564

Itu akan menjadi 12 distribusi bulanan rata-rata:

  • arti dari 10,358/12 = 863.16
  • varian dari 647,564/12 = 53,963.6
  • standar deviasi sqrt(53963.6) = 232.3

masukkan deskripsi gambar di sini

Kami dapat memeriksa distribusi rata-rata bulanan kami dengan menambahkannya hingga 12 kali, untuk memastikan bahwa mereka sama dengan distribusi tahunan:

  • Berarti: 863.16*12 = 10358 = 10,358( benar )
  • Varians: 53963.6*12 = 647564 = 647,564( benar )

Catatan : saya akan menyerahkannya kepada seseorang yang memiliki pengetahuan tentang matematika Lateks esoterik untuk mengonversi gambar rumus saya, dan formula codemenjadi formula diformat stackexchange.

Sunting : Saya memindahkan pendek, to the point, jawab di bagian atas. Karena saya perlu melakukan ini lagi hari ini, tetapi ingin mengecek bahwa saya rata - rata variansnya .

Ian Boyd
sumber
3
Ini semua sepertinya menganggap bulan-bulan itu tidak berkorelasi - sudahkah Anda membuat asumsi itu eksplisit di mana saja? Juga, mengapa kita perlu memasukkan distribusi normal? Jika kita hanya berbicara tentang varian maka itu tampaknya tidak perlu - misalnya, lihat jawaban saya di sini
Makro
1
@ Marsco Karena saya berpikir lebih baik dalam gambar dan itu membuat semuanya lebih mudah dimengerti.
Ian Boyd
2
@ Mars Juga, saya percaya pertanyaan ini dimulai pada situs stats.stackexchange (sekarang mati). Sebuah dinding formula yang kurang dapat diakses dari sederhana, grafis, perawatan kurang ketat.
Ian Boyd
2
Saya ragu ini benar. Bayangkan dua set data dengan masing-masing hanya satu pengukuran tunggal. Varian masing-masing himpunan adalah 0, tetapi himpunan kedua pengukuran memiliki varian lebih besar dari 0 jika titik data berbeda.
Njol
1
@ Njol, saya pikir itu sebabnya kami menganggap semua variabel memiliki distribusi normal. Dan kita dapat melakukannya di sini, karena kita berbicara tentang pengukuran fisik. Dalam contoh Anda, kedua variabel tidak terdistribusi secara normal.
tworec
11

Ini adalah pertanyaan lama tetapi jawaban yang diterima sebenarnya tidak benar atau tidak lengkap. Pengguna ingin menghitung standar deviasi selama 12 bulan data di mana rata-rata dan standar deviasi sudah dihitung setiap bulan. Dengan asumsi bahwa jumlah sampel dalam setiap bulan adalah sama, maka dimungkinkan untuk menghitung rata-rata sampel dan varians dari tahun ke tahun dari data setiap bulan. Untuk kesederhanaan anggap bahwa kita memiliki dua set data:

X={x1,....xN}

Y={y1,....,yN}

μxμyσx2σy2

Sekarang kami ingin menghitung taksiran yang sama untuk

Z={x1,....,xN,y1,...,yN}

μxσx2

μx=saya=1NxsayaN

σx2=saya=1Nxsaya2N-μx2

Untuk memperkirakan rata-rata dan varians dari set total, kita perlu menghitung:

μz=saya=1Nxsaya+saya=1Nysaya2N=(μx+μy)/2

σz2=saya=1Nxsaya2+saya=1Nysaya22N-μz2

σz2=12(saya=1Nxsaya2N-μx2+saya=1Nysaya2N-μy2)+12(μx2+μy2)-(μx+μy2)2

σz2=12(σx2+σy2)+(μx-μy2)2

Jadi jika Anda memiliki varians atas setiap subset dan Anda ingin varians atas seluruh set maka Anda dapat rata-rata varians dari setiap subset jika mereka semua memiliki rata-rata yang sama. Jika tidak, Anda perlu menambahkan varians rata-rata dari setiap subset.

Katakanlah bahwa selama paruh pertama tahun ini kami menghasilkan tepat 1.000 MWh per hari dan pada paruh kedua, kami menghasilkan 2.000 MWh per hari. Kemudian mean dan varians dari produksi energi di babak pertama dan kedua adalah 1000 dan 2000 untuk mean dan varians adalah 0 untuk kedua bagian. Sekarang ada dua hal berbeda yang mungkin menarik bagi kita:

1- Kami ingin menghitung varians dari produksi energi sepanjang tahun : kemudian dengan rata-rata dua varians kami tiba di nol, yang tidak benar karena energi per hari sepanjang tahun tidak konstan. Dalam hal ini kita perlu menambahkan varians semua sarana dari setiap subset. Secara matematis dalam hal ini variabel acak yang menarik adalah produksi energi per hari. Kami memiliki statistik sampel atas subset dan kami ingin menghitung statistik sampel lebih lama.

2- Kami ingin menghitung varian produksi energi per tahun: Dengan kata lain kami tertarik pada berapa banyak produksi energi berubah dari satu tahun ke tahun lainnya. Dalam hal ini rata-rata varians mengarah ke jawaban yang benar yaitu 0, karena di setiap tahun kami memproduksi tepat rata-rata 1500 MHW. Secara matematis dalam hal ini variabel acak bunga adalah rata-rata produksi energi per hari di mana rata-rata dilakukan sepanjang tahun.

Hooman
sumber
1

Saya percaya apa yang Anda benar-benar tertarik adalah kesalahan standar daripada standar deviasi.

Kesalahan standar rata-rata (SEM) adalah standar deviasi dari estimasi rata-rata sampel dari populasi rata-rata, dan itu akan memberi Anda ukuran seberapa baik perkiraan MWh tahunan Anda.

n

s=s12+s22+...+s12212×n
Matteo
sumber
1

Saya ingin menekankan lagi kesalahan dalam bagian dari jawaban yang diterima. Kata-kata dari pertanyaan itu menimbulkan kebingungan.

Pertanyaannya memiliki Rata-rata dan StdDev setiap bulan, tetapi tidak jelas jenis subset apa yang digunakan. Apakah itu rata-rata 1 turbin angin dari seluruh peternakan atau rata-rata harian dari seluruh peternakan? Jika itu adalah rata-rata harian untuk setiap bulan, Anda tidak dapat menjumlahkan rata-rata bulanan untuk mendapatkan rata-rata tahunan karena mereka tidak memiliki penyebut yang sama. Jika itu rata-rata unit, pertanyaannya harus menyatakan

Kita dapat mengatakan bahwa dalam tahun rata-rata setiap turbin di ladang angin menghasilkan 10.358 MWh, ...

Dari pada

Kita dapat mengatakan bahwa dalam tahun rata-rata pertanian angin menghasilkan 10.358 MWh, ...

Lebih jauh lagi, Standar deviasi atau varians adalah perbandingan terhadap rata-rata set sendiri. Ini TIDAK mengandung informasi apa pun mengenai rata - rata seluruh rangkaian.

Contoh varians

Gambar tidak perlu sangat benar tetapi menyampaikan gagasan umum. Mari kita bayangkan output dari 1 wind farm seperti pada gambar. Seperti yang Anda lihat, varian "lokal" tidak ada hubungannya dengan varian "global", tidak peduli bagaimana Anda menambahkan atau mengalikannya. Anda tidak dapat memprediksi varians tahun ini menggunakan varians 2 setengah tahun. Jadi, dalam jawaban yang diterima, sementara perhitungan jumlah benar, pembagian dengan 12 untuk mendapatkan angka bulanan tidak ada artinya. . Dari tiga bagian, yang pertama dan yang terakhir salah, yang kedua benar.

Sekali lagi, ini aplikasi yang sangat salah, tolong jangan ikuti atau itu akan membuat Anda kesulitan. Hanya dihitung untuk semuanya, menggunakan total output tahunan / bulanan dari masing-masing unit sebagai titik data tergantung apakah Anda ingin nomor tahunan atau bulanan, itu harus menjadi jawaban yang benar. Anda mungkin menginginkan sesuatu seperti ini. Ini adalah nomor yang saya buat secara acak. Jika Anda memiliki data, hasil dalam sel O2 harus menjadi jawaban Anda.

masukkan deskripsi gambar di sini

Tam Le
sumber
Terima kasih banyak untuk gambar yang banyak membantu saya untuk memahami mengapa jawaban yang diterima tidak lengkap dan bahkan mungkin salah. Anda menjelaskannya dengan sangat baik, terima kasih!
Kay
Ini menunjukkan bahaya memilih. Orang-orang yang memilih adalah orang-orang yang tidak tahu jawabannya. Berbeda dengan pengkodean, orang-orang yang memilih adalah orang-orang yang membuat kode bekerja, semakin banyak suara, semakin baik jawabannya. Untuk statistik / matematika, lebih banyak suara hanya berarti lebih menarik.
Tam Le