Varians tertimbang, sekali lagi

17

Varian tertimbang yang tidak sesuai sudah dibahas di sini dan di tempat lain tetapi tampaknya masih ada sejumlah kebingungan yang mengejutkan. Tampaknya ada konsensus terhadap formula yang disajikan dalam tautan pertama serta di artikel Wikipedia . Ini juga terlihat seperti rumus yang digunakan oleh R, Mathematica, dan GSL (tetapi bukan MATLAB). Namun, artikel Wikipedia juga berisi baris berikut yang terlihat seperti pemeriksaan kewarasan yang bagus untuk implementasi varians tertimbang:

Misalnya, jika nilai {2,2,4,5,5,5} diambil dari distribusi yang sama, maka kita dapat memperlakukan set ini sebagai sampel tanpa bobot, atau kita dapat memperlakukannya sebagai sampel tertimbang {2,4, 5} dengan bobot yang sesuai {2,1,3}, dan kita harus mendapatkan hasil yang sama.

Perhitungan saya memberikan nilai 2,1667 untuk varians dari nilai asli dan 2,9545 untuk varian tertimbang. Haruskah saya benar-benar berharap mereka sama? Mengapa atau mengapa tidak?

confusedCoder
sumber
6
pertanyaan ini sebenarnya bukan tentang implementasi, tetapi teori di baliknya
confusedCoder

Jawaban:

15

Ya, Anda harus mengharapkan kedua contoh (tidak berbobot vs berbobot) untuk memberi Anda hasil yang sama.

Saya telah menerapkan dua algoritma dari artikel Wikipedia.

Yang ini berfungsi:

xsayawsaya

s2 =1V11i=1Nwi(xiμ)2,

Namun yang ini (menggunakan bobot fraksional) tidak berfungsi untuk saya:

xi1/wsaya , estimator yang tidak bias dari varians populasi tertimbang diberikan oleh:

s2 =V1V12-V2saya=1Nwsaya(xsaya-μ)2

Saya masih menyelidiki alasan mengapa persamaan kedua tidak berfungsi sebagaimana dimaksud.

/ EDIT: Menemukan alasan mengapa persamaan kedua tidak berfungsi seperti yang saya kira: Anda dapat menggunakan persamaan kedua hanya jika Anda memiliki bobot yang dinormalisasi atau bobot varians (reliabilitas), dan BUKAN tidak bias, karena jika Anda tidak gunakan bobot "ulangi" (menghitung berapa kali pengamatan diamati dan karenanya harus diulang dalam operasi matematika Anda), Anda kehilangan kemampuan untuk menghitung jumlah total pengamatan, dan dengan demikian Anda tidak dapat menggunakan faktor koreksi.

Jadi ini menjelaskan perbedaan dalam hasil Anda menggunakan varian tertimbang dan tidak berbobot: perhitungan Anda bias.

Jadi, jika Anda ingin memiliki varian tertimbang yang tidak bias, gunakan hanya "ulangi" bobot dan gunakan persamaan pertama yang saya posting di atas. Jika itu tidak mungkin, yah, Anda tidak dapat menahannya.

Saya juga telah memperbarui artikel Wikipedia jika Anda ingin info lebih lanjut: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

Dan artikel terkait tentang kovarians tertimbang yang tidak bias (yang sebenarnya adalah varian yang sama karena Polarisasi Identitas ): Persamaan yang benar untuk kovarians sampel tidak bias tertimbang

gaborous
sumber
After reading and thinking a lot through this I still don't get an intuitive meaning or example of the term "reliability weights". Can you please elaborate a bit on that?
Peter
@Peter reliability weights are normalized weights, eg, bounded between 0 and 1 or -1 and 1. They represent a frequency (eg, 0.1 means that this sample was seen 10% of the time compared to all other samples). I did not invent the term, it can be found in publications. For repeat weights it is the opposite, each weight represent the number of occurences, the cardinality (eg, 10 if the sample was observed 10 times).
gaborous
This is confusing because what you call repeat weights is often also called frequency weights, but I think I got the difference. It depends on normalization, right?
Peter
Tidak, bobot frekuensi adalah nama alternatif untuk bobot reliabilitas. Untuk bobot berulang, ini adalah jumlah kejadian, bukan frekuensi. Dengan bobot berulang, tidak ada normalisasi sama sekali, itu intinya: selama Anda menormalkan bobot Anda, Anda kehilangan frekuensi basis, sehingga Anda tidak bisa sepenuhnya menghilangkan unbias perhitungan Anda. Satu-satunya cara adalah menjaga jumlah total kejadian. Jika Anda benar-benar ingin menggunakan bobot frekuensi, saya pikir jika Anda menyimpan sebelumnya jumlah N total kejadian yang dapat Anda konversi bolak-balik untuk mengulangi bobot dengan mengalikan bobot frekuensi dengan N, maka itu tidak masalah.
Gaborous
Dan jika bobot Anda adalah bobot 1 / varians, bagaimana Anda menyebutnya? Apakah itu "bobot reliabilitas"?
Tom Wenseleers