Koreksi bias dalam varian tertimbang

22

Untuk varians tak tertimbang terdapat varians sampel yang dikoreksi bias, ketika rerata diperkirakan dari data yang sama: Var(X):=1

Var(X): =1nsaya(xsaya-μ)2
Var(X): =1n-1saya(xsaya-E[X])2

Saya sedang mencari mean dan varian tertimbang, dan bertanya-tanya apa koreksi bias yang tepat untuk varian tertimbang. Menggunakan:

berarti(X): =1sayaωsayasayaωsayaxsaya

Varians "naif", tidak terkoreksi yang saya gunakan adalah ini:

Var(X): =1sayaωsayasayaωsaya(xsaya-berarti(X))2

Jadi saya bertanya-tanya apakah cara yang benar untuk mengoreksi bias

A)

Var(X): =1sayaωsaya-1sayaωsaya(xsaya-berarti(X))2

atau B)

Var(X):=nn11iωiiωi(ximean(X))2

atau C)

Var(X): =sayaωsaya(sayaωsaya)2-sayaωsaya2sayaωsaya(xsaya-berarti(X))2

A) tidak masuk akal bagi saya ketika bobotnya kecil. Nilai normalisasi bisa 0 atau bahkan negatif. Tetapi bagaimana dengan B) ( adalah jumlah pengamatan) - apakah ini pendekatan yang benar? Apakah Anda memiliki beberapa referensi yang menunjukkan ini? Saya percaya "Memperbarui estimasi rata-rata dan varians: metode yang ditingkatkan", DHD Barat, 1979 menggunakan ini. Yang ketiga, C) adalah interpretasi saya atas jawaban untuk pertanyaan ini: /mathpro/22203/unprice-estimate-of-the-variance-of-an-unnormalised-weighted-meann

Untuk C) Saya baru menyadari bahwa penyebutnya sangat mirip dengan . Apakah ada hubungan umum di sini? Saya pikir itu tidak sepenuhnya selaras; dan jelas ada koneksi yang kami coba hitung varians ...Var(Ω)

Mereka bertiga tampaknya "selamat" dari pemeriksaan kewarasan pengaturan semua . Jadi yang mana yang harus saya gunakan, di bawah bangunan mana? '' Pembaruan: '' whuber menyarankan untuk melakukan pengecekan kewarasan dengan dan semua yang tersisa tiny. Ini sepertinya mengesampingkan A dan B.ω 1 = ω 2 = .5 ω i = ϵωsaya=1ω1=ω2=.5ωsaya=ϵ

Anony-Mousse
sumber
Ketika Anda mempertimbangkan kasus-kasus di mana dua bobot terbesar sama dan semua sisanya menjadi semakin kecil, baik (A) dan (B) turun dari pertengkaran (karena mereka tidak setuju dengan hasil yang diketahui untuk ). (C) tampaknya merupakan perkiraan; Saya menduga faktor yang benar adalah fungsi bobot yang jauh lebih rumit. n=2
whuber
@whuber ThePawn di bawah ini menunjukkan bahwa itu adalah C. Apakah Anda memiliki masalah yang lebih detail?
Anony-Mousse
1
Solusi (A) berfungsi, saya telah mengimplementasikannya di masa lalu dan dapat mengkonfirmasi dari tes empiris bahwa itu memberikan hasil yang benar. Namun, Anda hanya harus menggunakan nilai integer untuk bobot dan> 0.
gaborous
Terima kasih! Ini banyak membantu saya untuk berada di jalur yang benar ketika bobotnya untuk rata-rata bergerak yang eksponensial! Ternyata cara naif untuk menghitung varians sebenarnya melebih-lebihkannya dengan faktor konstan 2, di samping koreksi kecil (1-1 / n) yang muncul secara analog dengan perhitungan rata-rata bergerak sederhana. Itu kasus khusus yang sangat gila!
Saolof

Jawaban:

10

Saya mempelajari matematika dan berakhir dengan varian C:

VSebuahr(X)=(sayaωsaya)2(sayaωsaya)2-sayaωsaya2V¯
V¯ωsaya

λsaya=ωsayasayaωsaya

V¯=sayaλsaya(xsaya-jλjxj)2

(xsaya-jλjxj)2=xsaya2+j,kλjλkxjxk-2jλjxsayaxj

E[xsayaxj]=VSebuahr(X)1saya=j+E[X]2E[X]

E[V¯]=VSebuahr(X)sayaλsaya(1+jλj2-2λsaya)
E[V¯]=VSebuahr(X)(1-jλj2)
λsayaωsaya
ThePawn
sumber
Itu varian C di atas, bukan?
Anony-Mousse
Oups, ya, itu varian C.
ThePawn
Saya telah memeriksa solusi ini secara empiris dan TIDAK BEKERJA ... Satu-satunya yang melakukannya adalah solusi (A) yang telah saya implementasikan sendiri sebelumnya, tetapi hanya berfungsi dengan bobot menjadi bilangan bulat dan> = 0
gaborous
2
Persamaan ini salah menurut Wikipedia, Matlab, R, dan lainnya yang menerapkan persamaan ini. Pembilang di sini adalah kuadrat, tetapi harus TIDAK, itu harus seperti (C) yang diusulkan oleh OP. Lihat en.wikipedia.org/wiki/…
gaborous
1
@rajatkhanduja Saya tidak berbicara tentang buktinya tetapi persamaan turunan akhir (yang teratas dalam jawaban ini). Tapi memang itu benar, pembilang hanya dikuadratkan karena kita mengalikan dengan V, sehingga pembilang akhirnya tidak dikuak. Bagaimanapun, penaksir ini tetap bias seperti yang saya jelaskan dalam jawaban saya di bawah karena bergantung pada bobot "reliabilitas".
Gaborous
7

Baik A dan C benar, tetapi yang mana yang akan Anda gunakan tergantung pada jenis bobot yang Anda gunakan:

  • A membutuhkan Anda untuk menggunakan "-type" bobot (bilangan bulat menghitung jumlah kejadian untuk setiap pengamatan), dan tidak bias .
  • C membutuhkan Anda untuk menggunakan "-type" bobot (baik bobot dinormalisasi atau varian untuk setiap pengamatan), dan bias . Itu tidak bisa tidak bias.

Alasan mengapa C selalu bias adalah karena jika Anda tidak menggunakan "-type" bobot, Anda kehilangan kemampuan untuk menghitung jumlah total pengamatan (ukuran sampel), dan dengan demikian Anda tidak dapat menggunakan faktor koreksi.

Untuk info lebih lanjut, periksa artikel Wikipedia yang baru-baru ini diperbarui: http://en.wikipedia.org/wiki/Berat_aritmatika_mean#Berat_sampel_varians

gaborous
sumber