Saya memiliki dataset pengamatan sampel, disimpan sebagai jumlah dalam jangkauan sampah. misalnya:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Sekarang, menemukan perkiraan rata-rata dari ini cukup mudah. Cukup gunakan rata-rata (atau median) dari masing-masing rentang bin sebagai pengamatan dan menghitung sebagai bobot dan temukan rata-rata tertimbang:
Untuk kasus pengujian saya, ini memberi saya 53,82.
Pertanyaan saya sekarang adalah, apa metode yang benar untuk menemukan standar deviasi (atau varian)?
Melalui pencarian saya, saya telah menemukan beberapa jawaban, tetapi saya tidak yakin yang mana, jika ada, sebenarnya sesuai untuk dataset saya. Saya dapat menemukan rumus berikut pada pertanyaan lain di sini dan dokumen NIST acak .
Yang memberikan standar deviasi 8,35 untuk test case saya. Namun, artikel Wikipedia tentang cara tertimbang memberikan kedua rumus:
dan
Yang memberikan standar deviasi 8,66 dan 7,83, masing-masing, untuk kasus uji saya.
Memperbarui
Terima kasih kepada @whuber yang menyarankan untuk melihat Koreksi Sheppard, dan komentar Anda yang bermanfaat terkait dengannya. Sayangnya, saya mengalami kesulitan memahami sumber daya yang dapat saya temukan (dan saya tidak dapat menemukan contoh yang bagus). Singkatnya, saya mengerti bahwa berikut ini adalah estimasi varians yang bias:
Saya juga mengerti bahwa sebagian besar koreksi standar untuk bias adalah untuk sampel acak langsung dari distribusi normal. Karena itu, saya melihat dua masalah potensial bagi saya:
- Ini adalah sampel acak binned (yang, saya cukup yakin, adalah tempat Sheppard's Corrections masuk.)
- Tidak diketahui apakah data tersebut untuk distribusi normal (jadi saya berasumsi tidak, yang, saya yakin, membatalkan koreksi Sheppard.)
Jadi, pertanyaan saya yang diperbarui adalah; Apa metode yang tepat untuk menangani bias yang diberlakukan oleh rumus deviasi / varian standar tertimbang "sederhana" pada distribusi yang tidak normal? Paling khusus berkaitan dengan data yang dibuang.
Catatan: Saya menggunakan ketentuan berikut:
- adalah varian tertimbang
- adalah jumlah pengamatan. (yaitu jumlah tempat sampah)
- adalah jumlah bobot bukan nol. (yaitu jumlah nampan dengan jumlah)
- adalah bobot (yaitu jumlah)
- adalah pengamatan. (Yaitu tempat sampah)
- adalah rata-rata tertimbang.
Jawaban:
Balasan ini menyajikan dua solusi: Koreksi Sheppard dan estimasi kemungkinan maksimum. Keduanya sangat setuju pada estimasi standar deviasi: untuk yang pertama dan 7,69 untuk yang kedua (bila disesuaikan agar sebanding dengan penduga "tidak bias" yang biasa).7.70 7.69
Koreksi Sheppard
"Koreksi Sheppard" adalah rumus yang mengatur momen yang dihitung dari data yang dibuang (seperti ini) di mana
data diasumsikan diatur oleh distribusi yang didukung pada interval terbatas[a,b]
interval tersebut dibagi secara berurutan menjadi nampan yang sama dengan lebar umum yang relatif kecil (tidak ada nampan berisi sebagian besar dari semua data)h
distribusi memiliki fungsi kepadatan kontinu.
Mereka diturunkan dari rumus jumlah Euler-Maclaurin, yang mendekati integral dalam hal kombinasi linear dari nilai-nilai integrand pada titik-titik yang berjarak secara teratur, dan oleh karena itu umumnya berlaku (dan bukan hanya untuk distribusi Normal).
Meskipun secara tegas distribusi Normal tidak didukung pada interval terbatas, hingga perkiraan yang sangat dekat. Pada dasarnya semua probabilitasnya terkandung dalam tujuh standar deviasi rata-rata. Oleh karena itu koreksi Sheppard berlaku untuk data yang diasumsikan berasal dari distribusi Normal.
Dua koreksi Sheppard pertama adalah
Gunakan rata-rata dari data yang dibuang untuk rata-rata data (yaitu, tidak diperlukan koreksi untuk rata-rata).
Kurangih2/12 dari varians dari data binned untuk mendapatkan (perkiraan) varians dari data.
Mari kita lakukan perhitungan. Saya gunakan
R
untuk mengilustrasikannya, mulai dengan menentukan jumlah dan nampan:Rumus yang tepat untuk digunakan untuk penghitungan berasal dari mereplikasi lebar bin dengan jumlah yang diberikan oleh penghitungan; yaitu, data yang dikosongkan setara dengan
mu
sigma2
Estimasi Kemungkinan Maksimum
(see MLE/Likelihood of lognormally distributed interval).
Summing over all bins gives the log likelihoodΛ(θ) for the dataset. As usual, we find an estimate θ^ which minimizes −Λ(θ) . This requires numerical optimization and that is expedited by supplying good starting values for θ . The following
R
code does the work for a Normal distribution:The resulting coefficients are(μ^,σ^)=(54.32,7.33) .
Remember, though, that for Normal distributions the maximum likelihood estimate ofσ (when the data are given exactly and not binned) is the population SD of the data, not the more conventional "bias corrected" estimate in which the variance is multiplied by n/(n−1) . Let us then (for comparison) correct the MLE of σ , finding n/(n−1)−−−−−−−−√σ^=11/10−−−−−√×7.33=7.69 . This compares favorably with the result of Sheppard's correction, which was 7.70 .
Verifying the Assumptions
To visualize these results we can plot the fitted Normal density over a histogram:
To some this might not look like a good fit. However, because the dataset is small (only11 values), surprisingly large deviations between the distribution of the observations and the true underlying distribution can occur.
Let's more formally check the assumption (made by the MLE) that the data are governed by a Normal distribution. An approximate goodness of fit test can be obtained from aχ2 test: the estimated parameters indicate the expected amount of data in each bin; the χ2 statistic compares the observed counts to the expected counts. Here is a test in
R
:The output is
The software has performed a permutation test (which is needed because the test statistic does not follow a chi-squared distribution exactly: see my analysis at How to Understand Degrees of Freedom). Its p-value of0.245 , which is not small, shows very little evidence of departure from normality: we have reason to trust the maximum likelihood results.
sumber