Bagaimana tepatnya para ahli statistik setuju untuk menggunakan (n-1) sebagai penaksir tidak bias untuk varians populasi tanpa simulasi?

67

Rumus untuk varian komputasi memiliki dalam penyebut:(n1)

s2=i=1N(xix¯)2n1

Saya selalu bertanya-tanya mengapa. Namun, membaca dan menonton beberapa video bagus tentang "mengapa" itu tampaknya adalah penduga yang baik dan tidak bias dari varians populasi. Sedangkan meremehkan dan melebih-lebihkan varians populasi.(n1)n(n2)

Yang saya ingin tahu, adalah bahwa di era tidak ada komputer, bagaimana tepatnya pilihan ini dibuat? Apakah ada bukti matematika aktual yang membuktikan ini atau apakah ini murni empiris dan ahli statistik membuat BANYAK perhitungan dengan tangan untuk menghasilkan "penjelasan terbaik" pada saat itu?

Hanya bagaimana para ahli statistik membuat formula ini pada awal abad ke-19 dengan bantuan komputer? Manual atau ada lebih dari memenuhi mata?

PhD
sumber
13
Saya berasumsi Anda bermaksud mengatakan " tanpa bantuan komputer". Jawabannya - mungkin tidak mengejutkan - dengan menggunakan aljabar. Derivasinya cukup mudah dan di banyak tempat itu umum bagi siswa statistik untuk memperolehnya sebagai latihan / mempelajarinya sebagai undergrads.
Glen_b
Saya pikir ini memberikan penjelasan yang cukup bagus: en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid
Saya telah mengedit rumus Anda untuk menggunakan dan karena dalam penyebut adalah untuk varians sampel (simbol Latin) bukan varians populasi (simbol Yunani). ˉ x n - 1s2x¯n1
Alexis

Jawaban:

40

Koreksi ini disebut koreksi Bessel dan memiliki bukti matematis. Secara pribadi, saya diajarkan dengan cara mudah: menggunakan adalah cara Anda mengoreksi bias (lihat di sini ).E [ 1n1E[1n1n(xix¯)2]

Anda juga dapat menjelaskan koreksi berdasarkan konsep derajat kebebasan, simulasi tidak sepenuhnya diperlukan.

mugen
sumber
15
Bukti alternatif # 3 memiliki penjelasan intuitif yang indah yang bahkan orang awam pun bisa mengerti. Ide dasarnya adalah bahwa mean sampel tidak sama dengan mean populasi. Pengamatan Anda secara alami akan lebih dekat dengan rata-rata sampel daripada rata-rata populasi, dan ini berakhir dengan meremehkan yang istilah dengan istilah. Ini mungkin jelas bagi kebanyakan orang, tetapi saya tidak pernah memikirkan "intuisi" mengapa varians sampel bias menjadi bias sampai sekarang. Saya hanya belajar bukti formal. (xiμ)2(xix¯)2
WetlabStudent
2
Ada juga pendekatan geometris mengapa harus dikoreksi dengan n-1 (dijelaskan dengan sangat baik dalam Saville dan Wood: Metode Statistik: Pendekatan Geometrik). Sederhananya: Sampel n dapat dianggap sebagai ruang data n-dimensi. Vektor titik sampel ditambahkan ke vektor yang diamati yang dapat didekomposisi menjadi vektor model dengan p-dimensi yang sesuai dengan parameter p dan vektor kesalahan dengan dimensi np. Perpecahan Pythagoras yang sesuai dari vektor kesalahan memiliki kotak np yang rata-rata adalah ukuran untuk variasi.
giordano
Saya akan memberi Anda tautan yang indah yang berisi penjelasan singkat: en.wikipedia.org/wiki/Bias_of_an_estimator
Christina
Dapatkah Anda menjelaskan mengapa dalam bukti (alternatif 3) kita asumsikan bahwa kedua varians benar dan bias dihitung dengan menggunakan 's? Masalah varians yang berbeda muncul ketika kita memiliki populasi (dengan varians yang benar) dan sampel (dengan varians yang bias). Tetapi jika kita menghitung varians pada data yang sama, yaitu , mengapa mereka harus berbeda? Di sana kami menganggap sebagai varian sebenarnya yang dihitung menggunakan sama persis dengan yang bias . Saya tidak bisa setuju dengan bukti ini. Tolong bantu, apa yang saya lewatkan? n xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov
56

Kebanyakan bukti yang saya lihat cukup sederhana sehingga Gauss (namun dia melakukannya) mungkin merasa cukup mudah untuk dibuktikan.

Saya telah mencari derivasi pada CV yang dapat saya tautkan dengan Anda (ada sejumlah tautan ke bukti di luar situs, termasuk setidaknya satu jawaban di sini), tetapi saya belum menemukan satu di sini di CV di beberapa pencarian, jadi demi kelengkapan, saya akan memberikan yang sederhana. Mengingat kesederhanaannya, mudah untuk melihat bagaimana orang akan mulai menggunakan apa yang biasa disebut koreksi Bessel .

Ini mengambil sebagai pengetahuan yang diasumsikan, dan mengasumsikan bahwa beberapa properti varians dasar pertama diketahui.E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2
Glen_b
sumber
1
properti mana yang membuat istilah menghilang? 2x¯i=1nxi
Ciprian Tomoiagă
3
Itu tidak hilang. Apakah Anda memperhatikan tanda dari term terakhir berubah?
Glen_b
1
(+1) Baru-baru ini saya mendengar bukti hebat yang menurut saya pribadi lebih intuitif. Varians sampel dengan faktor dapat dinyatakan kembali sebagai rata-rata dari semua perbedaan kuadrat antara semua pasangan poin. Sekarang perhatikan bahwa pasangan di mana titik yang sama masuk dua kali semuanya nol, dan ini bias ekspresi. Tampaknya masuk akal untuk memperbaiki bias dengan mengecualikan semua pasangan ini dari jumlah ganda dan hanya rata-rata di seluruh yang lain. Ini menghasilkan koreksi Bessel. 1/n
Amoeba berkata Reinstate Monica
1
Tidak, tidak apa-apa, berhasil memecahkannya. , jadi Anda hanya menerapkan identitas yang sama yang Anda sebutkan di atas untuk kedua istilah di baris 3.V[x¯]=V[x]n
tel
1
Setiap varian iid memiliki momen kedua yang sama. Kami beralih dari berbicara tentang mereka semua menjadi hanya membahas salah satunya. Anda dapat dengan mudah mengambil (dan beberapa orang melakukannya) atau atau ... tapi saya telah mengambil -thx1x2xni
Glen_b
37

Menurut Dunia Matematika Weisstein, ini pertama kali dibuktikan oleh Gauss pada tahun 1823. Rujukannya adalah volume 4 dari Gauss 'Werke, yang dapat dibaca di https://archive.org/details/werkecarlf04gausrich . Halaman yang relevan tampaknya adalah 47-49. Tampaknya Gauss menyelidiki pertanyaan itu dan memberikan bukti. Saya tidak membaca bahasa Latin, tetapi ada ringkasan Jerman dalam teks. Halaman 103-104 menjelaskan apa yang dia lakukan (Sunting: Saya menambahkan terjemahan kasar):

Selain itu, Anda juga dapat melihat lebih banyak, melihat lebih banyak, lebih baik memilih satu sama lain, jadi pilihlah satu untuk semua orang, lalu lakukan apa yang harus dilakukan untuk semua orang, lakukan hal yang sama dengan apa yang harus dilakukan, atau tidak untuk hasil als sie wirklich besitzen. [Tetapi karena seseorang tidak berhak memperlakukan nilai-nilai yang paling mungkin seolah-olah nilai-nilai aktual, seseorang dapat dengan mudah meyakinkan diri sendiri bahwa seseorang harus selalu menemukan bahwa kesalahan yang paling mungkin dan kesalahan rata-rata terlalu kecil, dan oleh karena itu hasil yang diberikan memiliki akurasi yang lebih besar daripada yang sebenarnya mereka miliki.]

dari mana akan diketahui bahwa varians sampel adalah estimasi bias dari varians populasi. Artikel selanjutnya mengatakan bahwa perbedaan antara keduanya biasanya diabaikan karena tidak penting jika ukuran sampel cukup besar. Lalu tertulis:

Atau Verdasser topi daher diesen Gegenstand eine besondere Untersuchung unterworfen, die zu einem sehr Merkwuerdigen hoechst einfachen resultate gefuehrt hat. Man braucht nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler, um ihn in die richtigen zu verwandeln, nur mit

πρπ

zu multiplicieren, wo mati Anzahl der beobachtungen (jumlah observasi) und mati Anzahl der unbekannten Groessen (jumlah yang tidak diketahui) bedeutet. [Karena itu penulis telah membuat studi khusus tentang objek ini yang telah menyebabkan hasil yang sangat aneh dan sangat sederhana. Yaitu, orang hanya perlu mengalikan kesalahan rata-rata yang ditemukan oleh proses yang salah di atas dengan (ekspresi yang diberikan) untuk mengubahnya menjadi yang benar, di mana adalah jumlah pengamatan dan adalah jumlah jumlah yang tidak diketahui.]πρπρ

Jadi jika ini memang yang pertama kali koreksi ditemukan, maka tampaknya itu ditemukan oleh perhitungan pintar oleh Gauss, tetapi orang-orang sudah menyadari bahwa beberapa koreksi diperlukan, jadi mungkin orang lain bisa menemukannya secara empiris sebelum ini . Atau mungkin penulis sebelumnya tidak peduli untuk mendapatkan jawaban yang tepat karena mereka bekerja dengan set data yang cukup besar.

Ringkasan: manual, tetapi orang-orang sudah tahu bahwa dalam penyebut tidak benar.n

Flounderer
sumber
Jika seseorang bisa menyediakan terjemahan bahasa Jerman, itu akan menyenangkan. Saya tidak membaca bahasa Jerman.
Faheem Mitha
2
Ya, Google Terjemahan tidak berfungsi dengan baik karena kesalahan pengejaan saya! Saya akan menambahkan upaya terjemahan; itu akan menjadi cara yang baik untuk melatih bahasa Jerman saya.
Flounderer
14

Bagi saya, satu intuisi adalah itu

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

Itu adalah,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

Sebenarnya membuktikan persamaan di atas membutuhkan sedikit aljabar (aljabar ini sangat mirip dengan jawaban @ Glen_b di atas). Tetapi dengan asumsi itu benar, kita dapat mengatur ulang untuk mendapatkan:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

Bagi saya, intuisi lain adalah menggunakan alih-alih menimbulkan bias. Dan bias ini persis sama dengan . μX¯μE[(X¯μ)2]=σ2n

Kenny LJ
sumber
12

Sebagian besar jawaban sudah menjelaskannya secara terperinci tetapi selain dari itu ada satu ilustrasi sederhana yang bisa membantu:

Misalkan Anda diberi bahwa dan tiga angka pertama adalah:n=4

8,4,6 , _

Sekarang angka keempat bisa apa saja karena tidak ada kendala. Sekarang perhatikan situasi ketika Anda diberi bahwa dan , maka jika tiga angka pertama adalah: maka angka keempat harus .n=4x¯=68,4,66

Ini untuk mengatakan bahwa jika Anda tahu nilai nilai dan , maka nilai- tidak memiliki kebebasan. Jadi memberi kita penduga yang tidak bias.n1x¯nthn1

Satwik Bhattamishra
sumber