Rumus untuk varian komputasi memiliki dalam penyebut:
Saya selalu bertanya-tanya mengapa. Namun, membaca dan menonton beberapa video bagus tentang "mengapa" itu tampaknya adalah penduga yang baik dan tidak bias dari varians populasi. Sedangkan meremehkan dan melebih-lebihkan varians populasi.
Yang saya ingin tahu, adalah bahwa di era tidak ada komputer, bagaimana tepatnya pilihan ini dibuat? Apakah ada bukti matematika aktual yang membuktikan ini atau apakah ini murni empiris dan ahli statistik membuat BANYAK perhitungan dengan tangan untuk menghasilkan "penjelasan terbaik" pada saat itu?
Hanya bagaimana para ahli statistik membuat formula ini pada awal abad ke-19 dengan bantuan komputer? Manual atau ada lebih dari memenuhi mata?
Jawaban:
Koreksi ini disebut koreksi Bessel dan memiliki bukti matematis. Secara pribadi, saya diajarkan dengan cara mudah: menggunakan adalah cara Anda mengoreksi bias (lihat di sini ).E [ 1n−1 E[1n∑n1(xi−x¯)2]
Anda juga dapat menjelaskan koreksi berdasarkan konsep derajat kebebasan, simulasi tidak sepenuhnya diperlukan.
sumber
Kebanyakan bukti yang saya lihat cukup sederhana sehingga Gauss (namun dia melakukannya) mungkin merasa cukup mudah untuk dibuktikan.
Saya telah mencari derivasi pada CV yang dapat saya tautkan dengan Anda (ada sejumlah tautan ke bukti di luar situs, termasuk setidaknya satu jawaban di sini), tetapi saya belum menemukan satu di sini di CV di beberapa pencarian, jadi demi kelengkapan, saya akan memberikan yang sederhana. Mengingat kesederhanaannya, mudah untuk melihat bagaimana orang akan mulai menggunakan apa yang biasa disebut koreksi Bessel .
Ini mengambil sebagai pengetahuan yang diasumsikan, dan mengasumsikan bahwa beberapa properti varians dasar pertama diketahui.E(X2)=Var(X)+E(X)2
sumber
Menurut Dunia Matematika Weisstein, ini pertama kali dibuktikan oleh Gauss pada tahun 1823. Rujukannya adalah volume 4 dari Gauss 'Werke, yang dapat dibaca di https://archive.org/details/werkecarlf04gausrich . Halaman yang relevan tampaknya adalah 47-49. Tampaknya Gauss menyelidiki pertanyaan itu dan memberikan bukti. Saya tidak membaca bahasa Latin, tetapi ada ringkasan Jerman dalam teks. Halaman 103-104 menjelaskan apa yang dia lakukan (Sunting: Saya menambahkan terjemahan kasar):
dari mana akan diketahui bahwa varians sampel adalah estimasi bias dari varians populasi. Artikel selanjutnya mengatakan bahwa perbedaan antara keduanya biasanya diabaikan karena tidak penting jika ukuran sampel cukup besar. Lalu tertulis:
Jadi jika ini memang yang pertama kali koreksi ditemukan, maka tampaknya itu ditemukan oleh perhitungan pintar oleh Gauss, tetapi orang-orang sudah menyadari bahwa beberapa koreksi diperlukan, jadi mungkin orang lain bisa menemukannya secara empiris sebelum ini . Atau mungkin penulis sebelumnya tidak peduli untuk mendapatkan jawaban yang tepat karena mereka bekerja dengan set data yang cukup besar.
Ringkasan: manual, tetapi orang-orang sudah tahu bahwa dalam penyebut tidak benar.n
sumber
Bagi saya, satu intuisi adalah itu
Itu adalah,
Sebenarnya membuktikan persamaan di atas membutuhkan sedikit aljabar (aljabar ini sangat mirip dengan jawaban @ Glen_b di atas). Tetapi dengan asumsi itu benar, kita dapat mengatur ulang untuk mendapatkan:
Bagi saya, intuisi lain adalah menggunakan alih-alih menimbulkan bias. Dan bias ini persis sama dengan . μX¯ μ E[(X¯−μ)2]=σ2n
sumber
Sebagian besar jawaban sudah menjelaskannya secara terperinci tetapi selain dari itu ada satu ilustrasi sederhana yang bisa membantu:
Misalkan Anda diberi bahwa dan tiga angka pertama adalah:n=4
Sekarang angka keempat bisa apa saja karena tidak ada kendala. Sekarang perhatikan situasi ketika Anda diberi bahwa dan , maka jika tiga angka pertama adalah: maka angka keempat harus .n=4 x¯=6 8,4,6 6
Ini untuk mengatakan bahwa jika Anda tahu nilai nilai dan , maka nilai- tidak memiliki kebebasan. Jadi memberi kita penduga yang tidak bias.n−1 x¯ nth n−1
sumber