Saya tidak mengerti mengapa ada N
dan N-1
sambil menghitung varians populasi. Kapan kita menggunakan N
dan kapan kita menggunakan N-1
?
Klik di sini untuk versi yang lebih besar
Dikatakan bahwa ketika populasi sangat besar tidak ada perbedaan antara N dan N-1 tetapi tidak mengatakan mengapa ada N-1 pada awalnya.
Sunting: Tolong jangan bingung dengan n
dan n-1
yang digunakan dalam memperkirakan.
Sunting2: Saya tidak berbicara tentang perkiraan populasi.
variance
population
ilhan
sumber
sumber
Jawaban:
n ( N - 1 ) / N = 1 - ( 1 / N ) 1 - 2 / N 1 - 17 / N exp ( - 1 / N )N adalah ukuran populasi dan adalah ukuran sampel. Pertanyaannya menanyakan mengapa varians populasi adalah deviasi kuadrat rata-rata dari mean daripada kali. Untuk itu, mengapa berhenti di situ? Mengapa tidak mengalikan deviasi kuadrat rata-rata dengan , atau , atau , misalnya?n (N−1)/N=1−(1/N) 1−2/N 1−17/N exp(−1/N)
Sebenarnya ada alasan bagus untuk tidak melakukannya. Salah satu dari angka-angka ini yang baru saja saya sebutkan akan berfungsi dengan baik sebagai cara untuk menghitung "penyebaran tipikal" dalam populasi. Namun, tanpa pengetahuan sebelumnya tentang ukuran populasi, mustahil untuk menggunakan sampel acak untuk menemukan penduga yang tidak bias dari angka tersebut. Kita tahu bahwa varians sampel , yang mengalikan deviasi kuadrat rata-rata dari mean sampel dengan , adalah penaksir yang tidak bias dari varians populasi yang biasa ketika pengambilan sampel dengan penggantian. (Tidak ada masalah dengan membuat koreksi ini, karena kita tahu !) Oleh karena itu varians sampel akan menjadi penaksir yang bias dari kelipatan dari setiap varians populasi di mana kelipatan tersebut, sepertin 1 - 1 / N(n−1)/n n 1−1/N , tidak diketahui secara pasti sebelumnya.
Masalah sejumlah bias yang tidak diketahui ini akan menyebar ke semua uji statistik yang menggunakan varians sampel, termasuk uji-t dan uji-F. Akibatnya, membaginya dengan apa pun selain dalam rumus varians populasi akan mengharuskan kita untuk mengubah semua tabulasi statistik t-statistik dan F-statistik (dan banyak tabel lainnya juga), tetapi penyesuaiannya akan tergantung pada ukuran populasi. Tidak ada yang mau harus membuat tabel untuk setiap kemungkinan ! Apalagi saat itu tidak perlu.NN N
Sebagai masalah praktis, ketika cukup kecil bahwa menggunakan bukan dalam formula membuat perbedaan, Anda biasanya lakukan tahu ukuran populasi (atau bisa menebak secara akurat) dan Anda mungkin akan resor untuk jauh lebih substansial kecil-populasi koreksi ketika bekerja dengan sampel acak (tanpa penggantian) dari populasi. Dalam semua kasus lain, siapa yang peduli? Perbedaannya tidak masalah. Untuk alasan ini, dipandu oleh pertimbangan pedagogis (yaitu, fokus pada detail yang penting dan mengabaikan detail yang tidak), beberapa teks statistik pengantar yang sangat baik bahkan tidak repot-repot untuk mengajarkan perbedaan: mereka hanya menyediakan formula varian tunggal ( dibagi denganN - 1 N N nN N−1 N N atau seperti kasusnya).n
sumber
Alih-alih masuk ke matematika saya akan mencoba memasukkannya ke dalam kata-kata sederhana. Jika Anda memiliki seluruh populasi yang Anda inginkan maka variansnya ( varians populasi ) dihitung dengan penyebutnya
N
. Demikian juga, jika Anda hanya memiliki sampel dan ingin menghitung varians sampel ini , Anda menggunakan penyebutN
(n sampel, dalam hal ini). Dalam kedua kasus tersebut, perhatikan, Anda tidak memperkirakan apa pun: mean yang Anda ukur adalah mean sebenarnya dan varians yang Anda hitung dari mean itu adalah varian sebenarnya.Sekarang, Anda hanya memiliki sampel dan ingin menyimpulkan tentang mean dan varians yang tidak diketahui dalam populasi. Dengan kata lain, Anda menginginkan taksiran . Anda mengambil mean sampel Anda untuk estimasi mean populasi (karena sampel Anda representatif), oke. Untuk mendapatkan estimasi varians populasi, Anda harus berpura-pura bahwa mean itu benar-benar mean populasi dan karenanya tidak lagi tergantung pada sampel Anda sejak saat Anda menghitungnya. Untuk "menunjukkan" bahwa Anda sekarang menganggapnya tetap, Anda mencadangkan satu (setiap) pengamatan dari sampel Anda untuk "mendukung" nilai rata-rata: apa pun sampel Anda yang mungkin terjadi, satu pengamatan yang dicadangkan selalu dapat membawa nilai rata-rata ke nilai yang Anda inginkan. sudah dan yang percaya tidak sensitif terhadap kontingensi pengambilan sampel. Satu pengamatan khusus adalah "-1"
N-1
dalam menghitung estimasi varians.Bayangkan bahwa Anda entah bagaimana mengetahui populasi sebenarnya, tetapi ingin memperkirakan varians dari sampel. Kemudian Anda akan mengganti mean sebenarnya ke dalam formula untuk varian dan menerapkan penyebut
N
: tidak ada "-1" yang diperlukan di sini karena Anda tahu mean sebenarnya, Anda tidak memperkirakannya dari sampel yang sama.sumber
N
untuk N dan n.N
adalah ukuran totalitas yang ada, baik populasi atau sampel. Untuk menghitung varians populasi , Anda harus memiliki populasi yang tersedia. Jika Anda hanya memiliki sampel, Anda dapat menghitung varians sampel ini atau menghitung varians perkiraan populasi . Tidak ada jalan lain.Secara umum, ketika seseorang hanya memiliki sebagian kecil dari populasi, yaitu sampel, Anda harus membaginya dengan n-1. Ada alasan bagus untuk melakukannya, kita tahu bahwa varians sampel, yang mengalikan deviasi kuadrat rata-rata dari mean sampel dengan (n − 1) / n, adalah penaksir yang tidak bias dari varians populasi.
Anda dapat menemukan bukti bahwa penaksir varians sampel tidak bias di sini: https://economictheoryblog.com/2012/06/28/latexlatexs2/
Lebih lanjut, jika seseorang harus menerapkan penaksir varians populasi, yaitu versi penaksir varians yang membaginya dengan n, pada sampel alih-alih populasi, estimasi yang diperoleh akan bias.
sumber
Ada, di masa lalu ada argumen bahwa Anda harus menggunakan N untuk varian non-inferensial tetapi saya tidak akan merekomendasikan itu lagi. Anda harus selalu menggunakan N-1. Ketika ukuran sampel berkurang, N-1 adalah koreksi yang cukup baik untuk fakta bahwa varians sampel semakin rendah (Anda hanya cenderung untuk sampel di dekat puncak distribusi --- lihat gambar). Jika ukuran sampel sangat besar maka tidak masalah jumlah yang berarti.
Penjelasan alternatif adalah bahwa populasi adalah konstruksi teoretis yang tidak mungkin dicapai. Karena itu, selalu gunakan N-1 karena apa pun yang Anda lakukan, paling baik, memperkirakan varians populasi.
Juga, Anda akan melihat N-1 untuk perkiraan varians mulai dari sini. Anda mungkin tidak akan pernah mengalami masalah ini ... kecuali pada tes ketika guru Anda mungkin meminta Anda untuk membuat perbedaan antara yang inferensial dan ukuran varians non-inferensial. Dalam hal itu jangan gunakan jawaban whuber atau milik saya, lihat jawaban ttnphns.
Catatan, pada gambar ini varians harus dekat dengan 1. Lihat seberapa bervariasi dengan ukuran sampel ketika Anda menggunakan N untuk memperkirakan varians. (ini adalah "bias" yang disebut di tempat lain)
sumber
Varians populasi adalah jumlah dari penyimpangan kuadrat dari semua nilai dalam populasi dibagi dengan jumlah nilai dalam populasi. Ketika kami memperkirakan varians dari populasi dari sampel, kami menemukan masalah bahwa penyimpangan nilai sampel dari rata-rata sampel, rata-rata, sedikit kurang dari penyimpangan nilai-nilai sampel dari ( tidak diketahui) mean populasi benar. Itu menghasilkan varian yang dihitung dari sampel yang sedikit kurang dari varian populasi yang sebenarnya. Menggunakan pembagi n-1 sebagai ganti n mengoreksi untuk perkiraan yang terlalu rendah.
sumber