Apa perbedaan antara N dan N-1 dalam menghitung varians populasi?

50

Saya tidak mengerti mengapa ada Ndan N-1sambil menghitung varians populasi. Kapan kita menggunakan Ndan kapan kita menggunakan N-1?

masukkan deskripsi gambar di sini
Klik di sini untuk versi yang lebih besar

Dikatakan bahwa ketika populasi sangat besar tidak ada perbedaan antara N dan N-1 tetapi tidak mengatakan mengapa ada N-1 pada awalnya.

Sunting: Tolong jangan bingung dengan ndan n-1yang digunakan dalam memperkirakan.

Sunting2: Saya tidak berbicara tentang perkiraan populasi.

ilhan
sumber
5
Anda dapat menemukan jawabannya di sana: stats.stackexchange.com/questions/16008/… . Pada dasarnya, Anda harus menggunakan N-1 ketika Anda memperkirakan varians, dan N ketika Anda menghitungnya dengan tepat.
ocram
@ocram, sejauh yang saya tahu ketika kami memperkirakan varian kami menggunakan n atau n-1.
ilhan
Jika Anda ingin estimator Anda tidak bias, maka Anda harus menggunakan n-1. Perhatikan bahwa ketika n besar, ini bukan masalah.
ocram
2
Tidak ada jawaban di bawah ini yang ditulis dalam hal inferensi populasi terbatas. Kata terbatas sangat penting di sini; itulah isi buku Kish (dan siapa pun yang mengatakan "Buku itu salah" tidak cukup tahu tentang survei populasi terbatas dan sampel). Quotient bukan hanya membuat perhitungan yang lebih baik dan menyingkirkan kebutuhan untuk jarak sekitar faktor seperti . Jawaban penuh untuk pertanyaan ini harus memperkenalkan inferensi sampling dimana indikator sampel acak, dan nilai-nilai karakteristik yang diamati yang TETAP. Tidak acak. Diatur dalam batu. N 1 - 1 / N yN1N11/Ny
Tugas
2
Ini tidak benar-benar menambah jawaban lain. Bahwa pembagi yang berbeda memberikan jawaban yang berbeda, atau bahkan perbedaannya berkurang dengan N, tidak dipermasalahkan. Pertanyaannya adalah kapan dan mengapa harus menggunakan pembagi kedua.
Nick Cox

Jawaban:

26

n ( N - 1 ) / N = 1 - ( 1 / N ) 1 - 2 / N 1 - 17 / N exp ( - 1 / N )N adalah ukuran populasi dan adalah ukuran sampel. Pertanyaannya menanyakan mengapa varians populasi adalah deviasi kuadrat rata-rata dari mean daripada kali. Untuk itu, mengapa berhenti di situ? Mengapa tidak mengalikan deviasi kuadrat rata-rata dengan , atau , atau , misalnya?n(N1)/N=1(1/N)12/N117/Nexp(1/N)

Sebenarnya ada alasan bagus untuk tidak melakukannya. Salah satu dari angka-angka ini yang baru saja saya sebutkan akan berfungsi dengan baik sebagai cara untuk menghitung "penyebaran tipikal" dalam populasi. Namun, tanpa pengetahuan sebelumnya tentang ukuran populasi, mustahil untuk menggunakan sampel acak untuk menemukan penduga yang tidak bias dari angka tersebut. Kita tahu bahwa varians sampel , yang mengalikan deviasi kuadrat rata-rata dari mean sampel dengan , adalah penaksir yang tidak bias dari varians populasi yang biasa ketika pengambilan sampel dengan penggantian. (Tidak ada masalah dengan membuat koreksi ini, karena kita tahu !) Oleh karena itu varians sampel akan menjadi penaksir yang bias dari kelipatan dari setiap varians populasi di mana kelipatan tersebut, sepertin 1 - 1 / N(n1)/nn11/N, tidak diketahui secara pasti sebelumnya.

Masalah sejumlah bias yang tidak diketahui ini akan menyebar ke semua uji statistik yang menggunakan varians sampel, termasuk uji-t dan uji-F. Akibatnya, membaginya dengan apa pun selain dalam rumus varians populasi akan mengharuskan kita untuk mengubah semua tabulasi statistik t-statistik dan F-statistik (dan banyak tabel lainnya juga), tetapi penyesuaiannya akan tergantung pada ukuran populasi. Tidak ada yang mau harus membuat tabel untuk setiap kemungkinan ! Apalagi saat itu tidak perlu.NNN

Sebagai masalah praktis, ketika cukup kecil bahwa menggunakan bukan dalam formula membuat perbedaan, Anda biasanya lakukan tahu ukuran populasi (atau bisa menebak secara akurat) dan Anda mungkin akan resor untuk jauh lebih substansial kecil-populasi koreksi ketika bekerja dengan sampel acak (tanpa penggantian) dari populasi. Dalam semua kasus lain, siapa yang peduli? Perbedaannya tidak masalah. Untuk alasan ini, dipandu oleh pertimbangan pedagogis (yaitu, fokus pada detail yang penting dan mengabaikan detail yang tidak), beberapa teks statistik pengantar yang sangat baik bahkan tidak repot-repot untuk mengajarkan perbedaan: mereka hanya menyediakan formula varian tunggal ( dibagi denganN - 1 N N nNN1NN atau seperti kasusnya).n

whuber
sumber
24

Alih-alih masuk ke matematika saya akan mencoba memasukkannya ke dalam kata-kata sederhana. Jika Anda memiliki seluruh populasi yang Anda inginkan maka variansnya ( varians populasi ) dihitung dengan penyebutnya N. Demikian juga, jika Anda hanya memiliki sampel dan ingin menghitung varians sampel ini , Anda menggunakan penyebut N(n sampel, dalam hal ini). Dalam kedua kasus tersebut, perhatikan, Anda tidak memperkirakan apa pun: mean yang Anda ukur adalah mean sebenarnya dan varians yang Anda hitung dari mean itu adalah varian sebenarnya.

Sekarang, Anda hanya memiliki sampel dan ingin menyimpulkan tentang mean dan varians yang tidak diketahui dalam populasi. Dengan kata lain, Anda menginginkan taksiran . Anda mengambil mean sampel Anda untuk estimasi mean populasi (karena sampel Anda representatif), oke. Untuk mendapatkan estimasi varians populasi, Anda harus berpura-pura bahwa mean itu benar-benar mean populasi dan karenanya tidak lagi tergantung pada sampel Anda sejak saat Anda menghitungnya. Untuk "menunjukkan" bahwa Anda sekarang menganggapnya tetap, Anda mencadangkan satu (setiap) pengamatan dari sampel Anda untuk "mendukung" nilai rata-rata: apa pun sampel Anda yang mungkin terjadi, satu pengamatan yang dicadangkan selalu dapat membawa nilai rata-rata ke nilai yang Anda inginkan. sudah dan yang percaya tidak sensitif terhadap kontingensi pengambilan sampel. Satu pengamatan khusus adalah "-1"N-1 dalam menghitung estimasi varians.

Bayangkan bahwa Anda entah bagaimana mengetahui populasi sebenarnya, tetapi ingin memperkirakan varians dari sampel. Kemudian Anda akan mengganti mean sebenarnya ke dalam formula untuk varian dan menerapkan penyebut N: tidak ada "-1" yang diperlukan di sini karena Anda tahu mean sebenarnya, Anda tidak memperkirakannya dari sampel yang sama.

ttnphns
sumber
Tapi pertanyaan saya tidak ada hubungannya dengan estimasi. Ini tentang menghitung varians populasi; dengan N dan N-1. Saya tidak berbicara tentang n dan n-1.
ilhan
1
@hanhan, dalam balasan saya, saya digunakan Nuntuk N dan n. Nadalah ukuran totalitas yang ada, baik populasi atau sampel. Untuk menghitung varians populasi , Anda harus memiliki populasi yang tersedia. Jika Anda hanya memiliki sampel, Anda dapat menghitung varians sampel ini atau menghitung varians perkiraan populasi . Tidak ada jalan lain.
ttnphns
Saya memiliki informasi lengkap tentang populasi saya; semua nilai diketahui. Saya tidak tertarik pada estimasi.
ilhan
1
Jika Anda memiliki populasi maka gunakan N. N-1 tidak masuk akal untuk digunakan.
ttnphns
1
@ilhan - Tidak dapat mengomentari langsung komentar Anda ke ttnphns, tapi di sini ada penjelasan tentang apa yang Anda lihat di buku dan bagaimana Anda harus menyimpulkannya. Simbol 'S' ketika digunakan untuk menyiratkan varians selalu mengacu pada varians sampel. Huruf sigma Yunani digunakan untuk merujuk pada varians populasi. Itulah alasan mengapa Anda melihat buku menyebutkan S = N * sigma / (N - 1)
Arvind
9

Secara umum, ketika seseorang hanya memiliki sebagian kecil dari populasi, yaitu sampel, Anda harus membaginya dengan n-1. Ada alasan bagus untuk melakukannya, kita tahu bahwa varians sampel, yang mengalikan deviasi kuadrat rata-rata dari mean sampel dengan (n − 1) / n, adalah penaksir yang tidak bias dari varians populasi.

Anda dapat menemukan bukti bahwa penaksir varians sampel tidak bias di sini: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Lebih lanjut, jika seseorang harus menerapkan penaksir varians populasi, yaitu versi penaksir varians yang membaginya dengan n, pada sampel alih-alih populasi, estimasi yang diperoleh akan bias.

Frank Kelly
sumber
Ini tampaknya menjawab pertanyaan yang berbeda mengenai memperkirakan varians populasi. Kelihatannya melingkar: bukankah jawaban ini didasarkan pada asumsi konvensi khusus untuk mendefinisikan varians populasi?
whuber
7

Ada, di masa lalu ada argumen bahwa Anda harus menggunakan N untuk varian non-inferensial tetapi saya tidak akan merekomendasikan itu lagi. Anda harus selalu menggunakan N-1. Ketika ukuran sampel berkurang, N-1 adalah koreksi yang cukup baik untuk fakta bahwa varians sampel semakin rendah (Anda hanya cenderung untuk sampel di dekat puncak distribusi --- lihat gambar). Jika ukuran sampel sangat besar maka tidak masalah jumlah yang berarti.

Penjelasan alternatif adalah bahwa populasi adalah konstruksi teoretis yang tidak mungkin dicapai. Karena itu, selalu gunakan N-1 karena apa pun yang Anda lakukan, paling baik, memperkirakan varians populasi.

Juga, Anda akan melihat N-1 untuk perkiraan varians mulai dari sini. Anda mungkin tidak akan pernah mengalami masalah ini ... kecuali pada tes ketika guru Anda mungkin meminta Anda untuk membuat perbedaan antara yang inferensial dan ukuran varians non-inferensial. Dalam hal itu jangan gunakan jawaban whuber atau milik saya, lihat jawaban ttnphns.

Gambar 1

Catatan, pada gambar ini varians harus dekat dengan 1. Lihat seberapa bervariasi dengan ukuran sampel ketika Anda menggunakan N untuk memperkirakan varians. (ini adalah "bias" yang disebut di tempat lain)

John
sumber
1
Tolong, beri tahu saya mengapa N "tidak direkomendasikan lagi" dengan populasi sebenarnya? Populasi tidak selalu merupakan konstruksi teoretis. Terkadang sampel Anda adalah populasi bonafid untuk Anda.
ttnphns
1
ilhan, N dapat digunakan untuk sampel Anda, atau dapat digunakan untuk ukuran populasi, jika ada. Dalam kebanyakan kasus, perbedaan antara N besar dan kecil n bergantung pada topik. Misalnya, n mungkin merupakan jumlah kasus di setiap kondisi dalam percobaan sementara N mungkin menjadi jumlah untuk percobaan. Mereka berdua sampel. Tidak ada aturan global.
John
1
Namun, itu tergantung pada apa yang Anda maksud dengan populasi. Saya berpendapat bahwa jika seluruh populasi Anda begitu kecil sehingga N-1 penting maka dipertanyakan apakah menghitung deviasi kuadrat rata-rata sangat berguna sama sekali. Tampilkan semua nilai, bentuk, dan rentangnya. Selain itu, seluruh argumen lama bahwa Anda benar-benar memiliki derajat kebebasan N jika Anda tidak membuat kesimpulan patut dipertanyakan. Anda kehilangan satu ketika Anda menghitung rata-rata, bahwa Anda perlu menghitung varians.
John
1
@ John, jika Anda menghitung rata-rata dalam populasi Anda hanya menyatakan fakta tentang parameter, sehingga Anda tidak menghabiskan derajat kebebasan. Jika Anda menghitungnya dalam sampel dan ingin menyimpulkan tentang populasi, maka Anda menghabiskan satu. Juga, saya dapat memiliki populasi dengan N = 1. Dengan penyebut N-1, tampak bahwa parameter seperti varians tidak ada untuk itu. Itu omong kosong.
ttnphns
3
@ilhan Tolong, pertimbangkan memperbarui pertanyaan Anda (seperti yang Anda lakukan) dan arahkan ke versi yang diperbarui daripada meninggalkan komentar yang tidak konstruktif. Semuanya bisa diperdebatkan, terutama ketika pertanyaan itu sendiri tidak memiliki konteks. Di sini tampaknya masalahnya berasal dari pendefinisian populasi sebenarnya.
chl
4

Varians populasi adalah jumlah dari penyimpangan kuadrat dari semua nilai dalam populasi dibagi dengan jumlah nilai dalam populasi. Ketika kami memperkirakan varians dari populasi dari sampel, kami menemukan masalah bahwa penyimpangan nilai sampel dari rata-rata sampel, rata-rata, sedikit kurang dari penyimpangan nilai-nilai sampel dari ( tidak diketahui) mean populasi benar. Itu menghasilkan varian yang dihitung dari sampel yang sedikit kurang dari varian populasi yang sebenarnya. Menggunakan pembagi n-1 sebagai ganti n mengoreksi untuk perkiraan yang terlalu rendah.

Michael Lew
sumber
@ Bunnenburg, Jika Anda mendapat jawaban untuk pertanyaan Anda. Tolong jelaskan kepada saya sekarang, apa yang Anda dapat? Ini juga membingungkan saya.
Bilal Para
untuk mengkompensasi varians yang sedikit lebih sedikit yang kita dapatkan, mengapa kita tidak bisa menggunakan n-2, n-3, dll? mengapa n-1 khususnya? kenapa tidak konstan ... ???
Saravanabalagi Ramachandran
@SaravanabalagiRamachandran Perbedaan ini bervariasi dengan ukuran sampel sehingga konstanta tidak akan berfungsi. Koreksi menggunakan n-1 lebih dekat berfungsi lebih baik daripada yang lain yang Anda sebutkan.
Michael Lew