Seperti yang saya pahami, Sekolah UK mengajarkan bahwa Standar Deviasi ditemukan menggunakan:
sedangkan Sekolah AS mengajar:
(pada tingkat dasar pula).
Ini telah menyebabkan sejumlah masalah siswa saya di masa lalu ketika mereka mencari di Internet, tetapi menemukan penjelasan yang salah.
Kenapa bedanya?
Dengan dataset sederhana yang mengatakan 10 nilai, tingkat kesalahan apa yang akan terjadi jika metode yang salah diterapkan (misalnya dalam ujian)?
Jawaban:
Formula pertama adalah simpangan baku populasi dan rumus kedua adalah simpangan baku sampel . Rumus kedua juga terkait dengan penaksir yang tidak bias dari varian - lihat wikipedia untuk detail lebih lanjut.
Saya kira (di sini) di Inggris mereka tidak membuat perbedaan antara sampel dan populasi di sekolah menengah. Mereka tentu saja tidak menyentuh konsep seperti penduga yang bias.
sumber
Karena belum ada yang menjawab pertanyaan terakhir - yaitu, untuk menghitung perbedaan antara dua formula - mari kita selesaikan itu.
Karena berbagai alasan, pantas untuk membandingkan standar deviasi dalam hal rasio mereka dan bukan perbedaan mereka. Rasionya adalah
Kita mungkin ingin memperhatikan kasus sangat kecilN t z s sn
sumber
Ini adalah koreksi Bessel . Versi AS menunjukkan rumus untuk standar deviasi sampel , di mana versi Inggris di atas adalah standar deviasi sampel .
sumber
Saya tidak yakin ini murni masalah AS vs Inggris. Sisa halaman ini dikutip dari faq yang saya tulis. ( Http://www.graphpad.com/faq/viewfaq.cfm?faq=1383 ).
Cara menghitung SD dengan n-1 di penyebut
Hitung kuadrat dari perbedaan antara setiap nilai dan rata-rata sampel.
Tambahkan nilai-nilai itu.
Bagi jumlah dengan n-1. Hasilnya disebut varians.
Ambil akar kuadrat untuk mendapatkan Deviasi Standar.
Kenapa n-1?
Mengapa membagi dengan n-1 daripada n saat menghitung standar deviasi? Di langkah 1, Anda menghitung perbedaan antara setiap nilai dan rata-rata dari nilai-nilai itu. Anda tidak tahu arti sebenarnya dari populasi; semua yang Anda tahu adalah rata-rata dari sampel Anda. Kecuali untuk kasus-kasus langka di mana mean sampel terjadi untuk menyamai mean populasi, data akan lebih dekat dengan mean sampel daripada ke mean populasi sebenarnya. Jadi nilai yang Anda hitung di langkah 2 mungkin akan sedikit lebih kecil (dan tidak bisa lebih besar) daripada apa yang akan terjadi jika Anda menggunakan populasi sebenarnya yang berarti di langkah 1. Untuk menebusnya, bagi dengan n-1 sebagai gantinya. dari pada Ini disebut koreksi Bessel.
Tapi mengapa n-1? Jika Anda tahu sampel berarti, dan semua kecuali salah satu nilai, Anda bisa menghitung berapa nilai terakhir itu. Ahli statistik mengatakan ada n-1 derajat kebebasan.
Kapan SD harus dihitung dengan penyebut n bukannya n-1?
Buku statistik sering menunjukkan dua persamaan untuk menghitung SD, satu menggunakan n, dan yang lainnya menggunakan n-1, dalam penyebut. Beberapa kalkulator memiliki dua tombol.
Persamaan n-1 digunakan dalam situasi umum di mana Anda menganalisis sampel data dan ingin membuat kesimpulan yang lebih umum. SD dihitung dengan cara ini (dengan n-1 dalam penyebut) adalah tebakan terbaik Anda untuk nilai SD dalam populasi keseluruhan.
Jika Anda hanya ingin menghitung variasi dalam satu set data tertentu, dan tidak berencana mengekstrapolasi untuk membuat kesimpulan yang lebih luas, maka Anda dapat menghitung SD menggunakan n dalam penyebut. SD yang dihasilkan adalah SD dari nilai-nilai tertentu. Tidak masuk akal untuk menghitung SD dengan cara ini jika Anda ingin memperkirakan SD dari populasi dari mana titik-titik itu diambil. Itu hanya masuk akal untuk menggunakan n dalam penyebut ketika tidak ada pengambilan sampel dari suatu populasi, tidak ada keinginan untuk membuat kesimpulan umum.
Tujuan sains hampir selalu untuk menggeneralisasi, sehingga persamaan dengan n dalam penyebut tidak boleh digunakan. Satu-satunya contoh yang dapat saya pikirkan di mana mungkin masuk akal adalah dalam mengukur variasi antara nilai ujian. Tetapi jauh lebih baik untuk menunjukkan sebaran setiap skor, atau histogram distribusi frekuensi.
sumber
Karena N adalah jumlah poin dalam kumpulan data, orang dapat berargumen bahwa dengan menghitung rata-rata, seseorang telah mengurangi tingkat kebebasan dalam kumpulan data oleh satu (karena seseorang memperkenalkan ketergantungan pada kumpulan data), jadi seseorang harus menggunakan N -1 ketika memperkirakan standar deviasi dari suatu set data yang satu harus memperkirakan rata-rata sebelumnya.
sumber