Saya telah membaca / mendengar berkali-kali bahwa ukuran sampel setidaknya 30 unit dianggap sebagai "sampel besar" (asumsi normalitas sarana biasanya kira-kira berlaku karena CLT, ...). Karena itu, dalam percobaan saya, saya biasanya menghasilkan sampel sebanyak 30 unit. Bisakah Anda memberi saya beberapa referensi yang harus dikutip ketika menggunakan ukuran sampel 30?
41
Jawaban:
Pilihan n = 30 untuk batas antara sampel kecil dan besar adalah aturan praktis, hanya. Ada sejumlah besar buku yang mengutip (sekitar) nilai ini, misalnya, Probabilitas dan Inferensi Statistik Hogg dan Tanis (7e) mengatakan "lebih besar dari 25 atau 30".
Yang mengatakan, cerita yang diceritakan kepada saya adalah bahwa satu-satunya alasan 30 dianggap sebagai batas yang baik adalah karena itu membuat tabel t Student cantik di belakang buku teks agar pas di satu halaman. Itu, dan nilai kritis (antara t Student dan Normal) hanya mati kira-kira hingga 0,25, dari df = 30 ke df = infinity. Untuk perhitungan tangan, perbedaannya tidak terlalu penting.
Saat ini mudah untuk menghitung nilai kritis untuk semua jenis hal ke 15 tempat desimal. Selain itu kami memiliki metode resampling dan permutasi yang kami bahkan tidak terbatas pada distribusi populasi parametrik.
Dalam praktiknya saya tidak pernah bergantung pada n = 30. Plot datanya. Menempatkan distribusi normal, jika Anda suka. Nilai visual apakah perkiraan normal sesuai (dan tanyakan apakah perkiraan benar-benar diperlukan). Jika menghasilkan sampel untuk penelitian dan perkiraan adalah wajib, hasilkan ukuran sampel yang cukup untuk membuat perkiraan sedekat yang diinginkan (atau sedekat mungkin secara komputasi).
sumber
Sebenarnya, "angka ajaib" 30 adalah kekeliruan. Lihat makalah Jacob's Cohen yang menyenangkan, Things I Have Learned (So Far) (Am. Psych. December 1990 45 # 12, hlm 1304-1312) . Mitos ini adalah contoh pertamanya tentang bagaimana "beberapa hal yang Anda pelajari tidak begitu".
sumber
IMO, semuanya tergantung pada apa Anda ingin menggunakan sampel Anda. Dua contoh "konyol" untuk mengilustrasikan apa yang saya maksud: Jika Anda perlu memperkirakan rata-rata, 30 pengamatan lebih dari cukup. Jika Anda perlu memperkirakan regresi linier dengan 100 prediktor, 30 pengamatan tidak akan cukup dekat.
sumber
Kebanyakan aturan praktis sewenang-wenang. Pernyataan ini tergantung pada sejumlah faktor untuk menjadi kenyataan. Misalnya pada distribusi data. Jika data berasal dari Cauchy misalnya, bahkan 30 ^ 30 pengamatan tidak cukup untuk memperkirakan rata-rata (dalam kasus itu bahkan jumlah pengamatan yang tidak terbatas tidak akan cukup untuk menyebabkan untuk menyatu). Angka ini (30) juga salah jika nilai yang Anda gambar tidak independen satu sama lain (sekali lagi, Anda mungkin memiliki bahwa tidak ada konvergensi sama sekali, terlepas dari ukuran sampel).μ¯(n)
Secara umum, CLT pada dasarnya membutuhkan dua pilar untuk dipegang:
(Kedua kondisi ini bisa agak melemah, tetapi perbedaannya sebagian besar bersifat teoritis)
sumber