Bisakah ukuran sampel kecil menyebabkan kesalahan tipe 1?

21

Saya telah belajar bahwa ukuran sampel yang kecil dapat menyebabkan kekurangan daya dan tipe 2 kesalahan. Namun, saya merasa bahwa sampel kecil mungkin saja secara umum tidak dapat diandalkan dan dapat menyebabkan segala jenis hasil secara kebetulan. Benarkah?

bahkan
sumber
Saya tidak menyukai notasi matematika yang tidak perlu, jadi saya telah mengedit judulnya, dapatkah Anda memeriksa apakah saya tidak mengubah artinya dengan mengubahnya?
mpiktas
1
Pastikan juga untuk berbicara tentang pengujian hipotesis (tes Neyman-Pearson) dan bukan pengujian signifikansi (uji Fisher). Pendekatan-pendekatan ini umumnya dicampur-campur bahkan jika tidak ada dugaan kesalahan pada yang kedua, dan penggunaan yang tepat harus berbeda karena mengarah pada berbagai jenis kesimpulan.
Seb
Jika Anda menggunakan tes asimptotik, ya, itu mungkin. Jika tidak, tidak - tes didefinisikan untuk mengontrol tingkat kesalahan tipe 1 (yaitu ). α
Makro
Tapi bukankah itu benar, jika Anda membalik koin dua kali, Anda lebih cenderung menghasilkan hasil yang miring (2 sisi yang sama (100%)), daripada ketika Anda membalik 100 kali, yang kemungkinan besar akan menghasilkan sekitar 1 / 2, 1/2. Bukankah ini menunjukkan bahwa semakin kecil ukurannya, semakin besar kemungkinan Anda mengalami kesalahan tipe I?

Jawaban:

27

Sebagai prinsip umum, ukuran sampel kecil tidak akan meningkatkan tingkat kesalahan Tipe I karena alasan sederhana bahwa tes diatur untuk mengontrol tingkat Tipe I. (Ada beberapa pengecualian teknis kecil yang terkait dengan hasil diskrit, yang dapat menyebabkan laju nominal Tipe I tidak tercapai persis terutama dengan ukuran sampel yang kecil.)

Ada prinsip penting di sini: jika tes Anda memiliki ukuran yang dapat diterima (= tingkat Tipe I nominal) dan daya yang dapat diterima untuk efek yang Anda cari, maka bahkan jika ukuran sampel kecil itu ok.

Bahayanya adalah jika kita tidak tahu sedikit tentang situasi - mungkin ini semua data yang kita miliki - maka kita mungkin khawatir tentang kesalahan "Tipe III": yaitu, model salah spesifikasi. Mereka mungkin sulit untuk diperiksa dengan set sampel kecil.

Sebagai contoh praktis dari interaksi ide, saya akan berbagi cerita. Dahulu saya diminta untuk merekomendasikan ukuran sampel untuk mengkonfirmasi pembersihan lingkungan. Ini selama fase pra-pembersihan sebelum kami memiliki data. Rencana saya menyerukan untuk menganalisis sekitar 1000 sampel yang akan diperoleh selama pembersihan (untuk memastikan bahwa cukup tanah telah dihilangkan di setiap lokasi) untuk menilai rata-rata pasca pembersihan dan variasi konsentrasi kontaminan. Kemudian (untuk sangat menyederhanakan), saya katakan kami akan menggunakan formula buku teks - berdasarkan daya yang ditentukan dan ukuran tes - untuk menentukan jumlah sampel konfirmasi independen yang akan digunakan untuk membuktikan pembersihan berhasil.

Apa yang membuat ini berkesan adalah bahwa setelah pembersihan dilakukan, formula mengatakan hanya menggunakan 3 sampel. Tiba-tiba rekomendasi saya tidak terlihat sangat kredibel!

Alasan hanya membutuhkan 3 sampel adalah bahwa pembersihan itu agresif dan bekerja dengan baik. Ini mengurangi konsentrasi kontaminan rata-rata sekitar 100 memberi atau mengambil 100 ppm, secara konsisten di bawah target 500 ppm.

Pada akhirnya pendekatan ini berhasil karena kami telah memperoleh 1000 sampel sebelumnya (walaupun kualitas analitisnya lebih rendah: mereka memiliki kesalahan pengukuran yang lebih besar) untuk menetapkan bahwa asumsi statistik yang dibuat sebenarnya adalah yang baik untuk situs ini. Itulah bagaimana potensi kesalahan Tipe III ditangani.

Satu putaran lagi untuk pertimbangan Anda: mengetahui bahwa badan pengawas tidak akan pernah menyetujui hanya menggunakan 3 sampel, saya merekomendasikan untuk mendapatkan 5 pengukuran. Ini harus dibuat dari 25 sampel acak dari seluruh situs, dikomposisikan dalam kelompok 5. Secara statistik hanya akan ada 5 angka dalam tes hipotesis akhir, tetapi kami mencapai kekuatan yang lebih besar untuk mendeteksi "hot spot" yang terisolasi dengan mengambil 25 fisik. sampel. Ini menyoroti hubungan penting antara berapa banyak angka yang digunakan dalam tes dan bagaimana angka itu diperoleh. Ada lebih banyak pengambilan keputusan secara statistik daripada hanya algoritma dengan angka!

Yang melegakan saya, lima nilai komposit mengkonfirmasi target pembersihan terpenuhi.

whuber
sumber
1
(+1) kisah hebat tentang pembersihan agresif dan kesalahan tipe III , akan menyenangkan jika ini juga relevan untuk rangkaian waktu ekonomis. Untuk model atau model deterministik dengan rasio noise rendah, ukuran sampel kecil, IMHO tidak akan menjadi masalah terbesar (dibandingkan dengan sekumpulan besar data sampel besar independen yang sangat berisik, bahkan komponen utama sulit dengan yang ini).
Dmitrij Celov
1
1, bagi mereka yang tertarik lebih jauh memahami "pengecualian teknis terkait dengan hasil diskrit" yang disebutkan dalam paragraf pertama, saya membahas orang-orang di sini: Membandingkan dan kontras p-nilai, tingkat signifikansi, dan tipe I error .
gung - Reinstate Monica
1
+1, contoh bagus mengapa Anda tidak bisa mengambil tusukan liar pada ukuran sampel yang berguna tanpa info utama.
Freya Harrison
0

Konsekuensi lain dari sampel kecil adalah peningkatan kesalahan tipe 2.

Ditunjukkan secara nasional dalam makalah "Tempat statistik dalam psikologi", 1960, bahwa sampel kecil umumnya gagal untuk menolak hipotesis titik nol. Hipotesis ini adalah hipotesis yang memiliki beberapa parameter sama dengan nol, dan diketahui salah dalam pengalaman yang dianggap.

Sebaliknya, sampel yang terlalu besar meningkatkan kesalahan tipe 1 karena nilai-p tergantung pada ukuran sampel, tetapi tingkat signifikansi alfa tetap. Tes pada sampel semacam itu akan selalu menolak hipotesis nol. Baca "Tidak signifikannya pengujian signifikansi statistik" oleh Johnson dan Douglas (1999) untuk mendapatkan gambaran tentang masalah ini.

Ini bukan jawaban langsung untuk pertanyaan tetapi pertimbangan ini saling melengkapi.

Seb
sumber
+1 untuk menyebutkan masalah sampel besar dan kesalahan Tipe I
Josh Hemann
6
-1, komentar bahwa "sampel terlalu besar meningkatkan kesalahan tipe 1" salah. Anda mungkin membingungkan signifikansi statistik & signifikansi praktis , dalam situasi yang dapat ada di mana efek sebenarnya tidak tepat 0, tetapi begitu kecil sehingga tidak penting, & kami akan menganggap nol 'benar' untuk tujuan praktis . Dalam hal ini, nol akan ditolak lebih dari (misalnya) 5% dari waktu, & lebih sering dengan peningkatan N. Namun, secara tegas, hipotesis nol bahwa efek sebenarnya adalah 0, dengan ketentuan, salah. Jadi, penolakan ini sebenarnya bukan kesalahan tipe I.
gung - Reinstate Monica