Bagaimana cara menghitung ukuran sampel untuk memvalidasi catatan yang benar / salah dalam tabel data?

8

Saya telah membaca jawaban yang ada di CrossValidated (plus tempat lain online) dan tidak dapat menemukan apa yang saya cari, tetapi tolong tunjukkan saya ke sumber yang ada jika saya melewatkannya.

Katakanlah saya memiliki kumpulan data N = 1000 catatan, yang masing-masing dapat disampel secara manual dan diberi label sebagai 'Valid' atau 'Tidak Valid' (atau Benar / Salah, Kanan / Salah, dll).

Saya ingin mencapai tingkat kepercayaan tertentu bahwa semua catatan dalam kumpulan data valid. Saat saya mencicipi catatan, jika saya menemukan satu yang tidak valid saya akan kembali dan mengubah bagaimana set data dibuat untuk memperbaiki itu dan masalah serupa.

Jadi, setelah beberapa iterasi menemukan Invalid, memperbaiki dan membuat ulang set data, saya melakukan beberapa sampling yang hanya mencakup catatan Valid. Jika saya ingin (katakanlah) 99% atau 95% yakin bahwa semua catatan adalah Valid, seberapa besar sampel saya harus? (Idealnya sebagai fungsi dari N.)

Saya sudah mencoba bermain-main dengan tes Hypergeometric ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - dalam konteks itu saya ingin tahu apa yang seharusnya k, tetapi saya tidak memiliki nilai tetap K Sebaliknya saya ingin memilih k sehingga K cenderung sama dengan N - tetapi pengaturan K = N jelas bekerja pada Probabilitas 1! Saya juga bertanya-tanya apakah saya perlu menggunakan pendekatan Bayesian tetapi saya tidak cukup memahami statistik Bayesian.

Stuart J Cuthbertson
sumber
Juga di sini & di sini .
Scortchi
Terima kasih. Saya pikir ketiganya bermanfaat dan yang ketiga (khususnya) pada dasarnya adalah skenario yang sama persis dengan yang saya miliki. Saya akan melihat apa yang bisa saya lakukan dengan tanggapan itu - Aturan Tiga terdengar sangat membantu!
Stuart J Cuthbertson
Sama-sama. Edit pertanyaan Anda di sini jika ada yang belum jelas.
Scortchi
Anda mungkin sudah menyelesaikannya sekarang: tetapi karena pertanyaan belum ditutup sebagai duplikat, & bukan duplikat yang persis sama; Saya pikir mungkin ada baiknya mengeja jawaban.
Scortchi

Jawaban:

7

Ini dapat dibingkai sebagai pengujian hipotesis nol bahwa ada beberapa catatan yang tidak valid dalam kumpulan data (K>0) vs alternatif yang tidak ada (K=0), mengingat tidak ada catatan tidak valid yang ditemukan dalam sampel (k=0). Nol proksimal, yang paling sulit ditolak, adalah bahwa ada satu catatan yang tidak valid (K=1). Gantikan ini menjadi fungsi massa probabilitas hipergeometrik untuk sampel ukurann dari kumpulan data ukuran N untuk mendapatkan nilai-p (tidak ada kemungkinan nilai yang lebih kecil dari k untuk dipertimbangkan):

f(k)=(Kk)(NKnk)(Nn)
=(10)(N1n0)(Nn)
=NnN=p

Jadi ukuran sampel minimum diperlukan untuk dapat menolak hipotesis nol pada tingkat signifikansi (atau ekuivalen untuk mendapatkan satu sisi interval kepercayaan dari ) hanyanpα=1pK=0

n=(1p)N
n=αN

Dengan , dan , . Jika itu kelihatannya banyak, pertimbangkan bahwa semua catatan yang valid adalah kriteria ketat; jika Anda mempertimbangkan untuk rileks, pendekatan yang sama dapat digunakan untuk menguji katakan .N=1000α=0.95n=950K>9

Scortchi - Reinstate Monica
sumber
Itu pendekatan yang berbeda dengan apa yang saya simpulkan dari membaca artikel terkait (yaitu menerapkan Aturan Tiga). Masuk akal juga dan sebenarnya kurang konservatif daripada Aturan 3 (yang jika saya lakukan jumlah yang tepat, merekomendasikan pengambilan sampel 3000 catatan untuk N = 1000). Kesimpulan umum dari "statistik mengatakan Anda sebaiknya memeriksa semuanya pada dasarnya jika Anda harus yakin" berlaku untuk kedua pendekatan tersebut.
Stuart J Cuthberts
Perhatikan dengan baik bahwa Aturan Tiga hanya kira-kira berlaku untuk pengambilan sampel tanpa penggantian dari populasi yang terbatas; ketika . nN
Scortchi