Saya telah membaca jawaban yang ada di CrossValidated (plus tempat lain online) dan tidak dapat menemukan apa yang saya cari, tetapi tolong tunjukkan saya ke sumber yang ada jika saya melewatkannya.
Katakanlah saya memiliki kumpulan data N = 1000 catatan, yang masing-masing dapat disampel secara manual dan diberi label sebagai 'Valid' atau 'Tidak Valid' (atau Benar / Salah, Kanan / Salah, dll).
Saya ingin mencapai tingkat kepercayaan tertentu bahwa semua catatan dalam kumpulan data valid. Saat saya mencicipi catatan, jika saya menemukan satu yang tidak valid saya akan kembali dan mengubah bagaimana set data dibuat untuk memperbaiki itu dan masalah serupa.
Jadi, setelah beberapa iterasi menemukan Invalid, memperbaiki dan membuat ulang set data, saya melakukan beberapa sampling yang hanya mencakup catatan Valid. Jika saya ingin (katakanlah) 99% atau 95% yakin bahwa semua catatan adalah Valid, seberapa besar sampel saya harus? (Idealnya sebagai fungsi dari N.)
Saya sudah mencoba bermain-main dengan tes Hypergeometric ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - dalam konteks itu saya ingin tahu apa yang seharusnya k, tetapi saya tidak memiliki nilai tetap K Sebaliknya saya ingin memilih k sehingga K cenderung sama dengan N - tetapi pengaturan K = N jelas bekerja pada Probabilitas 1! Saya juga bertanya-tanya apakah saya perlu menggunakan pendekatan Bayesian tetapi saya tidak cukup memahami statistik Bayesian.
sumber
Jawaban:
Ini dapat dibingkai sebagai pengujian hipotesis nol bahwa ada beberapa catatan yang tidak valid dalam kumpulan data (K>0 ) vs alternatif yang tidak ada (K=0 ), mengingat tidak ada catatan tidak valid yang ditemukan dalam sampel (k=0 ). Nol proksimal, yang paling sulit ditolak, adalah bahwa ada satu catatan yang tidak valid (K=1 ). Gantikan ini menjadi fungsi massa probabilitas hipergeometrik untuk sampel ukurann dari kumpulan data ukuran N untuk mendapatkan nilai-p (tidak ada kemungkinan nilai yang lebih kecil dari k untuk dipertimbangkan):
Jadi ukuran sampel minimum diperlukan untuk dapat menolak hipotesis nol pada tingkat signifikansi (atau ekuivalen untuk mendapatkan satu sisi interval kepercayaan dari ) hanyan∗ p α=1−p K=0
Dengan , dan , . Jika itu kelihatannya banyak, pertimbangkan bahwa semua catatan yang valid adalah kriteria ketat; jika Anda mempertimbangkan untuk rileks, pendekatan yang sama dapat digunakan untuk menguji katakan .N=1000 α=0.95 n∗=950 K>9
sumber