Saya perlu memastikan bahwa sitemap XML saya memiliki kurang dari sampah (tautan rusak). Daftar URL ada dalam ratusan ribu, dan bahkan jika mungkin untuk menguji semuanya 1 per 1 saya lebih suka tidak, karena berbagai alasan:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Jadi saya pikir mengambil subset acak akan cukup, masalahnya adalah saya tidak tahu probabilitas.
Apakah ada fungsi sederhana yang bisa saya gunakan?
Jika ini membantu, kita dapat mengira memiliki informasi a priori tentang kemungkinan tautan untuk dipecah di seluruh proses. Katakanlah di lintas berjalan ada untuk setiap tautan yang akan diputus.
Jawaban:
Jadi itu tergantung pada distribusi kepercayaan Anda sebelumnya tentang tingkat kerusakan, tetapi: sekitar 3600.
Idenya di sini adalah untuk memodelkan kerusakan tautan sebagai uji coba Bernoulli, dan memodelkan keyakinan Anda tentang tingkat kerusakan sebagai distribusi beta. Distribusi beta dikonjugasikan ke distribusi Bernoulli , dan cara memperbarui distribusi beta saat Anda menjalankan percobaan cukup sederhana:
sumber
sumber