Dalam variasi pada masalah pengumpul kupon , Anda tidak tahu jumlah kupon dan harus menentukan ini berdasarkan data. Saya akan menyebut ini sebagai masalah kue keberuntungan:
Mengingat jumlah yang tidak diketahui yang berbeda pesan kue keberuntungan , estimasi dengan sampling cookies satu per satu dan menghitung berapa kali masing-masing muncul keberuntungan. Tentukan juga jumlah sampel yang diperlukan untuk mendapatkan interval kepercayaan yang diinginkan pada perkiraan ini.
Pada dasarnya saya membutuhkan algoritma yang sampel data hanya cukup untuk mencapai interval kepercayaan tertentu, katakanlah dengan kepercayaan . Untuk kesederhanaan, kita dapat mengasumsikan bahwa semua kekayaan muncul dengan probabilitas / frekuensi yang sama, tetapi ini tidak benar untuk masalah yang lebih umum, dan solusi untuk itu juga diterima.
Ini tampaknya mirip dengan masalah tank Jerman , tetapi dalam hal ini, kue keberuntungan tidak diberi label secara berurutan, dan karenanya tidak memiliki urutan.
Jawaban:
Untuk kasus probabilitas / frekuensi yang sama, pendekatan ini mungkin cocok untuk Anda.
Misalkan adalah total ukuran sampel, N menjadi jumlah item yang berbeda yang diamati, N 1 menjadi jumlah item yang terlihat tepat satu kali, N 2 menjadi jumlah item yang terlihat tepat dua kali, A = N 1 ( 1 - N 1K N N1 N2 dan Q =N1A=N1(1−N1K)+2N2, Q^=N1K.
Kemudian perkiraan interval kepercayaan 95% pada ukuran total populasi diberikan olehn
Saat menerapkan, Anda mungkin perlu menyesuaikan ini tergantung pada data Anda.
Metode ini karena Good and Turing. Referensi dengan interval kepercayaan adalah Esty, Warren W. (1983), "Hukum Batas Normal untuk Estimator Nonparametrik dari Cakupan Sampel Acak" , Ann. Statist. , Volume 11, Nomor 3, 905-912.
Untuk masalah yang lebih umum, Bunge telah menghasilkan perangkat lunak gratis yang menghasilkan beberapa perkiraan. Cari dengan namanya dan kata CatchAll .
sumber
Saya tidak tahu apakah itu bisa membantu tetapi itu adalah masalah mengambil bola yang berbeda selama percobaan n di guci dengan bola m berlabel berbeda dengan penggantian. Menurut halaman ini (dalam bahasa Perancis) jika X n jika variabel acak menghitung jumlah bola yang berbeda fungsi probabilitas diberikan oleh: P ( X n = k ) = ( mk n m Xn P(Xn=k)=(mk)∑ki=0(−1)k−i(ki)(im)n
Kemudian Anda bisa menggunakan penduga kemungkinan maksimum.
Formula lain dengan bukti diberikan di sini untuk menyelesaikan masalah hunian .
sumber
Fungsi kemungkinan dan probabilitas
Dalam jawaban atas pertanyaan tentang masalah ulang tahun terbalik, solusi untuk fungsi kemungkinan telah diberikan oleh Cody Maughan.
Untuk derivasi probabilitas di sisi kanan lihat masalah hunian. Ini telah dijelaskan sebelumnya di situs web ini oleh Ben. Ungkapannya mirip dengan yang di jawab oleh Sylvain.
Estimasi kemungkinan maksimum
Kita dapat menghitung perkiraan urutan pertama dan urutan kedua dari maksimum fungsi likelihood di
Interval kemungkinan
(catatan, ini tidak sama dengan interval kepercayaan lihat: Logika dasar membangun interval kepercayaan )
Interval kepercayaan diri
Untuk interval kepercayaan kita dapat menggunakan perkiraan normal. Dalam jawaban Ben, mean dan varians berikut diberikan:
In the image above the curves for the interval have been drawn by expressing the lines as a function of the population sizem and sample size n (so the x-axis is the dependent variable in drawing these curves).
The difficulty is to inverse this and obtain the interval values for a given observed valuek . It can be done computationally, but possibly there might be some more direct function.
In the image I have also added Clopper Pearson confidence intervals based on a direct computation of the cumulative distribution based on all the probabilitiesP(k|m,n) (I did this in R where I needed to use the
Strlng2
function from the CryptRndTest package which is an asymptotic approximation of the logarithm of the Stirling number of the second kind). You can see that the boundaries coincide reasonably well, so the normal approximation is performing well in this case.sumber