Katakanlah saya punya satu set besar nilai yang kadang-kadang berulang. Saya ingin memperkirakan jumlah total nilai unik di set besar.
Jika saya mengambil sampel acak dari nilai-nilai, dan menentukan bahwa itu berisi T u nilai unik, saya dapat menggunakan ini untuk memperkirakan jumlah nilai unik dalam set besar?
estimation
sampling
kewarasan
sumber
sumber
Jawaban:
Berikut ini adalah keseluruhan makalah tentang masalah ini, dengan ringkasan berbagai pendekatan. Ini disebut Estimasi Nilai Berbeda dalam literatur.
Jika saya harus melakukan ini sendiri, tanpa membaca surat kabar mewah, saya akan melakukan ini. Dalam membangun model bahasa, kita sering harus memperkirakan probabilitas mengamati kata yang sebelumnya tidak diketahui, mengingat banyak teks. Pendekatan yang cukup bagus dalam memecahkan masalah ini untuk model bahasa khususnya adalah dengan menggunakan jumlah kata yang terjadi tepat sekali, dibagi dengan jumlah total token. Ini disebut Perkiraan Good Turing .
Biarkan u1 menjadi jumlah nilai yang terjadi tepat sekali dalam sampel item m.
Biarkan Anda menjadi jumlah item unik dalam sampel ukuran m Anda.
Jika Anda secara keliru menganggap bahwa tingkat 'item baru berikutnya' tidak berkurang karena Anda mendapatkan lebih banyak data, maka menggunakan Good Turing, Anda harus
Ini memiliki beberapa perilaku buruk karena Anda menjadi sangat kecil, tetapi itu mungkin tidak menjadi masalah bagi Anda dalam praktik.
sumber
s
dalam kasus ini? jumlah total 'kata-kata'?s
terjadi dua kali dalam hal ini, baik pada ukuran tangan kiri dan kanan?Strategi simulasi
Kumpulkan m sampel acak dengan ukuran n dari set S . Untuk masing-masing sampel m , hitung jumlah u dari nilai unik dan bagi dengan n untuk dinormalisasi. Dari distribusi simulasi u dinormalisasi , hitung ringkasan statistik yang menarik (misalnya, rata-rata, varians, kisaran interkuartil). Kalikan simulasi rata-rata dinormalisasi u oleh kardinalitas S untuk memperkirakan jumlah nilai unik.
Semakin besar m dan n , semakin dekat rata-rata simulasi Anda akan cocok dengan jumlah sebenarnya dari nilai unik.
sumber
Berikut ini adalah implementasi untuk panda:
Bergantung pada Bagian 2 dan 4 tulisan ini: http://ftp.cse.buffalo.edu/users/azhang/disc/disc01/cd1/out/papers/pods/towardsestimatimosur.pdf
sumber