Mengingat angka, di mana nilai setiap nomor berbeda, dilambangkan sebagai , dan probabilitas memilih setiap nomor adalah , masing-masing.
Sekarang jika saya memilih nomor berdasarkan probabilitas yang diberikan, di mana , apa harapan dari jumlah angka-angka ? Perhatikan bahwa pemilihan tanpa penggantian, sehingga angka tidak dapat melibatkan angka duplikat. Saya mengerti bahwa jika pemilihannya adalah dengan penggantian, harapan jumlah dari angka sama dengan , di mana
Selanjutnya, bagaimana dengan ekspektasi varians dari angka-angka ?
Saya seorang mahasiswa PhD CS yang sedang mengerjakan masalah big data, dan saya tidak memiliki latar belakang statistik. Saya berharap seseorang dapat memberi saya formula sebagai jawabannya. Namun, jika jawabannya terlalu rumit untuk dijelaskan dengan rumus atau perhitungan intensif harus dilibatkan, jawaban perkiraan sangat dapat diterima.
Anda dapat mengasumsikan sini cukup besar, dan probabilitasnya bisa sangat bervariasi. Dalam praktiknya, nilai probabilitas tersebut berasal dari log kueri, yang mencatat serangkaian kueri agregasi. Intinya adalah bahwa frekuensi setiap angka yang terlibat dalam kueri bisa sangat miring, yaitu, beberapa jarang ditanyakan, sementara beberapa sering ditanyakan. Anda dapat mengasumsikan distribusi probabilitas adalah distribusi normal, distribusi zipf atau alternatif masuk akal lainnya.
Distribusi nilai hanya bagian yang berdekatan dari setiap distribusi yang mungkin. Dengan kata lain, jika Anda memiliki histogram yang mewakili distribusi tertentu, semua angka yang terlibat dalam masalah ini adalah semua angka dalam satu ember.
Dalam hal nilai K, Anda dapat menganggap itu selalu kurang dari jumlah elemen yang sering ditanyakan.
sumber
Jawaban:
Ini mungkin dalam sifat jawaban yang, meskipun akurat, mungkin tidak berguna. Horvitz dan Thompson (1952) memberikan hasil yang mencakup situasi ini secara umum. Hasil ini diberikan dalam bentuk ekspresi kombinatorial yang mungkin diharapkan.
Agar tetap konsisten dengan notasi mereka, dan agar lebih sesuai dengan notasi yang lebih banyak digunakan, izinkan saya mendefinisikan kembali sejumlah kuantitas. Biarkan menjadi jumlah elemen dalam populasi dan menjadi ukuran sampel.N n
Misalkan , , mewakili elemen populasi, dengan nilai yang diberikan , dan probabilitas pemilihan . Untuk sampel ukuran , biarkan nilai yang diamati dalam sampel menjadi .ui N V i i = 1 , . . . , N p 1 , . . . , P N n v 1 , . . . , v ni=1,...,N N Vi i=1,...,N p1,...,pN n v1,...,vn
Apa yang diinginkan adalah mean dan varians dari total sampel
Seperti yang disebutkan dalam komentar, probabilitas memilih sampel tertentu digambar dalam urutan itu adalah mana probabilitas awal dari gambar diberikan oleh , probabilitas kedua dari menggambar adalah syarat untuk menghapus dari populasi, dan sebagainya. Jadi, setiap unit yang ditarik berikutnya menghasilkan distribusi probabilitas baru untuk unit berikutnya (karenanya, pilihan huruf indikatif yang berbeda, karena masing-masing mewakili distribusi yang berbeda.)Pr ( s ) = p i 1 p j 2 ⋯ p t n , p i 1 u i p i p j 2 u j u is={ui,uj,...,ut}
Ada sampel ukuran yang mengandung dari seluruh populasi. Perhatikan bahwa ini memperhitungkanpermutasi sampel.
Misalkan menunjukkan sampel ukuran tertentu yang mencakup . Kemudian, probabilitas pemilihan elemen diberikan oleh mana penjumlahannya berada di atas set ukuran dari semua sampel yang mungkin dengan ukuran yang mengandung . (Saya sedikit mengubah notasi dari kertas karena terasa membingungkan bagi saya.)s(i)n n ui ui
Demikian pula, definisikan sebagai jumlah sampel yang mengandung dan . Kemudian kita dapat mendefinisikan probabilitas sampel yang mengandung keduanya sebagai mana penjumlahannya berada di atas set ukuran dari semua sampel yang mungkin dengan ukuran yang mengandung dan .
Nilai yang diharapkan kemudian diturunkan sebagai
Meskipun varians tidak berasal eksplisit di koran, itu bisa diperoleh dari expections dari th saat dan produk-silangq
Dengan kata lain, sepertinya seseorang perlu melalui semua himpunan bagian yang mungkin untuk melakukan perhitungan ini. Mungkin ini bisa dilakukan untuk nilai lebih kecil .n
Horvitz, DG dan Thompson, DJ (1952) Generalisasi pengambilan sampel tanpa penggantian dari alam semesta yang terbatas. Jurnal Asosiasi Statistik Amerika 47 (260): 663-685.
sumber