Ekspektasi Jumlah Angka K tanpa penggantian

9

Mengingat n angka, di mana nilai setiap nomor berbeda, dilambangkan sebagai v1,v2,...,vn , dan probabilitas memilih setiap nomor adalah p1,p2,...,pn , masing-masing.

Sekarang jika saya memilih nomor K berdasarkan probabilitas yang diberikan, di mana Kn , apa harapan dari jumlah angka-angka K ? Perhatikan bahwa pemilihan tanpa penggantian, sehingga angka K tidak dapat melibatkan angka duplikat. Saya mengerti bahwa jika pemilihannya adalah dengan penggantian, harapan jumlah dari angka K sama dengan K×E(V) , di mana

E(V)=v1×p1+v2×p2+...+vn×pn.

Selanjutnya, bagaimana dengan ekspektasi varians dari angka-angka K ?

Saya seorang mahasiswa PhD CS yang sedang mengerjakan masalah big data, dan saya tidak memiliki latar belakang statistik. Saya berharap seseorang dapat memberi saya formula sebagai jawabannya. Namun, jika jawabannya terlalu rumit untuk dijelaskan dengan rumus atau perhitungan intensif harus dilibatkan, jawaban perkiraan sangat dapat diterima.

Anda dapat mengasumsikan n sini cukup besar, dan probabilitasnya bisa sangat bervariasi. Dalam praktiknya, nilai probabilitas tersebut berasal dari log kueri, yang mencatat serangkaian kueri agregasi. Intinya adalah bahwa frekuensi setiap angka yang terlibat dalam kueri bisa sangat miring, yaitu, beberapa jarang ditanyakan, sementara beberapa sering ditanyakan. Anda dapat mengasumsikan distribusi probabilitas adalah distribusi normal, distribusi zipf atau alternatif masuk akal lainnya.

Distribusi nilai hanya bagian yang berdekatan dari setiap distribusi yang mungkin. Dengan kata lain, jika Anda memiliki histogram yang mewakili distribusi tertentu, semua angka yang terlibat dalam masalah ini adalah semua angka dalam satu ember.

Dalam hal nilai K, Anda dapat menganggap itu selalu kurang dari jumlah elemen yang sering ditanyakan.

SciPioneer
sumber
3
Ekspektasi varian jumlah akan berbeda tanpa penggantian; Anda akan memerlukan faktor koreksi populasi terbatas jika tidak ada penggantian. (Untuk melihat ini secara intuitif, perhatikan bahwa jika K = n varians dari penjumlahan adalah nol, karena itu akan selalu menjadi angka yang sama; sehingga ketika K mendekati n varians dari penjumlahan akan lebih rendah.)
zbicyclist
1
Pertanyaan ini mungkin lebih sulit daripada kelihatannya. Pertimbangkan case dan ( v 1 , v 2 ) = ( 0 , 1 ) . Jumlah yang diharapkan dari dua nilai yang diambil dengan penggantian adalah 2 p 2 yang merupakan dua kali jumlah yang diharapkan dari satu nilai saja; tetapi jumlah yang diharapkan dari dua nilai yang ditarik tanpa penggantian jelas adalah v 1 + v 2 = 1 2 p 2 kecuali ketika p 1 = p 2 = 1n=2(v1,v2)=(0,1)2p2v1+v2=12p2 . p1=p2=1/2
whuber
1
@ zbicyclist Mungkin saya tidak menyatakan masalah dengan jelas. Dalam skenario saya, jika K = N, maka varians dari angka-angka K akan menjadi varians dari populasi umum daripada 0.
SciPioneer
1
(1) Bagi saya ini bukan masalah belajar mandiri : sepertinya masalah terapan yang sebenarnya. (2) Seberapa besar mungkin ? Solusi yang tepat terlihat tidak praktis kecuali ketika semua himpunan bagian dapat disebutkan. (3) Jika n bisa lebih besar dari 20 atau lebih, menghalangi penghitungan cepat, apa yang dapat Anda katakan tentang p i ? Misalnya, dapatkah mereka berbeda atau apakah mereka semua hampir mendekati 1 / n ? Ini dapat menginformasikan upaya untuk menemukan jawaban perkiraan. nn20pi1/n
whuber
1
NKvipip iKmax(pi)1pipi>1/KiKN/2

Jawaban:

2

Ini mungkin dalam sifat jawaban yang, meskipun akurat, mungkin tidak berguna. Horvitz dan Thompson (1952) memberikan hasil yang mencakup situasi ini secara umum. Hasil ini diberikan dalam bentuk ekspresi kombinatorial yang mungkin diharapkan.

Agar tetap konsisten dengan notasi mereka, dan agar lebih sesuai dengan notasi yang lebih banyak digunakan, izinkan saya mendefinisikan kembali sejumlah kuantitas. Biarkan menjadi jumlah elemen dalam populasi dan menjadi ukuran sampel.Nn

Misalkan , , mewakili elemen populasi, dengan nilai yang diberikan , dan probabilitas pemilihan . Untuk sampel ukuran , biarkan nilai yang diamati dalam sampel menjadi .uiN V i i = 1 , . . . , N p 1 , . . . , P N n v 1 , . . . , v ni=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

Apa yang diinginkan adalah mean dan varians dari total sampel

i=1nvi.

Seperti yang disebutkan dalam komentar, probabilitas memilih sampel tertentu digambar dalam urutan itu adalah mana probabilitas awal dari gambar diberikan oleh , probabilitas kedua dari menggambar adalah syarat untuk menghapus dari populasi, dan sebagainya. Jadi, setiap unit yang ditarik berikutnya menghasilkan distribusi probabilitas baru untuk unit berikutnya (karenanya, pilihan huruf indikatif yang berbeda, karena masing-masing mewakili distribusi yang berbeda.)Pr ( s ) = p i 1 p j 2p t n , p i 1 u i p i p j 2 u j u is={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

Ada sampel ukuran yang mengandung dari seluruh populasi. Perhatikan bahwa ini memperhitungkanpermutasi sampel.

S(i)=n!(N1n1)
nuin!

Misalkan menunjukkan sampel ukuran tertentu yang mencakup . Kemudian, probabilitas pemilihan elemen diberikan oleh mana penjumlahannya berada di atas set ukuran dari semua sampel yang mungkin dengan ukuran yang mengandung . (Saya sedikit mengubah notasi dari kertas karena terasa membingungkan bagi saya.)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

Demikian pula, definisikan sebagai jumlah sampel yang mengandung dan . Kemudian kita dapat mendefinisikan probabilitas sampel yang mengandung keduanya sebagai mana penjumlahannya berada di atas set ukuran dari semua sampel yang mungkin dengan ukuran yang mengandung dan .

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

Nilai yang diharapkan kemudian diturunkan sebagai

E(i=1nvi)=i=1NP(ui)Vi.

Meskipun varians tidak berasal eksplisit di koran, itu bisa diperoleh dari expections dari th saat dan produk-silang q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

Dengan kata lain, sepertinya seseorang perlu melalui semua himpunan bagian yang mungkin untuk melakukan perhitungan ini. Mungkin ini bisa dilakukan untuk nilai lebih kecil .n

Horvitz, DG dan Thompson, DJ (1952) Generalisasi pengambilan sampel tanpa penggantian dari alam semesta yang terbatas. Jurnal Asosiasi Statistik Amerika 47 (260): 663-685.

jvbraun
sumber