Apakah distribusi diskrit ini memiliki nama?

21

Apakah distribusi diskrit ini memiliki nama? Untuk i1...N

f(i)=1Nj=iN1j

Saya menemukan distribusi ini dari yang berikut: Saya memiliki daftar item yang diberi peringkat oleh beberapa fungsi utilitas. Saya ingin memilih salah satu item secara acak, bias ke arah awal daftar. Jadi, saya pertama-tama memilih indeks j antara 1 dan N secara seragam. Saya kemudian memilih item antara indeks 1 dan j . Saya percaya proses ini menghasilkan distribusi di atas.NjNj

Tom
sumber
2
Ini bukan distribusi: itu tidak dinormalisasi.
whuber
@whuber saya pikir begitu pada awalnya (dan berkomentar sebelum saya menyadari bahwa saya telah salah paham dan menghapus komentar), tetapi ternyata saya salah mengerti definisi. Kecuali jika saya memiliki kesalahpahaman lebih lanjut, itu adalah fungsi massa probabilitas yang dinormalisasi.
Glen_b -Reinstate Monica
4
Itu dinormalisasi. 1/1 akan muncul dalam jumlah tepat sekali (itu akan menjadi dalam f (1)). 1/2 akan muncul tepat dua kali (itu akan menjadi dalam f (1) dan f (2)). dll. Jadi jumlah dari semua jumlah itu akan menjadi N dan konstanta normalisasi ditampilkan sebagai 1 / N. memeriksa.
rcorty
1
Lebih tepatnya, saya tidak tahu apa sebutan distro ini. Saya juga tidak tahu bagaimana proses yang Anda gambarkan mengarah ke distro ini. Satu pemikiran yang saya miliki adalah bahwa itu terdengar seperti versi diskrit dari proses pemecahan tongkat, yang sangat googlable.
rcorty
@ Glen_b Terima kasih. Saya membaca ini di ponsel saya, yang tidak membuat cukup jelas. f
whuber

Jawaban:

30

Anda memiliki versi terdistribusi dari distribusi log negatif, yaitu distribusi yang dukungannya dan yang pdf-nya adalah f ( t ) = - log t .[0,1]f(t)=-logt

Untuk melihat ini, saya akan mendefinisikan kembali variabel acak Anda untuk mengambil nilai dalam set alih-alih { 0 , 1 , 2 , ... , N } dan memanggil dihasilkan distribusi T . Lalu, klaim saya adalah itu{0,1/N,2/N,...,1}{0,1,2,...,N}T

Pr(T=tN)-1Nlog(tN)

sebagai sementara tN,ttN dipertahankan (kurang-lebih) konstan.

Pertama, percobaan simulasi kecil yang menunjukkan konvergensi ini. Berikut ini adalah implementasi kecil sampler dari distribusi Anda:

t_sample <- function(N, size) {
  bounds <- sample(1:N, size=size, replace=TRUE)
  samples <- sapply(bounds, function(t) {sample(1:t, size=1)})
  samples / N
}

Berikut histogram sampel besar yang diambil dari distribusi Anda:

ss <- t_sample(100, 200000)
hist(ss, freq=FALSE, breaks=50)

masukkan deskripsi gambar di sini

dan inilah pdf logaritmik yang dilapis:

linsp <- 1:100 / 100
lines(linsp, -log(linsp))

masukkan deskripsi gambar di sini

Untuk melihat mengapa konvergensi ini terjadi, mulailah dengan ekspresi Anda

Pr(T=tN)=1Nj=tN1j

N

Pr(T=tN)=1Nj=tNNj1N

Penjumlahan sekarang merupakan jumlah Riemann untuk fungsi tersebut g(x)=1x, terintegrasi dari tN untuk 1. That is, for large N,

Pr(T=tN)1NtN11xdx=1Nlog(tN)

which is the expression I wanted to arrive at.

Matthew Drury
sumber
You're extremely welcome. This was a great question and I had a lot of fun working it out.
Matthew Drury
6

This appears to be related to the Whitworth distribution. (I don't believe it is the Whitworth distribution, since if I remember right, that's the distribution of a set of ordered values, but it seems to be connected to it, and relies on the same summation-scheme.)

There's some discussion of the Whitworth (and numerous references) in

Anthony Lawrance and Robert Marks, (2008)
"Firm size distributions in an industry with constrained resources,"
Applied Economics, vol. 40, issue 12, pages 1595-1607

(There looks to be a working paper version here)

Also see

Nancy L Geller, (1979)
A test of significance for the Whitworth distribution,
Journal of the American Society for Information Science, Vol.30(4), pp.229-231

Glen_b -Reinstate Monica
sumber
2
Untuk membuat jawaban ini mandiri, dapatkah Anda memberikan definisi tentang distribusi Whitworth dan mungkin memberikan beberapa kata penjelasan mengenai koneksi yang Anda lihat?
whuber
@whuber Ya, itu harus menjadi komentar. Saya akan mengedit beberapa detail tetapi ini akan berakhir lebih lama.
Glen_b -Reinstate Monica
Hanya semacam definisi akan baik-baik saja.
whuber
Terima kasih, itu dipahami, tetapi bagaimanapun itu akan menjadi hasilnya.
Glen_b -Reinstate Monica