Teorema batas pusat dan distribusi Pareto

Dapatkah seseorang tolong berikan penjelasan sederhana (orang awam) tentang hubungan antara distribusi Pareto dan Teorema Limit Pusat (misalnya apakah itu berlaku? Mengapa / mengapa tidak?)? Saya mencoba memahami pernyataan berikut:

"Teorema Limit Sentral tidak bekerja dengan setiap distribusi. Ini disebabkan oleh satu fakta yang licik - sampel rata-rata berkerumun di sekitar rata-rata distribusi yang mendasarinya jika ada. Tetapi bagaimana suatu distribusi tidak memiliki maksud? Nah, satu distribusi umum yang tidak memiliki arti adalah distribusi Pareto. Jika Anda mencoba menghitungnya menggunakan metode yang biasa, itu akan menyimpang hingga tak terbatas. "

variance central-limit-theorem intuition pareto-distribution fat-tails pengguna1222447
sumber

Jawaban:

Pernyataan ini tidak benar secara umum - distribusi Pareto memang memiliki mean yang terbatas jika parameter bentuknya ( pada tautan) lebih besar dari 1. $\alpha$

Ketika mean dan varians ada ( ), bentuk biasa dari teorema limit pusat - misalnya klasik, Lyapunov, Lindeberg akan berlaku $\alpha>2$

Lihat deskripsi teorema limit sentral klasik di sini

Kutipan ini agak aneh, karena teorema batas pusat (dalam bentuk apa pun di atas) tidak berlaku untuk sampel mean itu sendiri, tetapi untuk mean standar (dan jika kita mencoba menerapkannya pada sesuatu yang mean dan variansnya) tidak terbatas kita perlu menjelaskan dengan sangat hati-hati apa yang sebenarnya kita bicarakan, karena pembilang dan penyebut melibatkan hal-hal yang tidak memiliki batas terbatas).

Namun demikian (meskipun tidak secara tepat diekspresikan untuk berbicara tentang teorema limit pusat) ia memang memiliki sesuatu yang mendasarinya - mean sampel tidak akan menyatu dengan rata-rata populasi ( hukum lemah dalam jumlah besar tidak berlaku, karena integral menentukan rata-rata tidak terbatas).

Seperti yang ditunjukkan oleh kjetil dalam komentar, jika kita ingin menghindari tingkat konvergensi yang mengerikan (yaitu untuk dapat menggunakannya dalam praktik), kita perlu semacam ikatan pada "seberapa jauh" / "seberapa cepat" aproksimasi dimulai. Tidak ada gunanya memiliki aproksimasi yang memadai untuk (katakanlah) jika kita menginginkan penggunaan praktis dari aproksimasi normal. $n> 10^{10^{100}}$

Teorema batas pusat adalah tentang tujuan tetapi tidak memberi tahu kita seberapa cepat kita sampai di sana; ada, bagaimanapun, hasil seperti teorema Berry-Esseen yang mengikat laju (dalam arti tertentu). Dalam kasus Berry-Esseen, ia membatasi jarak terbesar antara fungsi distribusi rata-rata terstandarisasi dan cdf normal standar dalam hal momen absolut ketiga ( ). $E(|X|^3)$

Jadi dalam kasus Pareto, jika , kita setidaknya bisa terikat pada seberapa buruk perkiraan di beberapa , dan seberapa cepat kita sampai di sana. (Di sisi lain, membatasi perbedaan dalam cdf tidak selalu merupakan hal yang "praktis" untuk diikat - apa yang Anda minati mungkin tidak berhubungan dengan baik dengan perbedaan perbedaan pada area ekor). Namun demikian, ini adalah sesuatu (dan setidaknya dalam beberapa situasi ikatan cdf lebih bermanfaat secara langsung). $\alpha\gt 3$ $n$

Glen_b -Reinstate Monica
sumber

Tetapi jika varians hanya nyaris tidak ada, yaitu tetapi sangat dekat, teorema batas pusat, sementara menerapkan pada prinsipnya, dapat menyebabkan perkiraan yang sangat buruk. Untuk memiliki kontrol atas kualitas aproksimasi Anda memerlukan sesuatu seperti teorema Berry-Esseen, yang memerlukan momen ketiga, yaitu, .

α > 2

$\alpha > 2$

α > 3

$\alpha > 3$

kjetil b halvorsen

@ KLIPIL begitu; dalam praktiknya Anda membutuhkan lebih dari sekadar momen kedua karena konvergensi bisa lambat sekali.

Glen_b -Reinstate Monica

Ya, saya akan menambahkan jawaban untuk menunjukkan itu!

kjetil b halvorsen

Beberapa distribusi yang tidak mengikuti teorema limit pusat dapat distandarisasi untuk menyatu dengan hukum yang stabil.

Michael R. Chernick

Diskusi hebat di sini. Wish stackexchange punya cara untuk mengikuti jawaban / komentar orang;)

Chan-Ho Suh

Saya akan menambahkan jawaban yang menunjukkan seberapa buruk perkiraan dari teorema batas pusat (CLT) untuk distribusi pareto, bahkan dalam kasus di mana asumsi untuk CLT terpenuhi. Asumsinya adalah bahwa harus ada varian terbatas, yang untuk pareto berarti . Untuk diskusi yang lebih teoretis tentang mengapa ini terjadi, lihat jawaban saya di sini: Apa perbedaan antara varian terbatas dan tak terbatas $\alpha > 2$

Saya akan mensimulasikan data dari distribusi pareto dengan parameter , sehingga varians "nyaris tidak ada". Ulangi simulasi saya dengan untuk melihat perbedaannya! Berikut ini beberapa kode R: $\alpha=2.1$ $\alpha=3.1$

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

Dan inilah plotnya:

Orang dapat melihat bahwa bahkan pada ukuran sampel kita jauh dari perkiraan normal. Bahwa varian empiris jauh lebih rendah daripada varian teoretis yang sebenarnya disebabkan oleh fakta bahwa kami memiliki kontribusi yang sangat besar terhadap varian dari bagian-bagian distribusi di ekor kanan ekstrem yang tidak muncul di sebagian besar sampel. Ini harus selalu diharapkan, ketika varian "nyaris tidak ada" $n=10000$ $\sigma^2=1$ . Cara praktis untuk memikirkannya adalah sebagai berikut. Distribusi pareto sering diusulkan untuk memodelkan distribusi pendapatan (atau kekayaan). Harapan pendapatan (atau kekayaan) akan memiliki kontribusi yang sangat besar dari sangat sedikit miliaran. Pengambilan sampel dengan ukuran sampel praktis akan memiliki probabilitas yang sangat kecil untuk memasukkan miliar miliar dalam sampel!

kjetil b halvorsen
sumber

Saya suka sudah memberikan jawaban tetapi berpikir ada sedikit banyak teknis untuk "penjelasan orang awam" jadi saya akan mencoba sesuatu yang lebih intuitif (dimulai dengan persamaan ...).

$p$

μ = \int x \cdot p (x) d x

$\mu = \int x \cdot p(x) dx$

x

$x$

x

$x$

x

$x$

x

$x$

p (x)

$p(x)$

x \cdot p (x)

$x \cdot p(x)$

p (x)

$p(x)$

μ

$\mu$

p

$p$ tidak ada artinya. Ini adalah kasus Pareto untuk nilai parameter tertentu.

Kemudian, teorema limit pusat menetapkan distribusi jarak antara rata-rata empiris dan mean sebagai fungsi dari varians dan (secara asimptikal dengan ). Mari kita lihat bagaimana rata-rata empiris berperilaku sebagai fungsi dari jumlah untuk kepadatan gaussian : $\bar{x}=\frac{1}{n} \sum_i x_i$ $\mu$ $p$ $n$ $n$ $\bar{x}$ $n$ $p$

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

Ini adalah realisasi tipikal, mean sampel konvergen ke densitas rata-rata dengan cukup baik (dan rata-rata dengan cara yang diberikan oleh teorema batas pusat). Mari kita lakukan hal yang sama untuk distribusi pareto tanpa rata-rata (substituing rnorm (N, 1,1); oleh pareto (N, 1.1,1);)

Ini juga merupakan simulasi yang khas, dari waktu ke waktu, mean sampel menyimpang sangat sederhana karena dijelaskan menggunakan rumus integral, dalam produk , frekuensi nilai tinggi tidak cukup kecil untuk mengkompensasi fakta bahwa tinggi. Jadi mean tidak ada dan sampel rata-rata tidak konvergen ke nilai khas apa pun dan teorema limit pusat tidak ada artinya. $p(x) \cdot x$ $x$ $x$

Akhirnya, perhatikan bahwa teorema limit pusat berhubungan dengan mean empiris, mean, ukuran sampel dan varians. Jadi varians juga harus ada (lihat kjetil b halvorsen jawaban untuk detailnya). $n$ $\int (x-\mu)^2 p(x) dx$

peuhp
sumber