Distribusi apa yang mengikuti CDF normal terbalik dari variabel beta acak?

14

Misalkan Anda mendefinisikan:

XBeta(α,β)

YΦ1(X)

dimana Φ1 adalah kebalikan dari CDF dari distribusi normal standar .

Pertanyaan saya adalah: Apakah ada distribusi sederhana yang Y ikuti, atau yang dapat mendekati Y ? Saya bertanya karena saya memiliki kecurigaan yang kuat berdasarkan hasil simulasi (ditunjukkan di bawah) bahwa Y menyatu dengan distribusi normal ketika α dan β tinggi, tetapi saya tidak tahu mengapa itu akan secara matematis. (Tentu saja ketika α=1;β=1 , X akan seragam dan Y akan menjadi standar normal, tetapi mengapa itu berlaku untuk nilai yang lebih tinggi?).

Jika ini konvergen menjadi normal, seperti apa parameter normal itu, dalam hal α dan β ? (Saya berharap nilai rata-ratanya adalah Φ1(αα+β) karena itu adalah transformasi dari mode, tapi saya tidak tahu standar deviasi).

(Dengan kata lain, ini bisa menanyakan "apakah Φ(Norm(μ,σ)) konvergen ke distribusi beta, untuk beberapa arah μ danσ "? Saya tidak yakin apakah itu lebih mudah untuk dijawab).

Hasil simulasi

Di sini saya menunjukkan mengapa saya curiga bahwa hasilnya normal (karena saya tidak dapat mendukungnya dengan matematika). Simulasi Y dapat dilakukan dalam R dengan qnormdan rnorm. Misalnya, memilih parameter tinggi α=3000 dan β=7000 :

hist(qnorm(rbeta(5000, 3000, 7000)))

Ini memang terlihat normal, dan qqnormdan tes Shapiro-Wilk (di mana normalitas adalah hipotesis nol) menyarankan demikian juga:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Untuk menjelajahi normalitas sedikit lebih dalam, saya melakukan 2.000 simulasi, setiap kali mensimulasikan 5.000 nilai dari Y , kemudian melakukan tes untuk membandingkannya dengan normal. (Saya memilih nilai 5K karena itulah yang shapiro.testbisa ditangani secara maksimal , dan memaksimalkan daya untuk mendeteksi penyimpangan dari norma).

Jika distribusi benar-benar normal, kami memperkirakan nilai-p akan seragam (karena nol benar). Mereka memang mendekati seragam, menunjukkan bahwa distribusinya sangat dekat dengan normal:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Beberapa eksperimen menunjukkan bahwa semakin tinggi dan β , semakin dekat distribusi menjadi normal (misalnya cukup jauh dari normal, tetapi cobalah dan tampaknya ada di antara keduanya).αβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))

David Robinson
sumber
2
Tidak ada yang menarik terjadi di sini. Ketika dan β bertambah besar, mari kita asumsikan mereka tetap dalam proporsi yang sama, atau setidaknya α / ( α + β ) tetap menjauh dari 0 dan 1 . Kemudian distribusi Beta ( α , β ) menjadi Normal dan terkonsentrasi dalam kisaran sempit yang sewenang-wenang. Φ - 1 sendiri dan tidak menambahkan informasi tentang distribusi Beta. αβα/(α+β)01(α,β)Φ1 , karena dapat dibedakan, pada dasarnya menjadi linier, di mana Anda hanya melihat transformasi linear dari variabel yang hampir normal. Hasil ini tidak lebih dari itu berkaitan dengan Φ1
whuber
1
@whuber Itu masuk akal untuk dan β besar (saya punya beberapa simulasi yang membuat saya berpikir ini lebih dekat ke normal daripada kira-kira normal yang kira-kira sama dengan beta, tetapi pada rerunning saya pikir saya memiliki kesalahan pada saat itu). Setiap pemikiran tentang α = 2 ; β = 2 ? Dist sangat jauh dari normal, tetapi qnormnya cukup dekat. αβα=2β=2
David Robinson
1
@whuber Misalnya hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), coba hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). Dengan kata lain, ketika itu normal karena beta seragam, ketika α dan β tinggi itu karena beta kira-kira normal- tetapi mengapa ia bekerja ketika mereka sama dan di antara, di mana itu tidak normal atau seragam? α=β=1αβ
David Robinson
5
Itu pasti lebih menarik! Anda benar bahwa Beta tidak terlalu dekat dengan Normal tetapi bahwa transformasi mendekati Normal, bahkan untuk parameter kecil Beta. Penyimpangan dari Normalitas menjadi jelas di ekor, sekitar atau lebih besar, tetapi sangat kecil di seluruh tubuh distribusi. Pada akhirnya ini dapat dilacak pada perilaku kekuatan hukum dari ekor Beta. Z=±3
whuber

Jawaban:

7

Ringkasan

Anda telah menemukan kembali bagian dari konstruksi yang dijelaskan di Teorema Batas Tengah untuk Sampel Median , yang menggambarkan analisis median sampel. (Analisis ini jelas berlaku, mutatis mutandis , untuk setiap kuantil, bukan hanya median). Oleh karena itu tidak mengherankan bahwa untuk parameter Beta besar (sesuai dengan sampel besar) distribusi normal muncul di bawah transformasi yang dijelaskan dalam pertanyaan. Yang menarik adalah seberapa dekat dengan Normal distribusi bahkan untuk parameter Beta kecil . Itu pantas penjelasan.

Saya akan membuat sketsa analisis di bawah ini. Untuk menjaga agar posting ini tidak masuk akal, ini melibatkan banyak gerakan tangan yang sugestif: Saya hanya bertujuan untuk menunjukkan ide-ide kunci. Oleh karena itu saya rangkum hasilnya di sini:

  1. Ketika dekat dengan β , semuanya simetris. Ini menyebabkan distribusi yang ditransformasikan sudah terlihat Normal.αβ

  2. Fungsi dari bentuk terlihat cukup normal di tempat pertama, bahkan untuk nilai α dan β yang kecil (asalkan melebihi 1 dan rasionya tidak terlalu dekat dengan 0 atau 1 ).Φα1(x)(1Φ(x))β1αβ101

  3. Normalitas semu dari distribusi yang ditransformasikan adalah karena fakta bahwa kerapatannya terdiri dari kerapatan Normal yang dikalikan dengan fungsi dalam (2).

  4. Sebagai dan β meningkat, keberangkatan dari Normalitas dapat diukur dalam istilah sisanya dalam seri Taylor untuk kepadatan log. Istilah order n menurun sebanding dengan ( n - 2 ) / 2 kekuasaan α dan β . Ini menyiratkan bahwa pada akhirnya, untuk α dan β yang cukup besar , semua istilah daya n = 3 atau lebih besar telah menjadi relatif kecil, hanya menyisakan kuadrat: yang merupakan kepadatan log dari distribusi Normal.αβn(n2)/2αβαβn=3

Secara kolektif, perilaku ini dengan baik menjelaskan mengapa bahkan untuk dan β kecil, kuantil non-ekstrem dari sampel Normal iid terlihat mendekati Normal.αβ


Analisis

Karena dapat berguna untuk menggeneralisasi, misalkan adalah fungsi distribusi apa pun , walaupun kami memiliki pemikiran F = ΦFF=Φ .

Fungsi kerapatan dari variabel Beta ( α , β ) , menurut definisi, sebanding dengang(y)(α,β)

yα1(1y)β1dy.

Membiarkan menjadi transformasi integral tak terpisahkan dari x dan menulis f untuk turunan dari F , adalah langsung bahwa x memiliki kerapatan sebanding dengany=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Karena ini adalah transformasi monoton dari distribusi yang sangat unimodal (Beta), kecuali agak aneh, distribusi yang ditransformasikan juga akan unimodal. Untuk mempelajari seberapa dekat dengan Normal, mari kita periksa logaritma densitasnya,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

dimana C adalah konstanta normalisasi yang tidak relevan.

Perluas komponen dalam seri Taylor untuk memesan tiga di sekitar nilai x 0 (yang akan dekat dengan mode). Sebagai contoh, kita dapat menulis ekspansi log F sebagailogG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

untuk beberapa dengan | h | | x - x 0 | . Gunakan notasi serupa untuk log ( 1 - F ) dan log f . h|h||xx0|log(1F)logf

Istilah linear

Istilah linear dalam dengan demikian menjadi(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

Ketika adalah mode G (x0 , ungkapan ini adalah nol. Perhatikan bahwa karena koefisien adalah fungsi kontinu dari x 0 , karena α dan β bervariasi, mode x 0 akan bervariasi terus menerus juga. Selain itu, setelah α dan β yang cukup besar, yang c f 1 jangka menjadi relatif tidak penting. Jika kita bertujuan untuk mempelajari batas sebagai α dan β yang α : β tetap dalam proporsi konstan γG(;α,β)x0αβx0αβc1fαβ α:βγ, karena itu kami dapat sekali dan untuk semua memilih titik dasar yang manax0

γc1F+c11F=0.

Kasus yang bagus adalah di mana , di mana α = β di seluruh, dan F simetris tentang 0 . Dalam hal itu jelas x 0 = F ( 0 ) = 1 / 2γ=1α=βF0x0=F(0)=1/2 .

Kami telah mencapai metode di mana (a) dalam batas, istilah orde pertama dalam deret Taylor menghilang dan (b) dalam kasus khusus yang baru saja dijelaskan, istilah orde pertama selalu nol.

Istilah kuadratik

These are the sum

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

Comparing to a Normal distribution, whose quadratic term is (1/2)(xx0)2/σ2, we may estimate that 1/(2g2(α,β)) is approximately the variance of G. Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (xx0)n(1/(2g2(α,β)))n/2.

Remainder term

Here's the punchline: the term of order n in the Taylor expansion is, according to our notation,

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

After standardization, it becomes

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order (n2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when F is normal

The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα1(1F)β1 and normality.

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.

whuber
sumber
2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).
Jan Kislinger
sumber
1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

air
sumber