Misalkan Anda mendefinisikan:
dimana adalah kebalikan dari CDF dari distribusi normal standar .
Pertanyaan saya adalah: Apakah ada distribusi sederhana yang ikuti, atau yang dapat mendekati ? Saya bertanya karena saya memiliki kecurigaan yang kuat berdasarkan hasil simulasi (ditunjukkan di bawah) bahwa menyatu dengan distribusi normal ketika dan tinggi, tetapi saya tidak tahu mengapa itu akan secara matematis. (Tentu saja ketika , akan seragam dan akan menjadi standar normal, tetapi mengapa itu berlaku untuk nilai yang lebih tinggi?).
Jika ini konvergen menjadi normal, seperti apa parameter normal itu, dalam hal dan ? (Saya berharap nilai rata-ratanya adalah karena itu adalah transformasi dari mode, tapi saya tidak tahu standar deviasi).
(Dengan kata lain, ini bisa menanyakan "apakah konvergen ke distribusi beta, untuk beberapa arah dan "? Saya tidak yakin apakah itu lebih mudah untuk dijawab).
Hasil simulasi
Di sini saya menunjukkan mengapa saya curiga bahwa hasilnya normal (karena saya tidak dapat mendukungnya dengan matematika). Simulasi dapat dilakukan dalam R dengan qnorm
dan rnorm
. Misalnya, memilih parameter tinggi dan :
hist(qnorm(rbeta(5000, 3000, 7000)))
Ini memang terlihat normal, dan qqnorm
dan tes Shapiro-Wilk (di mana normalitas adalah hipotesis nol) menyarankan demikian juga:
qqnorm(qnorm(rbeta(5000, 3000, 7000)))
shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#>
#> Shapiro-Wilk normality test
#>
#> data: qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838
Untuk menjelajahi normalitas sedikit lebih dalam, saya melakukan 2.000 simulasi, setiap kali mensimulasikan 5.000 nilai dari , kemudian melakukan tes untuk membandingkannya dengan normal. (Saya memilih nilai 5K karena itulah yang shapiro.test
bisa ditangani secara maksimal , dan memaksimalkan daya untuk mendeteksi penyimpangan dari norma).
Jika distribusi benar-benar normal, kami memperkirakan nilai-p akan seragam (karena nol benar). Mereka memang mendekati seragam, menunjukkan bahwa distribusinya sangat dekat dengan normal:
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))
Beberapa eksperimen menunjukkan bahwa semakin tinggi dan β , semakin dekat distribusi menjadi normal (misalnya cukup jauh dari normal, tetapi cobalah dan tampaknya ada di antara keduanya).rbeta(5000, 3, 7)
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))
sumber
hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value))
, cobahist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))
. Dengan kata lain, ketika itu normal karena beta seragam, ketika α dan β tinggi itu karena beta kira-kira normal- tetapi mengapa ia bekerja ketika mereka sama dan di antara, di mana itu tidak normal atau seragam?Jawaban:
Ringkasan
Anda telah menemukan kembali bagian dari konstruksi yang dijelaskan di Teorema Batas Tengah untuk Sampel Median , yang menggambarkan analisis median sampel. (Analisis ini jelas berlaku, mutatis mutandis , untuk setiap kuantil, bukan hanya median). Oleh karena itu tidak mengherankan bahwa untuk parameter Beta besar (sesuai dengan sampel besar) distribusi normal muncul di bawah transformasi yang dijelaskan dalam pertanyaan. Yang menarik adalah seberapa dekat dengan Normal distribusi bahkan untuk parameter Beta kecil . Itu pantas penjelasan.
Saya akan membuat sketsa analisis di bawah ini. Untuk menjaga agar posting ini tidak masuk akal, ini melibatkan banyak gerakan tangan yang sugestif: Saya hanya bertujuan untuk menunjukkan ide-ide kunci. Oleh karena itu saya rangkum hasilnya di sini:
Ketika dekat dengan β , semuanya simetris. Ini menyebabkan distribusi yang ditransformasikan sudah terlihat Normal.α β
Fungsi dari bentuk terlihat cukup normal di tempat pertama, bahkan untuk nilai α dan β yang kecil (asalkan melebihi 1 dan rasionya tidak terlalu dekat dengan 0 atau 1 ).Φα−1(x)(1−Φ(x))β−1 α β 1 0 1
Normalitas semu dari distribusi yang ditransformasikan adalah karena fakta bahwa kerapatannya terdiri dari kerapatan Normal yang dikalikan dengan fungsi dalam (2).
Sebagai dan β meningkat, keberangkatan dari Normalitas dapat diukur dalam istilah sisanya dalam seri Taylor untuk kepadatan log. Istilah order n menurun sebanding dengan ( n - 2 ) / 2 kekuasaan α dan β . Ini menyiratkan bahwa pada akhirnya, untuk α dan β yang cukup besar , semua istilah daya n = 3 atau lebih besar telah menjadi relatif kecil, hanya menyisakan kuadrat: yang merupakan kepadatan log dari distribusi Normal.α β n (n−2)/2 α β α β n=3
Secara kolektif, perilaku ini dengan baik menjelaskan mengapa bahkan untuk dan β kecil, kuantil non-ekstrem dari sampel Normal iid terlihat mendekati Normal.α β
Analisis
Karena dapat berguna untuk menggeneralisasi, misalkan adalah fungsi distribusi apa pun , walaupun kami memiliki pemikiran F = ΦF F=Φ .
Fungsi kerapatan dari variabel Beta ( α , β ) , menurut definisi, sebanding dengang(y) (α,β)
Membiarkan menjadi transformasi integral tak terpisahkan dari x dan menulis f untuk turunan dari F , adalah langsung bahwa x memiliki kerapatan sebanding dengany=F(x) x f F x
Karena ini adalah transformasi monoton dari distribusi yang sangat unimodal (Beta), kecuali agak aneh, distribusi yang ditransformasikan juga akan unimodal. Untuk mempelajari seberapa dekat dengan Normal, mari kita periksa logaritma densitasnya,F
dimanaC adalah konstanta normalisasi yang tidak relevan.
Perluas komponen dalam seri Taylor untuk memesan tiga di sekitar nilai x 0 (yang akan dekat dengan mode). Sebagai contoh, kita dapat menulis ekspansi log F sebagailogG(x;α,β) x0 logF
untuk beberapa dengan | h | ≤ | x - x 0 | . Gunakan notasi serupa untuk log ( 1 - F ) dan log f .h |h|≤|x−x0| log(1−F) logf
Istilah linear
Istilah linear dalam dengan demikian menjadi(1)
Ketika adalah mode G (x0 , ungkapan ini adalah nol. Perhatikan bahwa karena koefisien adalah fungsi kontinu dari x 0 , karena α dan β bervariasi, mode x 0 akan bervariasi terus menerus juga. Selain itu, setelah α dan β yang cukup besar, yang c f 1 jangka menjadi relatif tidak penting. Jika kita bertujuan untuk mempelajari batas sebagai α → ∞ dan β → ∞ yang α : β tetap dalam proporsi konstan γG(;α,β) x0 α β x0 α β cf1 α→∞ β→∞ α:β γ , karena itu kami dapat sekali dan untuk semua memilih titik dasar yang manax0
Kasus yang bagus adalah di mana , di mana α = β di seluruh, dan F simetris tentang 0 . Dalam hal itu jelas x 0 = F ( 0 ) = 1 / 2γ=1 α=β F 0 x0=F(0)=1/2 .
Kami telah mencapai metode di mana (a) dalam batas, istilah orde pertama dalam deret Taylor menghilang dan (b) dalam kasus khusus yang baru saja dijelaskan, istilah orde pertama selalu nol.
Istilah kuadratik
These are the sum
Comparing to a Normal distribution, whose quadratic term is−(1/2)(x−x0)2/σ2 , we may estimate that −1/(2g2(α,β)) is approximately the variance of G . Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (x−x0)n (−1/(2g2(α,β)))n/2.
Remainder term
Here's the punchline: the term of ordern in the Taylor expansion is, according to our notation,
After standardization, it becomes
Both of thegi are affine combination of α and β . By raising the denominator to the n/2 power, the net behavior is of order −(n−2)/2 in each of α and β . As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.
The case whenF is normal
The vanishing of the remainder term is particularly fast whenF is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα−1(1−F)β−1 and normality.
This deviation is fairly small even for smallα and β . To illustrate, consider the case α=β . G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in x−x0=x .
Here is a plot showing how the standardized fourth order term changes with small values ofα>1 :
The value starts out at0 for α=β=1 , because then the distribution obviously is Normal (Φ−1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008 --which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2 .
sumber
Convergence
Suppose thatα=β and let α→∞ and take any small ε>0 . Then var(X)→0 . By Chebyshev's inequality we have P[|X−0.5|>ε]→0 and P[|Y|>ε]→0 . This means that Y converges in probability (
not in distributionactually it converges in distribution - to singleton).Exact distribution
Denote byfX the density of beta distribution. Then your variable Y has density
FullSimplify
function in Wolfram Mathematica to see if it finds some better form.Here is the density in R so you can plot it instead of histogram.
Modification
However, you are maybe interested in distribution of
sumber
Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, takek∈N , k≥2 . Let X∼Beta(k,k) . I want to argue that Y=Φ−1(X) is approximately normal.
Now letn=2k−1 . We start by drawing n i.i.d. uniformly distributed random variables U1,…,Un . Next, form the order statistics U(1)≤…≤U(n) .
It is well known thatU(k)∼Beta(k,n+1−k) , thus:
In other words: The sample median ofn i.i.d. uniformly distributed random variables is Beta(k,k) distributed.
Now let's transform byZi=Φ−1(Ui) . Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)≤…≤Z(n) ). Since Φ−1 is strictly increasing, it follows that:
Therefore, to show thatY is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.
Fork large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2 , I will let everyone's gut feeling do the speaking.
Fora≠b (but not too different) one can argue similarly by using corresponding quantiles.
sumber