Mengapa ada -1 dalam fungsi kepadatan distribusi beta?

18

Distribusi beta muncul di bawah dua parameter (atau di sini )

(1)f(x)xα(1x)β

atau yang tampaknya lebih sering digunakan

(2)f(x)xα1(1x)β1

Tetapi mengapa sebenarnya ada " " dalam formula kedua?1

Formulasi pertama secara intuitif tampaknya lebih langsung berhubungan dengan distribusi binomial

(3)g(k)pk(1p)nk

tetapi "dilihat" dari sudut pandangp . Hal ini terutama jelas dalam Model beta-binomial di mana dapat dipahami sebagai sebelum sejumlah keberhasilan dan adalah sebelum sejumlah kegagalan.αβ

Jadi mengapa sebenarnya bentuk kedua mendapatkan popularitas dan apa alasan di baliknya? Apa itu konsekuensi menggunakan salah satu parametrization (misalnya untuk koneksi dengan distribusi binomial)?

Akan lebih bagus jika seseorang juga bisa menunjukkan asal pilihan dan argumen awal untuk itu, tetapi itu bukan keharusan bagi saya.

Tim
sumber
3
Alasan mendalam diisyaratkan dalam jawaban ini : f sama dengan xα(1x)β relatif terhadap ukuran dμ=dx/((x(1x)) . Itu mengurangi pertanyaan Anda menjadi "mengapa ukuran khusus itu "? Mengenali bahwa ukuran ini adalah
dμ=d(log(x1x))
menyarankan cara "benar" untuk memahami distribusi ini adalah dengan menerapkan transformasi logistik: istilah "1" kemudian akan hilang.
whuber
1
Saya pikir alasan sebenarnya hal itu terjadi adalah yang historis - karena nampak seperti itu dalam fungsi beta yang namanya distribusinya. Adapun mengapa itu memiliki 1 dalam kekuasaan, saya berharap bahwa pada akhirnya akan terhubung dengan alasan whuber menyebutkan (meskipun secara historis tidak ada hubungannya dengan ukuran atau bahkan probabilitas).
Glen_b -Reinstate Monica
2
@ Glen_b Ini lebih dari sekedar sejarah: ada alasan yang kuat. Mereka adalah karena hubungan intim antara fungsi Beta dan Gamma, mengurangi pertanyaan mengapa eksponen dalam Γ(s)=0ts1etdt adalah s1 dan bukan s . Itu karena Γ adalah jumlah Gauss . Ekuivalen, itu adalah "hak" untuk melihat Γ sebagai integral dari homomorfisma perkalian tts kali karakter aditiftet terhadap Haar ukurandt/tpada perkalian kelompokR× .
whuber
1
@wh Itu alasan bagus mengapa fungsi gamma harus dipilih seperti itu (dan saya sudah menyarankan alasan seperti itu ada di atas dan saya menerima beberapa bentuk penalaran yang mirip dengan itu - tetapi tentu dengan formalisme berbeda - datang ke pilihan Euler); alasan-alasan kuat yang sesuai terjadi dengan kepadatan; tapi itu tidak membuktikan bahwa ini sebenarnya alasan untuk memilih (mengapa formulir itu dipilih seperti itu), hanya saja itu alasan yang bagus untuk melakukannya. Bentuk fungsi gamma ...
ctd
1
ctd ... sendiri bisa dengan mudah menjadi alasan yang cukup untuk memilih bentuk itu untuk kepadatan dan untuk orang lain untuk mengikutinya. [Seringkali pilihan dibuat untuk alasan yang lebih sederhana bahwa yang dapat kita identifikasi sesudahnya dan kemudian sering dibutuhkan alasan kuat untuk melakukan hal lain. Apakah kita tahu bahwa itu mengapa hal itu awalnya dipilih] -? Anda menjelaskan dengan jelas bahwa ada alasan mengapa kita harus memilih kepadatan harus seperti itu, daripada mengapa adalah seperti itu. Itu melibatkan urutan orang membuat pilihan (untuk menggunakannya seperti itu, dan mengikuti), dan alasan mereka pada saat mereka memilih.
Glen_b -Reinstate Monica

Jawaban:

9

Ini adalah kisah tentang derajat kebebasan dan parameter statistik dan mengapa baik bahwa keduanya memiliki koneksi langsung yang sederhana.

Secara historis, " 1 " muncul dalam studi Euler tentang fungsi Beta. Dia menggunakan parameterisasi itu pada 1763, dan begitu juga Adrien-Marie Legendre: penggunaannya membentuk konvensi matematika berikutnya. Karya ini mendahului semua aplikasi statistik yang dikenal.

Teori matematika modern memberikan banyak indikasi, melalui banyak aplikasi dalam analisis, teori bilangan, dan geometri, bahwa istilah " " sebenarnya memiliki beberapa makna. Saya telah membuat sketsa beberapa alasan dalam komentar untuk pertanyaan itu.1

Yang lebih menarik adalah parameterisasi statistik "benar" seharusnya. Itu tidak begitu jelas dan tidak harus sama dengan konvensi matematika. Ada jaringan besar distribusi probabilitas yang umum digunakan, terkenal, dan saling terkait. Dengan demikian, konvensi yang digunakan untuk memberi nama (yaitu, parameterisasi) satu keluarga biasanya menyiratkan konvensi terkait untuk menyebutkan keluarga terkait. Ubah satu parameterisasi dan Anda ingin mengubahnya semuanya. Karena itu kita mungkin melihat hubungan ini sebagai petunjuk.

Hanya sedikit orang yang tidak setuju bahwa keluarga distribusi paling penting berasal dari keluarga Normal. Ingat bahwa variabel acak dikatakan "Biasanya didistribusikan" ketika ( X - μ ) / σ memiliki kepadatan probabilitas f ( x ) sebanding dengan exp ( - x 2 / 2 ) . Ketika σ = 1 dan μ = 0 , X dikatakan memiliki standarX(Xμ)/σf(x)exp(x2/2)σ=1μ=0X distribusi normal .

Banyak dataset dipelajari menggunakan statistik yang relatif sederhana yang melibatkan kombinasi rasional data dan kekuatan rendah (biasanya kuadrat). Bila data yang dimodelkan sebagai sampel acak dari distribusi normal - sehingga setiap x i dipandang sebagai realisasi dari variabel normal X i , semua X i berbagi distribusi umum, dan independen - distribusi statistik tersebut ditentukan oleh distribusi Normal itu. Yang paling sering muncul dalam praktik adalahx1,x2,,xnxiXiXi

  1. ,distribusi t Studentdengan ν = n - 1 "derajat kebebasan." Ini adalah distribusi statistik t = ˉ Xtνtν=n1 mana ˉ X =(X1+X2++Xn)/nmemodelkan rata-rata data danse(X)=(1/

    t=X¯se(X)
    X¯=(X1+X2++Xn)/n adalah kesalahan standar rata-rata. Pembagian dengann-1menunjukkan bahwanharus2atau lebih besar, di manaνadalah bilangan bulat1atau lebih besar. Rumusnya, meskipun tampaknya sedikit rumit, adalah akar kuadrat dari fungsi rasional dari data tingkat dua: itu relatif sederhana.se(X)=(1/n)(X12+X22++Xn2)/(n1)X¯2n1n2ν1
  2. ,yang χ 2 (chi-squared) distribusidengan ν "derajat kebebasan" (df). Ini adalah distribusi jumlah kuadrat darivariabel normal standar ν independen. Distribusi rata-rata kuadrat dari variabel-variabel ini karena itu akan menjadidistribusi χ 2 yang diskalakan oleh 1 / ν : Saya akan merujuk ini sebagaidistribusi"dinormalisasi" χ 2 .χν2χ2ννχ21/νχ2

  3. ,yang F distribusi rasio dengan parameter ( ν 1 , ν 2 ) adalah rasio dari dua independen normalisasi χ 2 distribusi dengan ν 1 dan ν 2 derajat kebebasan.Fν1,ν2F(ν1,ν2)χ2ν1ν2

Perhitungan matematis menunjukkan bahwa ketiga distribusi ini memiliki kepadatan. Yang penting, kepadatan distribusi sebanding dengan integrand dalam definisi integral Euler tentang fungsi Gamma ( Γ ). Mari kita bandingkan mereka:χν2Γ

fχν2(2x)xν/21ex;fΓ(ν)(x)xν1ex.

Ini menunjukkan bahwa dua kali variabel memiliki distribusi Gamma dengan parameter ν / 2 . Faktor setengahnya cukup merepotkan, tetapi mengurangi 1 akan membuat hubungan jauh lebih buruk. Ini sudah memasok jawaban yang menarik untuk pertanyaan: jika kita ingin parameter dari χ 2 distribusi untuk menghitung jumlah variabel normal kuadrat yang memproduksinya (sampai faktor 1 / 2χν2ν/21χ21/2 ), maka eksponen dalam fungsi densitas keharusan menjadi kurang dari setengah hitungan itu.

Mengapa faktor kurang merepotkan daripada perbedaan dari 1 ? Alasannya adalah bahwa faktor tersebut akan tetap konsisten ketika kita menambahkan sesuatu. Jika jumlah kuadrat dari n Standar normal independen sebanding dengan distribusi Gamma dengan parameter n (kali beberapa faktor), maka jumlah kuadrat dari m standar normal independen sebanding dengan distribusi Gamma dengan parameter m (kali faktor yang sama) , di mana jumlah kuadrat dari semua variabel n + m sebanding dengan distribusi Gamma dengan parameter m + n (masih kali faktor yang sama). 1/21nnmmn+mm+nFakta bahwa menambahkan parameter yang sangat mirip dengan menambahkan jumlah sangat membantu.

Namun, jika kita harus menghapus " " yang tampak sial dari rumus matematika, hubungan baik ini akan menjadi lebih rumit. Misalnya, jika kita mengubah parameterisasi distribusi Gamma untuk merujuk pada kekuatan aktual x dalam rumus, sehingga distribusi χ 2 1 akan terkait dengan distribusi "Gamma ( 0 ) " (karena kekuatan x dalam PDF adalah 1 - 1 = 0 ), maka jumlah dari tiga χ 2 1 distribusi harus disebut "Gamma ( 2 )1xχ12(0)x11=0χ12(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the 1 from the formula and absorbing it in the parameter.

Similarly, the probability function of an F ratio distribution is closely related to Beta distributions. Indeed, when Y has an F ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2) distribution. Its density function is proportional to

fZ(z)zν1/21(1z)ν2/21.

Furthermore--taking these ideas full circle--the square of a Student t distribution with ν d.f. has an F ratio distribution with parameters (1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.

From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of Γ and Beta distributions: we should prefer calling a Γ(α) distribution a "Γ(2α) distribution" and the Beta(α,β) distribution ought to be called a "Beta(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "F Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "1" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.

whuber
sumber
1
Thanks for your answer (I +1d already). I have just a small follow-up question: maybe I'm missing something, but aren't we sacrificing the direct relation with binomial by using the -1 parametrization?
Tim
I'm not sure which "direct relation with binomial" you're referring to, Tim. For instance, when the Beta(a,b) distribution is used as a conjugate prior for a Binomial sample, clearly the parameters are exactly the right ones to use: you add a (not a1) to the number of successes and b (not b1) to the number of failures.
whuber
1

The notation is misleading you. There is a "hidden 1" in your formula (1), because in (1), α and β must be bigger than 1 (the second link you provided in your question says this explicitly). The α's and β's in the two formulas are not the same parameters; they have different ranges: in (1), α,β>1, and in (2), α,β>0αβ(1)α=1 (or less) and β=0, then try to integrate the (kernel of the) density between 0 and 1. Equivalently, try the same in (2) for α=0 (or less) and β=1.

Zen
sumber
2
The issue of a range of definition for α and β seems to go away when the integral is interpreted, as Pochhammer did in 1890, as a specific contour integral. In that case it can be equated to an expression that determines an analytic function for all values of α and β--including all complex ones. This throws light on the concern in the question: why exactly has this specific parameterization been adopted, given there are many other possible parameterizations that seem like they might serve equally well?
whuber
1
To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).
Zen
2
Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?
Tim
1
Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.
whuber
1
Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for α,β>0, if UGamma(α,1) and VGamma(β,1) are independent, then X=U/(U+V) is Beta(α,β), and the density of X is proportional to xα1(1x)β1. But then you can question the parameterization of the gamma distribution...
Zen
0

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial x!. Since it is not possible to compute x! directly if x is not integer, the idea was to find a function for any x0 that satisfies the recurrence relation defined by the factorial, namely

f(1)=1f(x+1)=xf(x).

Solution was by means of the convergence of an integral. For the function defined as

f(x+1)=0txexdt,

integration by parts provides the following:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: f(1)=1 and f(x+1)=xf(x). We have Γ(x)=(x1)!, therefore it satisfies Γ(x+1)=xΓ(x)=x(x1)!=x!. In addition, we have Γ(1)=(11)!=0!=1. As for the beta distribution with parameters α,β, generalisation of the Binomial coefficient is Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. There we have the -1 in the denominator, for both parameters.

aatr
sumber
This makes no sense because the recurrence function satisfied by the factorial is not what you state: (x+1)!xx!.
whuber
The function f(x) satisfying the recurrence relation is the Gamma: Γ(x+1)=xΓ(x). This is how it is defined.
aatr
Yes: but your stated motivation is based on the factorial function, not the Gamma.
whuber
It is important to recall the relation between Gamma and factorial: Γ(x)=(x1)!.
aatr
Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.
whuber