Apa hubungan antara distribusi Beta dan model regresi logistik?

16

Pertanyaan saya adalah: Apa hubungan matematis antara distribusi Beta dan koefisien model regresi logistik ?

Sebagai ilustrasi: fungsi logistik (sigmoid) diberikan oleh

f(x)=11+exp(x)

dan digunakan untuk memodelkan probabilitas dalam model regresi logistik. Biarkan A menjadi dikotomis (0,1) mencetak hasil dan X sebuah matriks desain. Model regresi logistik diberikan oleh

P(A=1|X)=f(Xβ).

Catatan memiliki kolom pertama konstanta 1 (intersep) dan β adalah vektor kolom koefisien regresi. Misalnya, ketika kita memiliki satu regresi (standar-normal) x dan memilih β 0 = 1 (mencegat) dan β 1 = 1 , kita dapat mensimulasikan 'distribusi probabilitas' yang dihasilkan.X1βxβ0=1β1=1

Histogram P (A = 1 | X)

Plot ini mengingatkan tentang distribusi Beta (seperti halnya plot untuk pilihan ) yang kepadatannya diberikan olehβ

g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p1)(1y)(q1).

Menggunakan kemungkinan maksimum atau metode momen adalah mungkin untuk memperkirakan dan q dari distribusi P ( A = 1 | X ) . Jadi, pertanyaan saya sampai pada: apa hubungan antara pilihan β dan p dan q ? Ini, untuk mulai dengan, mendukung kasus bivariat yang diberikan di atas.pqP(A=1|X)βpq

Tomka
sumber
Saya hanya ingin tahu ini 3 jam yang lalu di kelas statistik Bayesian saya
Alchemist

Jawaban:

16

Beta adalah distribusi nilai dalam rentang yang sangat fleksibel dalam bentuknya, jadi untuk hampir semua distribusi nilai empiris unimodal dalam ( 0 , 1 ) Anda dapat dengan mudah menemukan parameter distribusi beta seperti itu yang "menyerupai" bentuk dari distribusi.(0,1)(0,1)

Perhatikan bahwa regresi logistik memberi Anda probabilitas kondisional , sedangkan pada plot Anda, Anda memberikan kepada kami distribusi marjinal dari probabilitas yang diprediksi. Itu adalah dua hal yang berbeda untuk dibicarakan.Pr(Y=1X)

Tidak ada hubungan langsung antara parameter regresi logistik dan parameter distribusi beta ketika melihat distribusi prediksi dari model regresi logistik. Di bawah ini Anda dapat melihat data disimulasikan menggunakan distribusi normal, eksponensial dan seragam ditransformasikan menggunakan fungsi logistik. Selain menggunakan parameter regresi logistik yang sama persis (yaitu ), distribusi probabilitas yang diprediksi sangat berbeda. Jadi distribusi probabilitas yang diprediksi tergantung tidak hanya pada parameter regresi logistik, tetapi juga pada distribusi X dan tidak ada hubungan sederhana di antara mereka.β0=0,β1=1X

Logistic function of data simulated under normal, exponential and uniform distributions

(0,1)

Tim
sumber
β
4
X
4
Distribusi beta tidak fleksibel - tidak dapat memperkirakan distribusi multimoda.
Marcus PS
@ Markus, saya membuatnya lebih jelas.
Tim
1
@MarcusPS kecuali kasus khusus distribusi multimodal dengan mode 0 dan 1 ...
Ben Bolker
4

Regresi logistik adalah kasus khusus dari Generalized Linear Model (GLM). Dalam kasus khusus data biner ini, fungsi logistik adalah fungsi tautan kanonik yang mengubah masalah regresi non-linear yang ada menjadi masalah linier. GLM agak istimewa, dalam arti hanya berlaku untuk distribusi dalam keluarga eksponensial (seperti distribusi Binomial).

Dalam estimasi Bayesian, distribusi Beta adalah konjugat sebelum distribusi binomial, yang berarti bahwa pembaruan Bayesian ke Beta sebelumnya, dengan pengamatan binomial, akan menghasilkan posterior Beta. Jadi jika Anda memiliki hitungan untuk pengamatan data biner, Anda bisa mendapatkan estimasi Bayesian analitik dari parameter distribusi binomial dengan menggunakan Beta sebelumnya.

Jadi, sejalan dengan apa yang telah dikatakan oleh orang lain, saya tidak berpikir ada hubungan langsung, tetapi baik distribusi Beta dan regresi logistik memiliki hubungan yang erat dengan memperkirakan parameter dari sesuatu yang mengikuti distribusi binomial.

Marcus PS
sumber
1
Saya sudah memberi +1 untuk menyebutkan perspektif Bayesian, tetapi perhatikan bahwa dalam kasus model regresi kita tidak menggunakan model beta-binomial dan distribusi beta secara umum tidak digunakan sebagai parameter sebelumnya - setidaknya dalam kasus logistik Bayesian khas kemunduran . Jadi ini tidak secara langsung diterjemahkan ke model beta-binomial.
Tim
3

Mungkin tidak ada koneksi langsung? DistribusiP(SEBUAH=1|X) sangat tergantung pada simulasi Anda X. Jika Anda disimulasikanX dengan N(0,1), exp(-Xβ) akan memiliki distribusi log-normal dengan μ=-1 diberikan β0=β1=1. The distribution of P(A=1|X) can then be found explicitly: with c.d.f.

F(x)=1Φ[ln(1x1)+1],
inverse c.d.f.
Q(x)=11+exp(Φ1(1x)1),
and p.d.f.
f(x)=1x(1x)2πexp((ln(1/x1)+1)22),
which do not resemble those of Beta distribution.

You can verify the results given above in R:

n = 100000

X = cbind(rep(1, n), rnorm(n)) # simulate design matrix
Y = 1 / (exp(-X %*% c(1,1)) + 1) # P(A=1|X)

Z1 = 1 / (rlnorm(n, -1, 1) + 1) # simulate from lognormal directly
Z2 = 1 / (1 + exp(qnorm(runif(n)) - 1)) # simulate with inverse CDF

# Kolmogorov–Smirnov test
ks.test(Y, Z1)
ks.test(Y, Z2)

# plot fitted density
new.pdf = function(x) {
  1 / (x * (1 - x) * sqrt(2 * pi)) * exp(-0.5 * (log(1 / x - 1) + 1)^2)
}
hist(Y, breaks = "FD", probability = T)
curve(new.pdf, col = 4, add = T)

enter image description here

Francis
sumber
My x is indeed standard-normal (I made an edit). Your density f(x) has support over [inf,inf], whereas the density of P(A|X) should have support only on [0,1]. In fact your f(x) should be the standard normal. In other words you have not yet shown the distribution of P(A|X).
tomka
@tomka Logarithm put 1/x1>0, so x(0,1). Also f is not pdf of standard normal, note the denominator.
Francis
Why would the CLT have any applicability to the distribution of a regressor variable X??
whuber
@whuber: looks like I have mistaken something, I removed that part.
Francis