Pertanyaan saya adalah: Apa hubungan matematis antara distribusi Beta dan koefisien model regresi logistik ?
Sebagai ilustrasi: fungsi logistik (sigmoid) diberikan oleh
dan digunakan untuk memodelkan probabilitas dalam model regresi logistik. Biarkan menjadi dikotomis mencetak hasil dan sebuah matriks desain. Model regresi logistik diberikan oleh
Catatan memiliki kolom pertama konstanta 1 (intersep) dan β adalah vektor kolom koefisien regresi. Misalnya, ketika kita memiliki satu regresi (standar-normal) x dan memilih β 0 = 1 (mencegat) dan β 1 = 1 , kita dapat mensimulasikan 'distribusi probabilitas' yang dihasilkan.
Plot ini mengingatkan tentang distribusi Beta (seperti halnya plot untuk pilihan ) yang kepadatannya diberikan oleh
Menggunakan kemungkinan maksimum atau metode momen adalah mungkin untuk memperkirakan dan q dari distribusi P ( A = 1 | X ) . Jadi, pertanyaan saya sampai pada: apa hubungan antara pilihan β dan p dan q ? Ini, untuk mulai dengan, mendukung kasus bivariat yang diberikan di atas.
Jawaban:
Beta adalah distribusi nilai dalam rentang yang sangat fleksibel dalam bentuknya, jadi untuk hampir semua distribusi nilai empiris unimodal dalam ( 0 , 1 ) Anda dapat dengan mudah menemukan parameter distribusi beta seperti itu yang "menyerupai" bentuk dari distribusi.(0,1) (0,1)
Perhatikan bahwa regresi logistik memberi Anda probabilitas kondisional , sedangkan pada plot Anda, Anda memberikan kepada kami distribusi marjinal dari probabilitas yang diprediksi. Itu adalah dua hal yang berbeda untuk dibicarakan.Pr(Y=1∣X)
Tidak ada hubungan langsung antara parameter regresi logistik dan parameter distribusi beta ketika melihat distribusi prediksi dari model regresi logistik. Di bawah ini Anda dapat melihat data disimulasikan menggunakan distribusi normal, eksponensial dan seragam ditransformasikan menggunakan fungsi logistik. Selain menggunakan parameter regresi logistik yang sama persis (yaitu ), distribusi probabilitas yang diprediksi sangat berbeda. Jadi distribusi probabilitas yang diprediksi tergantung tidak hanya pada parameter regresi logistik, tetapi juga pada distribusi X dan tidak ada hubungan sederhana di antara mereka.β0=0,β1=1 X
sumber
Regresi logistik adalah kasus khusus dari Generalized Linear Model (GLM). Dalam kasus khusus data biner ini, fungsi logistik adalah fungsi tautan kanonik yang mengubah masalah regresi non-linear yang ada menjadi masalah linier. GLM agak istimewa, dalam arti hanya berlaku untuk distribusi dalam keluarga eksponensial (seperti distribusi Binomial).
Dalam estimasi Bayesian, distribusi Beta adalah konjugat sebelum distribusi binomial, yang berarti bahwa pembaruan Bayesian ke Beta sebelumnya, dengan pengamatan binomial, akan menghasilkan posterior Beta. Jadi jika Anda memiliki hitungan untuk pengamatan data biner, Anda bisa mendapatkan estimasi Bayesian analitik dari parameter distribusi binomial dengan menggunakan Beta sebelumnya.
Jadi, sejalan dengan apa yang telah dikatakan oleh orang lain, saya tidak berpikir ada hubungan langsung, tetapi baik distribusi Beta dan regresi logistik memiliki hubungan yang erat dengan memperkirakan parameter dari sesuatu yang mengikuti distribusi binomial.
sumber
Mungkin tidak ada koneksi langsung? DistribusiP( A = 1 | X) sangat tergantung pada simulasi Anda X . Jika Anda disimulasikanX dengan N( 0 , 1 ) , exp( - Xβ) akan memiliki distribusi log-normal dengan μ = - 1 diberikan β0=β1=1 . The distribution of P(A=1|X) can then be found explicitly: with c.d.f.
You can verify the results given above in R:
sumber