Dalam regresi linier berganda dimungkinkan untuk mengetahui koefisien dengan rumus berikut.
beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta
Contohnya:
> y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1)
> x0 <- c(1,1,1,1,1,1,1,1,1,1)
> x1 <- c(100,50,100,100,50,80,75,65,90,90)
> x2 <- c(4,3,4,2,2,2,3,4,3,2)
> Y <- as.matrix(y)
> X <- as.matrix(cbind(x0,x1,x2))
> beta = solve(t(X) %*% X) %*% (t(X) %*% Y);beta
[,1]
x0 -0.8687015
x1 0.0611346
x2 0.9234254
> model <- lm(y~+x1+x2) ; model$coefficients
(Intercept) x1 x2
-0.8687015 0.0611346 0.9234254
Saya ingin cara menghitung dalam cara "manual" yang sama beta untuk regresi logistik. Di mana tentu saja y akan menjadi 1 atau 0. Dengan asumsi saya menggunakan keluarga binomial dengan tautan logit.
Jawaban:
Estimator OLS dalam model regresi linier sangat jarang memiliki properti yang dapat direpresentasikan dalam bentuk tertutup, yang tanpa perlu dinyatakan sebagai pengoptimal fungsi. Namun demikian, ini adalah pengoptimal dari suatu fungsi - jumlah sisa dari fungsi kuadrat - dan dapat dihitung dengan demikian.
MLE dalam model regresi logistik juga merupakan pengoptimal dari fungsi log-likelihood yang sesuai, tetapi karena itu tidak tersedia dalam ekspresi bentuk tertutup, itu harus dihitung sebagai pengoptimal.
Sebagian besar penaksir statistik hanya dapat diekspresikan sebagai pengoptimal fungsi yang dibangun dengan tepat dari data yang disebut fungsi kriteria. Pengoptimal semacam itu membutuhkan penggunaan algoritma pengoptimalan numerik yang tepat. Pengoptimal fungsi dapat dihitung dalam R menggunakan
optim()
fungsi yang menyediakan beberapa algoritma optimasi tujuan umum, atau salah satu paket yang lebih khusus sepertioptimx
. Mengetahui algoritma pengoptimalan mana yang akan digunakan untuk berbagai jenis model dan fungsi kriteria statistik adalah kuncinya.Regresi linear jumlah residual kuadrat
Estimator OLS didefinisikan sebagai pengoptimal dari fungsi residu jumlah kuadrat yang terkenal:
Dalam kasus fungsi cembung yang dapat dibedakan dua kali seperti jumlah kuadrat residu, sebagian besar pengoptimal berbasis gradien melakukan pekerjaan dengan baik. Dalam hal ini, saya akan menggunakan algoritma BFGS.
Ini menghasilkan:
Logistik regresi log-kemungkinan
Fungsi kriteria yang sesuai dengan MLE dalam model regresi logistik adalah fungsi log-likelihood.
Saya menunjukkan bagaimana membangun dan mengoptimalkan fungsi kriteria menggunakan
optim()
fungsi sekali lagi menggunakan algoritma BFGS.Ini menghasilkan
Sebagai peringatan, perhatikan bahwa algoritma pengoptimalan numerik memerlukan penggunaan yang cermat atau Anda dapat berakhir dengan segala macam solusi patologis. Sampai Anda memahami mereka dengan baik, yang terbaik adalah menggunakan opsi paket yang tersedia yang memungkinkan Anda untuk berkonsentrasi menentukan model daripada khawatir tentang bagaimana menghitung estimasi secara numerik.
sumber
-sum(vY%*%(mX%*%vBeta)-log(1+exp(mX%*%vBeta)))
Anda tidak bisa sampai di sana dari sini. Solusi untuk model linear umum dan model logistik muncul dari penyelesaian persamaan kemungkinan maksimum masing-masing, tetapi hanya model linier yang memiliki solusi bentuk tertutup.
Jika Anda membaca buku McCullagh dan Nelder, Anda dapat mempelajari bagaimana solusinya diperoleh dalam kasus logistik (atau model umum lainnya). Akibatnya, solusi dihasilkan secara iteratif, di mana setiap iterasi melibatkan penyelesaian regresi linier tertimbang. Bobot sebagian tergantung pada fungsi tautan.
sumber