Kita dapat mensimulasikan regresi linier tanpa keacakan, yang berarti kita membuat daripada . Maka jika kita cocok dengan model linier koefisien akan identik dengan "kebenaran dasar". Berikut ini sebuah contoh.
set.seed(0)
n <- 1e5
p <- 3
X <- matrix(rnorm(n*p), ncol=p)
beta <- runif(p)
# y <- X %*% beta + rnorm(n)*0.5
# remove the randomness
y <- X %*% beta
dat <- data.frame(y=y, x=X)
lm.res = lm(y ~ .-1, data=dat)
norm(as.matrix(lm.res$coefficients - beta))
[1] 2.176037e-14
Pertanyaan saya adalah dapatkah kita melakukan simulasi serupa dengan regresi logistik? Dari pertanyaan ini saya mendapatkan titik penghapusan keacakan dapat dilakukan dengan menggunakan pernyataan deterministik bukan sampel dari distribusi binomial.
y <- ifelse(plogis(X %*% beta)>0.5,1,0)
dari pada
y <- rbinom(n,1,prob=plogis(X %*% beta))
Tetapi jika kita melakukan itu, pemisahan total akan terjadi, dan kita tidak bisa mendapatkan koefisien. Di sisi lain, jika kita menambahkan regularisasi, maka koefisien tidak akan menjadi data yang dihasilkan.
Jadi, apa yang bisa saya lakukan untuk "menghapus keacakan dalam regresi logistik" dan menyelesaikan untuk koefisien "kebenaran tanah" yang tepat seperti kasus regresi linier?
Saya merasa ada beberapa kesalahpahaman mendasar dari konsep ini, apa yang saya lewatkan?
sumber
Jawaban:
Regresi logistik tidak memiliki istilah "kesalahan" seperti halnya regresi linier klasik. Pengecualian untuk ini mungkin adalah regresi linier dengan istilah kesalahan logistik, tetapi ini bukan model probabilitas yang diterima secara umum yang menghasilkan model regresi logistik. Ini karena model logistik memiliki hubungan mean-variance. Analog dengan "menambahkan istilah kesalahan" ke model regresi linier sebenarnya adalah model quasibinomial di mana varians hanya sebanding dengan p * (1-p).
Pertanyaan terkait mungkin bagaimana cara mendapatkan hasil model regresi yang identik atas berbagai desain atau replikasi. Ini dapat dilakukan dengan "trik" dalam perangkat lunak pemodelan regresi. Anda dapat menghasilkan non-integral hasil dari risiko diprediksi yang mengakibatkan hasil regresi yang sama logistik independen dari desain . Misalnya: dan sebagai dua desain yang berbeda. Seperti dalam kasus Anda, dan keduanya menghasilkan model regresi logistik yang sama menghasilkan 0,3 sebagai rasio odds log dan 0,0 sebagai odds log untuk .Y X x=0
x1 <- seq(-3, 3, 0.1)
x2 <- rnorm(61)
y1 <- plogis(0.3*x1)
y2 <- plogis(0.3*x2)
Ini berkaitan dengan pertanyaan Anda karena perkiraan parameter persis seperti yang didefinisikan dalam model probabilitas Anda, terlepas dari desain , dan tanpa pemisahan (mis. Rasio odds log, ).x β=±∞
Pemodelan hasil fraksional dalam model logistik adalah cara yang diterima untuk menganalisis data ekologis, di mana hasilnya memang mungkin fraksional. Bukan kebetulan, ini juga merupakan jenis pemodelan ketika model quasibinomial yang paling banyak digunakan. Juga tidak secara kebetulan, saya pikir dispersi sebanding dengan parameter skala untuk istilah kesalahan logistik ketika melakukan "regresi logistik laten".
sumber
glm
family=binomial
dengan nomor pecahan. itu memang memberi saya peringatan. tetapi masih dapat berjalan ... "Dalam eval (keluarga $ menginisialisasi): # non-integer berhasil dalam binomial glm!"fit.glm
hanya memaksimalkan fungsi. Tidak terlalu peduli apa nilai-nilaiy
itu, hanya saja mereka tidak meledakkan nilai yang dihitung dari fungsi tersebut.Saya selalu suka berpikir tentang regresi logistik sebagai apa yang terjadi jika Anda menerapkan keputusan biner ke model linier. Yaitu, mari kita asumsikan ada beberapa hubungan mendasar yang mengikuti model linier: mana adalah variabel independen Anda dan koefisien (atau kemiringan) pada variabel itu, dan adalah noise acak. Lalu katakanlah kita menerapkan fungsi ke variabel kontinu yang memetakannya ke hasil biner: dimana
Dengan kata lain, ini menghitung area di bawah distribusi Normal yang berada di sebelah kanan ambang. Perhatikan bahwa probabilitas ini pada dasarnya adalah apa yang coba dijelaskan oleh model regresi logistik. Dan memang, jika Anda memplot probabilitas ini sebagai fungsi , Anda mendapatkan sesuatu yang cukup dekat dengan fungsi logistik (sebenarnya fungsi logistik sering digunakan sebagai pendekatan yang mudah digunakan untuk distribusi Normal kumulatif).X
Untuk nilai-nilai dekat ambang batas, probabilitas bahwa akan berada di atas ambang batas adalah dekat , karena kebisingan dapat mempengaruhi hasilnya. Ketika Anda meningkatkan , akan semakin jauh dari dan menjadi lebih mungkin. Yang terpenting, seberapa cepat meningkat dengan tergantung pada dua hal: kemiringan dan varians derau . Lebih tepatnya, itu tergantung pada rasioXβ y 0.5 ε X Xβ θ f(y)=1 p(f(y)=1|X) X β σ2 βσ . Rasio (signal-to-noise) inilah yang menentukan koefisien (yang diharapkan) yang Anda dapatkan dari regresi logistik. Dengan kata lain, Anda dapat menganggap koefisien dalam regresi logistik sebagai pengontrol seberapa besar masing-masing variabel independen perlu berubah relatif terhadap derau dalam data untuk meningkatkan probabilitas hasil tertentu dengan jumlah tertentu.
Sekarang untuk datang ke pertanyaan Anda: Anda bertanya apakah mungkin untuk menghilangkan semua keacakan, yaitu tidak memiliki suara. Ini berarti sama dengan , dan karenanya akan tidak terdefinisi (atau "tak terbatas"). Ini menjelaskan apa yang Anda temukan, bahwa Anda tidak dapat memperkirakan koefisien ketika tidak ada suara. Memang, Anda dapat memikirkan pemisahan sempurna yang Anda capai tanpa noise sebagai sesuai dengan koefisien tak terbatas pada variabel independen Anda, karena (untuk dekat ambang ) Anda hanya perlu mengubah jumlah yang sangat kecil untuk pergi semua jalan dari ke .σ 0 βσ Xβ θ X p(y>θ|X)=0 p(y>θ|X)=1
Sunting: sebenarnya satu hal yang dapat Anda lakukan adalah alih-alih menggambar sampel dari distribusi binomial untuk mensimulasikan data Anda, ganti sampel ini dengan harapan mereka, yaitu probabilitas yang diprediksi oleh fungsi logistik yang disimulasikan. Dengan begitu, Anda menghilangkan keacakan yang berasal dari simulasi sampel terbatas (yaitu variabilitas sampling), dan dengan demikian estimasi koefisien Anda kemudian harus sama dengan kebenaran dasar (karena ada satu fungsi logistik yang tepat sesuai dengan nilai-nilai ini).
sumber