Intuisi di balik regresi logistik

Baru-baru ini saya mulai mempelajari pembelajaran mesin, namun saya gagal memahami intuisi di balik regresi logistik .

Berikut ini adalah fakta tentang regresi logistik yang saya mengerti.

Sebagai dasar untuk hipotesis kami menggunakan fungsi sigmoid . Saya mengerti mengapa hal itu merupakan pilihan yang tepat, namun mengapa itu adalah satu-satunya pilihan saya tidak mengerti. Hipotesis mewakili probabilitas bahwa output yang sesuai adalah $1$ , oleh karena itu domain fungsi kita harus $[0,1]$ , ini adalah satu-satunya properti fungsi sigmoid yang saya temukan berguna dan sesuai di sini, namun banyak fungsi memenuhi properti ini. Selain itu, fungsi sigmoid memiliki turunan dalam bentuk ini $f(x)(1-f(x))$ , tapi saya tidak melihat kegunaan bentuk khusus ini dalam regresi logistik.

Pertanyaan : apa yang spesial dari fungsi sigmoid, dan mengapa kita tidak bisa menggunakan fungsi lain dengan domain ? $[0,1]$
Fungsi biaya terdiri dari dua parameter jika jika ${\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))$ $y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))$ . Dalam hal yang sama seperti di atas, saya mengerti mengapa itu benar, namun mengapa hanya itu bentuk? Sebagai contoh, mengapa tidak bisamenjadi pilihan yang baik untuk fungsi biaya? $y=0$ $|h_{\theta(x)}-y|$

Pertanyaan : apa yang istimewa tentang bentuk fungsi biaya di atas; mengapa kita tidak bisa menggunakan formulir lain?

Saya akan sangat menghargai jika Anda dapat membagikan pemahaman Anda tentang regresi logistik.

regression machine-learning logistic pengguna16168
sumber

Fungsi logit / logistik bukan satu-satunya fungsi yang dapat digunakan sebagai fungsi tautan untuk model regresi ketika respons didistribusikan sebagai binomial. Mengenai hal ini, mungkin membantu Anda untuk membaca jawaban saya di sini: perbedaan-antara-logit-dan-probit-model .

gung - Reinstate Monica

Jawaban saya di sini: apakah fungsi logit selalu yang terbaik untuk pemodelan regresi data biner , mungkin juga membantu dalam memikirkan berbagai kemungkinan yang berbeda.

Nyonya - Pulihkan Monica

@AdamO memberikan ikhtisar yang sangat baik di bawah ini. Jika Anda ingin informasi lebih rinci tentang apa artinya logit adalah 'fungsi tautan kanonik', Anda mungkin ingin membaca jawaban Momo di sini: perbedaan-antara-tautan-fungsi-dan-kanonik-tautan-fungsi-untuk-glm .

gung - Reinstate Monica

Contoh ilustrasi yang berhasil dari (1) di mana "sigmoid" tidak digunakan muncul di stats.stackexchange.com/a/70922 . Jawaban itu mencakup penjelasan tentang (2). Contoh lain muncul di stats.stackexchange.com/questions/63978/… . Diskusi yang lebih biasa (tapi kurang teknis) terjadi di stats.stackexchange.com/a/69873 , dengan fokus pada masalah (2).

whuber

Jawaban:

Model regresi logistik adalah kemungkinan maksimum menggunakan parameter alami (rasio log-odds) untuk membandingkan perubahan relatif dalam risiko hasil per perbedaan unit dalam prediktor. Ini mengasumsikan, tentu saja, model probabilitas binomial untuk hasilnya. Itu berarti bahwa sifat konsistensi dan ketahanan dari regresi logistik meluas secara langsung dari kemungkinan maksimum: kuat hingga hilang pada data acak, konsistensi root-n, dan keberadaan serta keunikan solusi untuk memperkirakan persamaan. Ini dengan asumsi solusi tidak pada batas ruang parameter (di mana rasio odds log adalah ). Karena regresi logistik adalah kemungkinan maksimum, fungsi kerugian terkait dengan kemungkinan, karena mereka adalah masalah optimasi yang setara. $\pm \infty$

Dengan quasilikelihood atau estimasi persamaan (inferensi semiparametri), keberadaan, sifat keunikan masih berlaku tetapi asumsi bahwa model rata-rata berlaku tidak relevan dan inferensi dan kesalahan standar konsisten terlepas dari salah spesifikasi model. Jadi dalam kasus ini, ini bukan masalah apakah sigmoid adalah fungsi yang benar, tetapi yang memberi kita tren yang dapat kita percayai dan diparameterisasi oleh parameter yang memiliki interpretasi yang luas.

Namun, sigmoid itu bukan satu-satunya fungsi pemodelan biner semacam itu. Fungsi probit yang paling umum dikontraskan memiliki sifat yang serupa. Itu tidak memperkirakan rasio odds log, tetapi secara fungsional mereka terlihat sangat mirip dan cenderung memberikan perkiraan yang sangat mirip dengan hal yang sama persis . Orang tidak perlu menggunakan sifat-sifat batas dalam fungsi model rata-rata. Cukup menggunakan kurva log dengan fungsi varians binomial memberikan regresi risiko relatif, hubungan identitas dengan varians binomial memberikan model risiko aditif. Semua ini ditentukan oleh pengguna. Sayangnya, popularitas regresi logistik adalah mengapa hal itu sangat umum digunakan. Namun, saya punya alasan (alasan yang saya sebutkan) mengapa saya pikir itu dibenarkan baik untuk digunakan dalam sebagian besar keadaan pemodelan hasil biner.

Dalam dunia inferensi, untuk hasil yang jarang, rasio peluang dapat secara kasar diartikan sebagai "risiko relatif", yaitu "persen perubahan relatif dalam risiko hasil membandingkan X + 1 hingga X". Ini tidak selalu terjadi dan, secara umum, rasio odds tidak dapat dan tidak seharusnya ditafsirkan demikian. Namun, parameter tersebut memiliki interpretasi dan dapat dengan mudah dikomunikasikan kepada peneliti lain adalah poin penting, sesuatu yang sayangnya hilang dari bahan didaktik pelajar mesin '.

Model regresi logistik juga memberikan dasar konseptual untuk pendekatan yang lebih canggih seperti pemodelan hierarkis, serta pemodelan campuran dan pendekatan kemungkinan kondisional yang konsisten dan kuat untuk jumlah parameter gangguan yang meningkat secara eksponensial. GLMM dan regresi logistik bersyarat adalah konsep yang sangat penting dalam statistik dimensi tinggi.

AdamO
sumber

Terimakasih banyak atas jawaban Anda! Sepertinya saya memiliki latar belakang yang sangat kurang.

user16168

Saya pikir buku McCullough dan Nelder Generalized Linear Models akan menjadi sumber latar belakang yang bagus untuk perspektif statistik yang lebih banyak.

AdamO

Secara umum, buku teks apa yang Anda sarankan dalam pembelajaran mesin dengan konten deskriptif yang sangat rinci?

user16168

Elemen Pembelajaran Statistik oleh Hastie, Tibshirani, Friedman.

AdamO

@ user48956 Analisis Statistik dengan Missing Dada, Little & Rubin 2nd ed. Data yang hilang tidak "diwakili" per se, tetapi "ditangani" karena kelalaian. Ini tidak khusus untuk regresi logistik: ini adalah pendekatan naif yang digunakan oleh semua model statistik. Ketika data diformat dalam array persegi panjang, baris dengan nilai yang hilang dihilangkan. Ini dikenal sebagai analisis kasus lengkap. GLM dan GLMMS kuat untuk data yang hilang dalam arti bahwa analisis kasus lengkap biasanya tidak bias dan tidak sangat tidak efisien.

AdamO

Salah satu cara untuk berpikir tentang regresi logistik adalah sebagai model respon ambang batas. Dalam model ini, Anda memiliki variabel dependen biner, , yang dipengaruhi oleh nilai-nilai dari vektor variabel independen . Variabel dependen hanya dapat mengambil nilai 0 dan 1, sehingga Anda tidak dapat memodelkan ketergantungan pada dengan persamaan regresi linier tipikal seperti . Tapi kami benar-benar menyukai persamaan linear. Atau, setidaknya, saya tahu. $Y$ $X$ $Y$ $Y$ $X$ $Y_i=X_i\beta+\epsilon_i$

$Y^*$ $Y$ $Y^*$

\begin{aligned} Y_{i}^{*} & = X_{i} β + ϵ_{i} \\ Y_{i} & = 0 if Y_{i}^{*} < 0 \\ Y_{i} & = 1 if Y_{i}^{*} > 0 \end{aligned}

$\begin{align} Y^*_i &= X_i \beta + \epsilon_i\\ &\\ Y_i &= 0 \;\textrm{if}\; Y_i^*<0\\ Y_i &= 1 \; \textrm{if} \; Y_i^*>0 \end{align}$

X

$X$ adalah kolom 1s). Ini memungkinkan ambang untuk menjadi apa saja.

$Y^*$ $X$ $Y$ $Y^*$ melewati ambang), maka bug mati. Ngomong-ngomong, ini sebenarnya bukan pestisida neurotoksik, tetapi menyenangkan untuk berpura-pura.

$\beta$ $\epsilon$ $F$ $P\{Y_i=1\}=F(X_i\beta)$

$P\{Y_i=1\}=1-F(-X_i\beta)$ .

$\epsilon$ $F$ normal (menghasilkan model probit) dan logistik (menghasilkan model logit). Kedua distribusi ini sangat mirip sehingga jarang ada perbedaan penting dalam hasil di antara mereka. Karena logit memiliki formulir tertutup yang sangat nyaman untuk fungsi cdf dan kepadatan, biasanya lebih mudah untuk menggunakannya daripada probit.

Sekali lagi, seperti yang Anda katakan, Anda dapat memilih fungsi distribusi apa pun untuk $F$ dan mana yang Anda pilih akan mempengaruhi hasil Anda.

Tagihan
sumber

Apa yang Anda jelaskan adalah motivasi untuk model probit, bukan regresi logistik.

AdamO

@ AdamO, jika

ϵ_{i}

$\epsilon_i$ memiliki distribusi logistik, maka ini menggambarkan regresi logistik.

Makro

Itu sepertinya asumsi yang sangat sensitif dan yang sulit untuk diuji. Saya pikir regresi logistik dapat dimotivasi ketika distribusi kesalahan seperti itu tidak berlaku.

AdamO

@ AdamO, namun Anda memotivasi regresi logistik, itu masih secara matematis setara dengan model regresi linier di mana kesalahan memiliki distribusi logistik. Saya setuju bahwa asumsi ini mungkin sulit untuk diuji tetapi ada di sana terlepas dari bagaimana Anda memotivasi masalah. Saya ingat jawaban sebelumnya pada CV (saya tidak bisa menempatkannya sekarang) yang ditunjukkan dengan studi simulasi yang mencoba untuk mengetahui apakah model logistik atau probit "lebih baik" pada dasarnya adalah koin balik, terlepas dari model penghasil data yang sebenarnya . Saya menduga logistik lebih populer karena interpretasi yang mudah.

Makro

@AdamO This is a manifestation of the usual economist/statistician divide, but . . . I don't think logistic regression is semi-parametric. The statistical model is

P (Y_{i} = 1) = \frac{e x p (X_{i} β)}{1 + e x p (X_{i} β)}

$P(Y_i=1)=\frac{exp(X_i\beta)}{1+exp(X_i\beta)}$ . Itu parametrik. Seseorang dapat (dan saya lakukan) menafsirkannya berasal dari model ambang dengan kesalahan logistik. Jika saya khawatir membuat terlalu banyak asumsi pada istilah kesalahan, saya akan menjatuhkan regresi logistik, bukan model ambang batas. Model ambang batas dapat diperkirakan dengan asumsi yang jauh lebih lemah pada istilah kesalahan menggunakan skor maksimum dan penduga terkait, misalnya.

Bill