Regresi logistik adalah regresi, pertama dan terutama. Itu menjadi classifier dengan menambahkan aturan keputusan. Saya akan memberikan contoh yang mundur. Artinya, alih-alih mengambil data dan menyesuaikan model, saya akan mulai dengan model untuk menunjukkan bagaimana ini benar-benar masalah regresi.
Dalam regresi logistik, kami memodelkan peluang log, atau logit, bahwa suatu peristiwa terjadi, yang merupakan kuantitas kontinu. Jika probabilitas bahwa peristiwa terjadi adalah P ( A ) , kemungkinannya adalah:SEBUAHP( A )
P( A )1 - P( A)
Kemungkinan log, adalah:
catatan( P( A )1 -P( A ))
Seperti dalam regresi linier, kami memodelkan ini dengan kombinasi linear dari koefisien dan prediktor:
logit = b0+ b1x1+ b2x2+ ⋯
Bayangkan kita diberi model apakah seseorang memiliki rambut abu-abu. Model kami menggunakan usia sebagai satu-satunya prediktor. Di sini, acara kami A = seseorang memiliki rambut beruban:
log odds rambut abu-abu = -10 + 0,25 * usia
...Regresi! Berikut ini beberapa kode Python dan plot:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
x = np.linspace(0, 100, 100)
def log_odds(x):
return -10 + .25 * x
plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")
P( A )
P( A ) = 11 + exp( - peluang log ) )
Berikut kodenya:
plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")
P( A ) > 0,5
Regresi logistik berfungsi baik sebagai penggolong dalam contoh-contoh yang lebih realistis juga, tetapi sebelum dapat menjadi penggolong, itu harus menjadi teknik regresi!
Jawaban singkat
Ya, regresi logistik adalah algoritma regresi dan ia memprediksi hasil yang berkelanjutan: probabilitas suatu peristiwa. Bahwa kita menggunakannya sebagai classifier biner adalah karena interpretasi hasilnya.
Detail
Regresi logistik adalah jenis model regresi linier umum.
Dalam model regresi linier biasa, hasil yang berkelanjutan
y
, dimodelkan sebagai jumlah dari produk prediktor dan efeknya:dimana
e
kesalahannyaModel linier umum tidak memodelkan
y
secara langsung. Sebagai gantinya, mereka menggunakan transformasi untuk memperluas domainy
ke semua bilangan real. Transformasi ini disebut fungsi tautan. Untuk regresi logistik, fungsi tautan adalah fungsi logit (biasanya, lihat catatan di bawah).Fungsi logit didefinisikan sebagai
Dengan demikian bentuk regresi logistik adalah:
di mana
y
probabilitas suatu peristiwa.Fakta bahwa kita menggunakannya sebagai penggolong biner adalah karena interpretasi hasilnya.
Catatan: probit adalah fungsi tautan lain yang digunakan untuk regresi logistik tetapi logit adalah yang paling banyak digunakan.
sumber
Ketika Anda mendiskusikan definisi regresi, Anda memprediksi variabel kontinu. Regresi logistik adalah klasifikasi biner. Regresi logistik adalah penerapan fungsi logit pada output dari pendekatan regresi biasa. Fungsi logit berubah (-inf, + inf) ke [0,1]. Saya pikir itu hanya karena alasan historis yang membuat nama itu.
Mengatakan sesuatu seperti "Saya melakukan beberapa regresi untuk mengklasifikasikan gambar. Khususnya saya menggunakan regresi logistik." salah.
sumber
sumber