Apa perbedaan antara regresi linier dan regresi logistik?

122

Apa perbedaan antara regresi linier dan regresi logistik?

Kapan Anda akan menggunakan masing-masing?

B Tujuh
sumber
28
Dalam model regresi linier, variabel dependen dianggap kontinu, sedangkan dalam regresi logistik itu kategorikal, yaitu diskrit. Dalam aplikasi, yang pertama digunakan dalam pengaturan regresi sedangkan yang terakhir digunakan untuk klasifikasi biner atau klasifikasi multi-kelas (di mana ia disebut regresi logistik multinomial). y
Pardis
Walaupun ditulis dalam konteks yang berbeda, ini mungkin membantu Anda untuk membaca jawaban saya di sini: Perbedaan antara model logit dan probit , yang berisi banyak informasi tentang apa yang terjadi dalam regresi logistik yang dapat membantu Anda memahami ini dengan lebih baik.
gung
2
Semua jawaban sebelumnya benar, tetapi ada alasan mengapa Anda lebih menyukai model regresi linier meskipun hasilnya adalah dikotomi. Saya telah menulis tentang alasan-alasan ini di sini: statisticshorizons.com/linear-vs-logistic
Paul von Hippel

Jawaban:

111

Regresi linier menggunakan persamaan linear umum mana adalah variabel dependen kontinyu dan variabel independen yang biasanya terus menerus (tetapi juga dapat menjadi biner, misalnya ketika model linear digunakan dalam t- sebuah test) atau domain diskrit lainnya. adalah istilah untuk varian yang tidak dijelaskan oleh model dan biasanya hanya disebut "kesalahan". Nilai dependen individual yang dilambangkan dengan dapat dipecahkan dengan memodifikasi sedikit persamaan:Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

Regresi logistik adalah prosedur model umum lain (GLM) menggunakan rumus dasar yang sama, tetapi bukannya kontinu , itu regresi untuk probabilitas hasil kategoris. Dalam bentuk yang paling sederhana, ini berarti bahwa kami mempertimbangkan hanya satu variabel hasil dan dua status variabel itu - baik 0 atau 1.Y

Persamaan untuk probabilitas terlihat seperti ini: Y=1

P(Y=1)=11+e(b0+(biXi))

Variabel bebas Anda dapat berupa kontinu atau biner. Koefisien regresi dapat secara eksponensial memberi Anda perubahan peluang per perubahan dalam , yaitu, dan . disebut rasio odds, . Dalam bahasa Inggris, Anda dapat mengatakan bahwa peluang meningkat dengan faktor per unit berubah dalam .XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOdds Y=1ebiXiOdds(Xi+1)Odds(Xi)Y=1ebiXi

Contoh: Jika Anda ingin melihat bagaimana indeks massa tubuh memprediksi kolesterol darah (ukuran berkelanjutan), Anda akan menggunakan regresi linier seperti yang dijelaskan di bagian atas jawaban saya. Jika Anda ingin melihat bagaimana BMI memprediksi kemungkinan menjadi diabetes (diagnosis biner), Anda akan menggunakan regresi logistik.

DocBuckets
sumber
1
Ini terlihat seperti jawaban yang bagus, tetapi bisakah Anda menjelaskan apa yang dimaksud dengan dan - khususnya - mengapa Anda memasukkannya ke dalam penjumlahan? (Lagi pula, apa yang diringkas?)ϵi
whuber
Menurut saya, Bill bermaksud menulis (singkatan dari Latin) atau ei
Michael Chernick
1
Tetapi εi dalam penjumlahan eksponen tidak seharusnya ada di sana. Sepertinya istilah noise dalam model itu sengaja dibawa ke sana. Satu-satunya penjumlahan harus lebih dari bis yang mewakili koefisien p untuk kovariat p.
Michael Chernick
9
Ada kesalahan dalam ekspresi Anda untuk . Anda harus memiliki bukan Keacakan dalam model regresi logistik berasal dari fakta bahwa ini adalah uji coba bernoulli, bukan karena ada kesalahan dalam probabilitas keberhasilan (yang adalah bagaimana Anda menulisnya). P ( Y = 1 ) = 1P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}
Makro
3
Regresi logistik @samthebrand bukan biner per se. Hal ini dapat digunakan untuk memodelkan data dengan respons biner melalui probabilitas yang berkisar antara 0 dan 1. Akan pasang posting blog saya tanpa malu-malu tentang hal ini yang akan menghapus kebingungan Anda.
Ben
34

Regresi Linier digunakan untuk membangun hubungan antara variabel dependen dan independen, yang berguna dalam memperkirakan variabel dependen yang dihasilkan dalam kasus perubahan variabel independen. Sebagai contoh:

Menggunakan Regresi Linier, hubungan antara Hujan (R) dan Penjualan Payung (U) ditemukan - U = 2R + 5000

Persamaan ini mengatakan bahwa untuk setiap 1mm Rain, ada permintaan untuk 5002 payung. Jadi, dengan menggunakan Regresi Sederhana, Anda dapat memperkirakan nilai variabel Anda.

Regresi Logistik di sisi lain digunakan untuk memastikan probabilitas suatu peristiwa. Dan acara ini ditangkap dalam format biner, yaitu 0 atau 1.

Contoh - Saya ingin memastikan apakah pelanggan akan membeli produk saya atau tidak. Untuk ini, saya akan menjalankan Regresi Logistik pada data (relevan) dan variabel dependen saya akan menjadi variabel biner (1 = Ya; 0 = Tidak).

Dalam hal representasi grafis, Regresi Linier memberikan garis linier sebagai output, setelah nilai diplot pada grafik. Sedangkan, regresi logistik memberikan garis berbentuk S

Referensi dari Mohit Khurana.

Vijay Ram
sumber
8
Re: "Regresi Linier digunakan untuk membangun hubungan antara variabel Dependent dan Indipendent" - ini juga berlaku tentang regresi logistik - hanya saja variabel dependennya adalah biner.
Makro
3
Regresi Logistik tidak hanya untuk memprediksi peristiwa biner ( kelas). Ini dapat digeneralisasi ke kelas (regresi logistik multinomial)k2k
tgy
27

Perbedaan telah diselesaikan oleh DocBuckets dan Pardis, tetapi saya ingin menambahkan satu cara untuk membandingkan kinerja mereka yang tidak disebutkan.

Regresi linier biasanya diselesaikan dengan meminimalkan kesalahan kuadrat terkecil dari model terhadap data, oleh karena itu kesalahan besar akan dihukum secara kuadratik. Regresi logistik justru sebaliknya. Menggunakan fungsi kerugian logistik menyebabkan kesalahan besar akan dihukum konstan asimptotik.

Pertimbangkan regresi linier pada hasil kategori {0,1} untuk melihat mengapa ini merupakan masalah. Jika model Anda memperkirakan hasilnya adalah 38 saat kebenarannya 1, Anda tidak kehilangan apa-apa. Regresi linier akan mencoba mengurangi 38 itu, logistik tidak akan (sebanyak).

J. Abrahamson
sumber
Wre kemudian, situasi / kasus yang sedang dihukum di logistik, yaitu, dalam kasus apa yang akan kita memiliki cocok miskin?
MSIS
1
Justru sebaliknya: setiap kali penyimpangan yang lebih besar dari fit benar-benar menghasilkan hasil yang lebih buruk. Misalnya, regresi logistik bagus untuk membuat Anda memukul papan panah, tetapi tidak bisa membuat bullseye terlihat bagus. Atau, sama halnya, berpikir bahwa nyaris celaka dewan sama dengan menempel tetangga Anda.
J. Abrahamson
Jawaban yang bagus Apakah ada penelitian yang dilakukan berapa hal itu menyakiti kinerja model? Maksud saya jika regresi linier digunakan untuk memprediksi respon = {0,1} alih-alih regresi logistik.
Tagar