Apa perbedaan antara regresi linier dan regresi logistik?

Jawaban:

270
  • Output regresi linier sebagai probabilitas

    Ini tergoda untuk menggunakan output regresi linier sebagai probabilitas tetapi kesalahan karena output bisa negatif, dan lebih dari 1 sedangkan probabilitas tidak bisa. Karena regresi mungkin benar-benar menghasilkan probabilitas yang bisa kurang dari 0, atau bahkan lebih besar dari 1, regresi logistik diperkenalkan.

    Sumber: http://gerardnico.com/wiki/data_mining/simple_logistic_regress

    masukkan deskripsi gambar di sini

  • Hasil

    Dalam regresi linier, hasilnya (variabel dependen) kontinu. Itu dapat memiliki salah satu dari sejumlah kemungkinan nilai yang tak terbatas.

    Dalam regresi logistik, hasil (variabel dependen) hanya memiliki sejumlah nilai yang mungkin.

  • Variabel dependen

    Regresi logistik digunakan ketika variabel respon bersifat kategoris. Misalnya, ya / tidak, benar / salah, merah / hijau / biru, 1/2/3/4, dll.

    Regresi linier digunakan ketika variabel respons Anda kontinu. Misalnya, berat, tinggi, jumlah jam, dll.

  • Persamaan

    Regresi linier memberikan persamaan yang berbentuk Y = mX + C, artinya persamaan dengan derajat 1.

    Namun, regresi logistik memberikan persamaan yang berbentuk Y = e X + e -X

  • Interpretasi yang efisien

    Dalam regresi linier, interpretasi koefisien variabel independen cukup mudah (yaitu memegang semua variabel lain konstan, dengan peningkatan unit dalam variabel ini, variabel dependen diharapkan meningkat / berkurang sebesar xxx).

    Namun, dalam regresi logistik, tergantung pada keluarga (binomial, Poisson, dll.) Dan tautan (log, logit, inverse-log, dll.) Yang Anda gunakan, interpretasinya berbeda.

  • Teknik minimalisasi kesalahan

    Regresi linier menggunakan metode kuadrat terkecil untuk meminimalkan kesalahan dan mencapai kesesuaian terbaik, sementara regresi logistik menggunakan metode kemungkinan maksimum untuk sampai pada solusi.

    Regresi linier biasanya diselesaikan dengan meminimalkan kesalahan kuadrat terkecil dari model terhadap data, oleh karena itu kesalahan besar akan dihukum secara kuadratik.

    Regresi logistik justru sebaliknya. Menggunakan fungsi kehilangan logistik menyebabkan kesalahan besar akan dihukum konstan asimptotik.

    Pertimbangkan regresi linier pada hasil kategori {0, 1} untuk melihat mengapa ini merupakan masalah. Jika model Anda memprediksi hasilnya adalah 38, ketika kebenarannya 1, Anda tidak kehilangan apa-apa. Regresi linier akan mencoba mengurangi 38, logistik tidak (sebanyak) 2 .

Sayali Sonawane
sumber
Apakah ada perbedaan antara Y = e ^ X / 1 + e ^ -X dan Y = e ^ X + e ^ -X?
MMS
3
e ^ X / 1? apa pun yang dibagi dengan 1 adalah sama. jadi tidak ada perbedaan. Saya yakin Anda bermaksud menanyakan hal lain.
spacewanderer
Saya tahu ini adalah utas lama tetapi diberikan pernyataan Anda "Regresi logistik digunakan ketika variabel respons bersifat kategoris. Misalnya, ya / tidak, benar / salah, merah / hijau / biru, 1/2/3/4, dll. "; lalu apa perbedaan antara ini dan klasifikasi?
kingJulian
@kingJulian Regresi logistik memang digunakan untuk klasifikasi. Lihat ini , Anda mungkin menemukan itu berguna seperti yang saya miliki
QuantumHoneybees
@kingJulian: Regresi logistik adalah teknik klasifikasi dan klasifikasi singkatan dari beberapa algoritma yang mencoba untuk memprediksi beberapa hasil.
user3676305
204

Dalam regresi linier, hasilnya (variabel dependen) kontinu. Itu dapat memiliki salah satu dari sejumlah kemungkinan nilai yang tak terbatas. Dalam regresi logistik, hasil (variabel dependen) hanya memiliki sejumlah nilai yang mungkin.

Misalnya, jika X berisi area dalam kaki persegi rumah, dan Y berisi harga jual yang sesuai dari rumah-rumah itu, Anda bisa menggunakan regresi linier untuk memprediksi harga jual sebagai fungsi ukuran rumah. Sementara harga jual yang mungkin mungkin sebenarnya tidak ada , ada begitu banyak nilai yang mungkin bahwa model regresi linier akan dipilih.

Sebaliknya, jika Anda ingin memprediksi, berdasarkan ukuran, apakah sebuah rumah akan terjual lebih dari $ 200 ribu, Anda akan menggunakan regresi logistik. Output yang mungkin adalah Ya, rumah akan menjual lebih dari $ 200 ribu, atau Tidak, rumah tidak akan menjual.

Eric G
sumber
3
Dalam contoh regresi kanker andrews regresi, saya dapat menggambar garis horizontal y = .5, (yang jelas melewati y = .5), sepuluh jika ada titik di atas garis ini y = .5 => + ve, selain itu -ve . Jadi mengapa saya perlu regresi logistik. Saya hanya mencoba memahami penjelasan kasus terbaik untuk menggunakan regresi logistik?
vinita
@vinita: di sini atau di sini adalah contoh sederhana untuk tidak menggunakan regresi linier dan kemudian memegang, untuk masalah klasifikasi.
Ankush Shah
3
regresi logistik adalah pengklasifikasi yang lebih baik pada data kategorikal daripada regresi linier. Ini menggunakan fungsi kesalahan lintas-entropi bukannya kuadrat terkecil. Karena itu tidak sensitify terhadap outlier dan juga tidak menghukum "terlalu benar" poin data seperti kuadrat-tidak.
Marcel_marcel1991
15

Hanya dengan menambahkan jawaban sebelumnya.

Regresi linier

Dimaksudkan untuk menyelesaikan masalah memprediksi / memperkirakan nilai output untuk elemen X yang diberikan (katakanlah f (x)). Hasil prediksi adalah fungsi cotinuous di mana nilainya mungkin positif atau negatif. Dalam hal ini Anda biasanya memiliki dataset input dengan banyak contoh dan nilai output untuk masing-masingnya. Tujuannya adalah agar dapat menyesuaikan model dengan kumpulan data ini sehingga Anda dapat memprediksi output untuk elemen baru yang berbeda / yang belum pernah dilihat. Berikut ini adalah contoh klasik dari pemasangan garis ke set titik, tetapi secara umum regresi linier dapat digunakan agar sesuai dengan model yang lebih kompleks (menggunakan derajat polinomial yang lebih tinggi):

masukkan deskripsi gambar di sini Menyelesaikan masalah

Regresi Linea dapat diselesaikan dengan dua cara berbeda:

  1. Persamaan normal (cara langsung untuk menyelesaikan masalah)
  2. Gradient descent (pendekatan berulang)

Regresi logistik

Dimaksudkan untuk menyelesaikan masalah klasifikasi di mana diberikan elemen Anda harus mengklasifikasikan yang sama dalam kategori N. Contoh-contoh umum adalah misalnya diberikan surat untuk mengklasifikasikannya sebagai spam atau tidak, atau diberi kendaraan yang menemukan kategori yang dimilikinya (mobil, truk, mobil van, dll.). Itu pada dasarnya output adalah himpunan nilai descrete yang terbatas.

Menyelesaikan masalah

Masalah regresi logistik hanya bisa diselesaikan dengan menggunakan keturunan Gradient. Formulasi secara umum sangat mirip dengan regresi linier, satu-satunya perbedaan adalah penggunaan fungsi hipotesis yang berbeda. Dalam regresi linier, hipotesis memiliki bentuk:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

di mana theta adalah model yang kami coba paskan dan [1, x_1, x_2, ..] adalah vektor input. Dalam regresi logistik fungsi hipotesis berbeda:

g(x) = 1 / (1 + e^-x)

masukkan deskripsi gambar di sini

Fungsi ini memiliki properti yang bagus, pada dasarnya memetakan nilai apa pun ke kisaran [0,1] yang sesuai untuk menangani kemungkinan penggunaan selama classificatin. Misalnya dalam kasus klasifikasi biner g (X) dapat diartikan sebagai probabilitas untuk masuk ke kelas positif. Dalam hal ini biasanya Anda memiliki kelas yang berbeda yang dipisahkan dengan batas keputusan yang pada dasarnya merupakan kurva yang menentukan pemisahan antara kelas yang berbeda. Berikut ini adalah contoh dataset yang dipisahkan dalam dua kelas.

masukkan deskripsi gambar di sini

rkachach
sumber
7

Keduanya sama-sama mirip dalam pemecahan untuk solusi, tetapi seperti yang orang lain katakan, satu (Regresi Logistik) adalah untuk memprediksi kategori "cocok" (Y / T atau 1/0), dan yang lainnya (Regresi Linier) untuk memprediksi sebuah nilai.

Jadi jika Anda ingin memprediksi apakah Anda menderita kanker Y / N (atau kemungkinan) - gunakan logistik. Jika Anda ingin tahu berapa tahun Anda akan hidup - gunakan Regresi Linier!

Doug F
sumber
6

Perbedaan mendasar:

Regresi linier pada dasarnya adalah model regresi yang berarti akan memberikan output fungsi yang tidak bijaksana / berkelanjutan. Jadi pendekatan ini memberi nilai. Misalnya: diberikan x apa itu f (x)

Misalnya diberikan satu set pelatihan faktor yang berbeda dan harga properti setelah pelatihan, kami dapat memberikan faktor yang diperlukan untuk menentukan apa yang akan menjadi harga properti.

Regresi logistik pada dasarnya adalah algoritma klasifikasi biner yang berarti bahwa di sini akan ada nilai output yang bijaksana untuk fungsi tersebut. Sebagai contoh: untuk x yang diberikan jika f (x)> threshold mengklasifikasikannya menjadi 1 lain mengklasifikasikannya menjadi 0.

Misalnya diberikan satu set ukuran tumor otak sebagai data pelatihan kita dapat menggunakan ukuran sebagai input untuk menentukan apakah itu tumor benine atau ganas. Oleh karena itu di sini outputnya diam-diam 0 atau 1.

* di sini fungsi pada dasarnya adalah fungsi hipotesis

sayantan ghosh
sumber
5

Sederhananya, regresi linier adalah algoritma regresi, yang mengungguli kemungkinan nilai kontinu dan tak terbatas; regresi logistik dianggap sebagai algoritma classifier biner, yang menampilkan 'probabilitas' dari input yang dimiliki label (0 atau 1).

Jason CHAN
sumber
Syukurlah saya membaca catatan Anda tentang probabilitas. Akan menghapus logistik sebagai penggolong biner.
HashRocketSyntax
4

Regresi berarti variabel kontinu, Linear berarti ada hubungan linier antara y dan x. Ex = Anda mencoba memprediksi gaji dari pengalaman bertahun-tahun. Jadi di sini gaji adalah variabel independen (y) dan tahun pengalaman adalah variabel dependen (x). y = b0 + b1 * x1 Regresi linier Kami mencoba untuk menemukan nilai optimum konstanta b0 dan b1 yang akan memberi kami garis pas terbaik untuk data pengamatan Anda. Ini adalah persamaan garis yang memberikan nilai kontinu dari x = 0 hingga nilai yang sangat besar. Baris ini disebut model regresi linier.

Regresi logistik adalah jenis teknik klasifikasi. Jangan disesatkan oleh regresi jangka. Di sini kami memperkirakan apakah y = 0 atau 1.

Di sini kita pertama-tama perlu menemukan p (y = 1) (kemungkinan y dari 1 = 1) yang diberikan x dari formuale di bawah ini.

masalah

Kemungkinan p terkait dengan y oleh formuale di bawah ini

s

Ex = kita dapat membuat klasifikasi tumor yang memiliki lebih dari 50% kemungkinan terkena kanker sebagai 1 dan tumor memiliki kurang dari 50% peluang memiliki kanker sebagai 0. 5

Di sini titik merah akan diprediksi sebagai 0 sedangkan titik hijau akan diprediksi sebagai 1.

Ashish Anand
sumber
1

Singkatnya: Regresi Linier memberikan output terus menerus. yaitu nilai apa pun antara rentang nilai. Regresi Logistik memberikan output diskrit. yaitu Ya / Tidak, 0/1 jenis output.

Sudeep K Rana
sumber
1

Tidak dapat setuju dengan komentar di atas. Di atas itu, ada beberapa perbedaan lagi seperti

Dalam Regresi Linier, residu diasumsikan terdistribusi normal. Dalam Regresi Logistik, residu harus independen tetapi tidak terdistribusi secara normal.

Regresi Linier mengasumsikan bahwa perubahan konstan pada nilai variabel penjelas menghasilkan perubahan konstan pada variabel respons. Asumsi ini tidak berlaku jika nilai variabel respon mewakili probabilitas (dalam Regresi Logistik)

GLM (Generalized linear models) tidak mengasumsikan hubungan linear antara variabel dependen dan independen. Namun, ini mengasumsikan hubungan linear antara fungsi tautan dan variabel independen dalam model logit.

Rakend Dubba
sumber
1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |
Simfoni
sumber
0

Sederhananya, jika dalam model regresi linier lebih banyak kasus uji tiba yang jauh dari ambang (katakan = 0,5) untuk prediksi y = 1 dan y = 0. Maka dalam hal ini hipotesis akan berubah dan menjadi lebih buruk. Oleh karena itu model regresi linier tidak digunakan untuk masalah klasifikasi.

Masalah lain adalah jika klasifikasi adalah y = 0 dan y = 1, h (x) dapat> 1 atau <0.Jadi kita menggunakan regresi logistik adalah 0 <= h (x) <= 1.

Adarsh ​​Bahadur
sumber
0

Regresi Logistik digunakan dalam memprediksi output kategorikal seperti Ya / Tidak, Rendah / Sedang / Tinggi dll. Anda pada dasarnya memiliki 2 jenis regresi logistik Regresi Logistik Biner (Ya / Tidak, Disetujui / Ditolak) atau Regresi Logistik multi-kelas (Rendah / Sedang / Tinggi, digit dari 0-9 dll)

Di sisi lain, regresi linier adalah jika variabel dependen Anda (y) kontinu. y = mx + c adalah persamaan regresi linier sederhana (m = kemiringan dan c adalah intersep-y). Regresi multilinear memiliki lebih dari 1 variabel independen (x1, x2, x3 ... dll)

ketan solanki
sumber
0

Dalam regresi linier, hasilnya adalah kontinu sedangkan dalam regresi logistik, hasilnya hanya memiliki sejumlah nilai yang mungkin (diskrit).

contoh: Dalam skenario, nilai x yang diberikan adalah ukuran plot dalam kaki persegi kemudian memprediksi y yaitu laju plot berada di bawah regresi linier.

Sebaliknya, jika Anda ingin memprediksi, berdasarkan ukuran, apakah plot akan terjual lebih dari 300000 Rs, Anda akan menggunakan regresi logistik. Output yang mungkin adalah Ya, plot akan terjual lebih dari 300000 Rs, atau Tidak.

Pradeep Kumar
sumber
0

Dalam kasus Regresi Linier hasilnya kontinu sedangkan dalam kasus Regresi Logistik hasilnya diskrit (tidak kontinu)

Untuk melakukan regresi Linear, kami memerlukan hubungan linier antara variabel dependen dan independen. Tetapi untuk melakukan regresi logistik kita tidak memerlukan hubungan linier antara variabel dependen dan independen.

Regresi Linier adalah tentang pemasangan garis lurus pada data, sedangkan Regresi Logistik adalah tentang menyesuaikan kurva pada data.

Regresi Linier adalah algoritma regresi untuk Pembelajaran Mesin sedangkan Regresi Logistik adalah Algoritma klasifikasi untuk pembelajaran mesin.

Regresi linier mengasumsikan distribusi variabel dependen gaussian (atau normal). Regresi logistik mengasumsikan distribusi binomial dari variabel dependen.

Sandeep R
sumber