Output regresi linier sebagai probabilitas
Ini tergoda untuk menggunakan output regresi linier sebagai probabilitas tetapi kesalahan karena output bisa negatif, dan lebih dari 1 sedangkan probabilitas tidak bisa. Karena regresi mungkin benar-benar menghasilkan probabilitas yang bisa kurang dari 0, atau bahkan lebih besar dari 1, regresi logistik diperkenalkan.
Sumber: http://gerardnico.com/wiki/data_mining/simple_logistic_regress
Hasil
Dalam regresi linier, hasilnya (variabel dependen) kontinu. Itu dapat memiliki salah satu dari sejumlah kemungkinan nilai yang tak terbatas.
Dalam regresi logistik, hasil (variabel dependen) hanya memiliki sejumlah nilai yang mungkin.
Variabel dependen
Regresi logistik digunakan ketika variabel respon bersifat kategoris. Misalnya, ya / tidak, benar / salah, merah / hijau / biru, 1/2/3/4, dll.
Regresi linier digunakan ketika variabel respons Anda kontinu. Misalnya, berat, tinggi, jumlah jam, dll.
Persamaan
Regresi linier memberikan persamaan yang berbentuk Y = mX + C, artinya persamaan dengan derajat 1.
Namun, regresi logistik memberikan persamaan yang berbentuk Y = e X + e -X
Interpretasi yang efisien
Dalam regresi linier, interpretasi koefisien variabel independen cukup mudah (yaitu memegang semua variabel lain konstan, dengan peningkatan unit dalam variabel ini, variabel dependen diharapkan meningkat / berkurang sebesar xxx).
Namun, dalam regresi logistik, tergantung pada keluarga (binomial, Poisson, dll.) Dan tautan (log, logit, inverse-log, dll.) Yang Anda gunakan, interpretasinya berbeda.
Teknik minimalisasi kesalahan
Regresi linier menggunakan metode kuadrat terkecil untuk meminimalkan kesalahan dan mencapai kesesuaian terbaik, sementara regresi logistik menggunakan metode kemungkinan maksimum untuk sampai pada solusi.
Regresi linier biasanya diselesaikan dengan meminimalkan kesalahan kuadrat terkecil dari model terhadap data, oleh karena itu kesalahan besar akan dihukum secara kuadratik.
Regresi logistik justru sebaliknya. Menggunakan fungsi kehilangan logistik menyebabkan kesalahan besar akan dihukum konstan asimptotik.
Pertimbangkan regresi linier pada hasil kategori {0, 1} untuk melihat mengapa ini merupakan masalah. Jika model Anda memprediksi hasilnya adalah 38, ketika kebenarannya 1, Anda tidak kehilangan apa-apa. Regresi linier akan mencoba mengurangi 38, logistik tidak (sebanyak) 2 .
Dalam regresi linier, hasilnya (variabel dependen) kontinu. Itu dapat memiliki salah satu dari sejumlah kemungkinan nilai yang tak terbatas. Dalam regresi logistik, hasil (variabel dependen) hanya memiliki sejumlah nilai yang mungkin.
Misalnya, jika X berisi area dalam kaki persegi rumah, dan Y berisi harga jual yang sesuai dari rumah-rumah itu, Anda bisa menggunakan regresi linier untuk memprediksi harga jual sebagai fungsi ukuran rumah. Sementara harga jual yang mungkin mungkin sebenarnya tidak ada , ada begitu banyak nilai yang mungkin bahwa model regresi linier akan dipilih.
Sebaliknya, jika Anda ingin memprediksi, berdasarkan ukuran, apakah sebuah rumah akan terjual lebih dari $ 200 ribu, Anda akan menggunakan regresi logistik. Output yang mungkin adalah Ya, rumah akan menjual lebih dari $ 200 ribu, atau Tidak, rumah tidak akan menjual.
sumber
Hanya dengan menambahkan jawaban sebelumnya.
Regresi linier
Dimaksudkan untuk menyelesaikan masalah memprediksi / memperkirakan nilai output untuk elemen X yang diberikan (katakanlah f (x)). Hasil prediksi adalah fungsi cotinuous di mana nilainya mungkin positif atau negatif. Dalam hal ini Anda biasanya memiliki dataset input dengan banyak contoh dan nilai output untuk masing-masingnya. Tujuannya adalah agar dapat menyesuaikan model dengan kumpulan data ini sehingga Anda dapat memprediksi output untuk elemen baru yang berbeda / yang belum pernah dilihat. Berikut ini adalah contoh klasik dari pemasangan garis ke set titik, tetapi secara umum regresi linier dapat digunakan agar sesuai dengan model yang lebih kompleks (menggunakan derajat polinomial yang lebih tinggi):
Menyelesaikan masalah
Regresi Linea dapat diselesaikan dengan dua cara berbeda:
Regresi logistik
Dimaksudkan untuk menyelesaikan masalah klasifikasi di mana diberikan elemen Anda harus mengklasifikasikan yang sama dalam kategori N. Contoh-contoh umum adalah misalnya diberikan surat untuk mengklasifikasikannya sebagai spam atau tidak, atau diberi kendaraan yang menemukan kategori yang dimilikinya (mobil, truk, mobil van, dll.). Itu pada dasarnya output adalah himpunan nilai descrete yang terbatas.
Menyelesaikan masalah
Masalah regresi logistik hanya bisa diselesaikan dengan menggunakan keturunan Gradient. Formulasi secara umum sangat mirip dengan regresi linier, satu-satunya perbedaan adalah penggunaan fungsi hipotesis yang berbeda. Dalam regresi linier, hipotesis memiliki bentuk:
di mana theta adalah model yang kami coba paskan dan [1, x_1, x_2, ..] adalah vektor input. Dalam regresi logistik fungsi hipotesis berbeda:
Fungsi ini memiliki properti yang bagus, pada dasarnya memetakan nilai apa pun ke kisaran [0,1] yang sesuai untuk menangani kemungkinan penggunaan selama classificatin. Misalnya dalam kasus klasifikasi biner g (X) dapat diartikan sebagai probabilitas untuk masuk ke kelas positif. Dalam hal ini biasanya Anda memiliki kelas yang berbeda yang dipisahkan dengan batas keputusan yang pada dasarnya merupakan kurva yang menentukan pemisahan antara kelas yang berbeda. Berikut ini adalah contoh dataset yang dipisahkan dalam dua kelas.
sumber
Keduanya sama-sama mirip dalam pemecahan untuk solusi, tetapi seperti yang orang lain katakan, satu (Regresi Logistik) adalah untuk memprediksi kategori "cocok" (Y / T atau 1/0), dan yang lainnya (Regresi Linier) untuk memprediksi sebuah nilai.
Jadi jika Anda ingin memprediksi apakah Anda menderita kanker Y / N (atau kemungkinan) - gunakan logistik. Jika Anda ingin tahu berapa tahun Anda akan hidup - gunakan Regresi Linier!
sumber
Perbedaan mendasar:
Regresi linier pada dasarnya adalah model regresi yang berarti akan memberikan output fungsi yang tidak bijaksana / berkelanjutan. Jadi pendekatan ini memberi nilai. Misalnya: diberikan x apa itu f (x)
Misalnya diberikan satu set pelatihan faktor yang berbeda dan harga properti setelah pelatihan, kami dapat memberikan faktor yang diperlukan untuk menentukan apa yang akan menjadi harga properti.
Regresi logistik pada dasarnya adalah algoritma klasifikasi biner yang berarti bahwa di sini akan ada nilai output yang bijaksana untuk fungsi tersebut. Sebagai contoh: untuk x yang diberikan jika f (x)> threshold mengklasifikasikannya menjadi 1 lain mengklasifikasikannya menjadi 0.
Misalnya diberikan satu set ukuran tumor otak sebagai data pelatihan kita dapat menggunakan ukuran sebagai input untuk menentukan apakah itu tumor benine atau ganas. Oleh karena itu di sini outputnya diam-diam 0 atau 1.
* di sini fungsi pada dasarnya adalah fungsi hipotesis
sumber
Sederhananya, regresi linier adalah algoritma regresi, yang mengungguli kemungkinan nilai kontinu dan tak terbatas; regresi logistik dianggap sebagai algoritma classifier biner, yang menampilkan 'probabilitas' dari input yang dimiliki label (0 atau 1).
sumber
Regresi berarti variabel kontinu, Linear berarti ada hubungan linier antara y dan x. Ex = Anda mencoba memprediksi gaji dari pengalaman bertahun-tahun. Jadi di sini gaji adalah variabel independen (y) dan tahun pengalaman adalah variabel dependen (x). y = b0 + b1 * x1 Kami mencoba untuk menemukan nilai optimum konstanta b0 dan b1 yang akan memberi kami garis pas terbaik untuk data pengamatan Anda. Ini adalah persamaan garis yang memberikan nilai kontinu dari x = 0 hingga nilai yang sangat besar. Baris ini disebut model regresi linier.
Regresi logistik adalah jenis teknik klasifikasi. Jangan disesatkan oleh regresi jangka. Di sini kami memperkirakan apakah y = 0 atau 1.
Di sini kita pertama-tama perlu menemukan p (y = 1) (kemungkinan y dari 1 = 1) yang diberikan x dari formuale di bawah ini.
Kemungkinan p terkait dengan y oleh formuale di bawah ini
Ex = kita dapat membuat klasifikasi tumor yang memiliki lebih dari 50% kemungkinan terkena kanker sebagai 1 dan tumor memiliki kurang dari 50% peluang memiliki kanker sebagai 0.
Di sini titik merah akan diprediksi sebagai 0 sedangkan titik hijau akan diprediksi sebagai 1.
sumber
Singkatnya: Regresi Linier memberikan output terus menerus. yaitu nilai apa pun antara rentang nilai. Regresi Logistik memberikan output diskrit. yaitu Ya / Tidak, 0/1 jenis output.
sumber
Tidak dapat setuju dengan komentar di atas. Di atas itu, ada beberapa perbedaan lagi seperti
Dalam Regresi Linier, residu diasumsikan terdistribusi normal. Dalam Regresi Logistik, residu harus independen tetapi tidak terdistribusi secara normal.
Regresi Linier mengasumsikan bahwa perubahan konstan pada nilai variabel penjelas menghasilkan perubahan konstan pada variabel respons. Asumsi ini tidak berlaku jika nilai variabel respon mewakili probabilitas (dalam Regresi Logistik)
GLM (Generalized linear models) tidak mengasumsikan hubungan linear antara variabel dependen dan independen. Namun, ini mengasumsikan hubungan linear antara fungsi tautan dan variabel independen dalam model logit.
sumber
sumber
Sederhananya, jika dalam model regresi linier lebih banyak kasus uji tiba yang jauh dari ambang (katakan = 0,5) untuk prediksi y = 1 dan y = 0. Maka dalam hal ini hipotesis akan berubah dan menjadi lebih buruk. Oleh karena itu model regresi linier tidak digunakan untuk masalah klasifikasi.
Masalah lain adalah jika klasifikasi adalah y = 0 dan y = 1, h (x) dapat> 1 atau <0.Jadi kita menggunakan regresi logistik adalah 0 <= h (x) <= 1.
sumber
Regresi Logistik digunakan dalam memprediksi output kategorikal seperti Ya / Tidak, Rendah / Sedang / Tinggi dll. Anda pada dasarnya memiliki 2 jenis regresi logistik Regresi Logistik Biner (Ya / Tidak, Disetujui / Ditolak) atau Regresi Logistik multi-kelas (Rendah / Sedang / Tinggi, digit dari 0-9 dll)
Di sisi lain, regresi linier adalah jika variabel dependen Anda (y) kontinu. y = mx + c adalah persamaan regresi linier sederhana (m = kemiringan dan c adalah intersep-y). Regresi multilinear memiliki lebih dari 1 variabel independen (x1, x2, x3 ... dll)
sumber
Dalam regresi linier, hasilnya adalah kontinu sedangkan dalam regresi logistik, hasilnya hanya memiliki sejumlah nilai yang mungkin (diskrit).
contoh: Dalam skenario, nilai x yang diberikan adalah ukuran plot dalam kaki persegi kemudian memprediksi y yaitu laju plot berada di bawah regresi linier.
Sebaliknya, jika Anda ingin memprediksi, berdasarkan ukuran, apakah plot akan terjual lebih dari 300000 Rs, Anda akan menggunakan regresi logistik. Output yang mungkin adalah Ya, plot akan terjual lebih dari 300000 Rs, atau Tidak.
sumber
Dalam kasus Regresi Linier hasilnya kontinu sedangkan dalam kasus Regresi Logistik hasilnya diskrit (tidak kontinu)
Untuk melakukan regresi Linear, kami memerlukan hubungan linier antara variabel dependen dan independen. Tetapi untuk melakukan regresi logistik kita tidak memerlukan hubungan linier antara variabel dependen dan independen.
Regresi Linier adalah tentang pemasangan garis lurus pada data, sedangkan Regresi Logistik adalah tentang menyesuaikan kurva pada data.
Regresi Linier adalah algoritma regresi untuk Pembelajaran Mesin sedangkan Regresi Logistik adalah Algoritma klasifikasi untuk pembelajaran mesin.
Regresi linier mengasumsikan distribusi variabel dependen gaussian (atau normal). Regresi logistik mengasumsikan distribusi binomial dari variabel dependen.
sumber