Baru-baru ini saya mulai mempelajari pembelajaran mesin, namun saya gagal memahami intuisi di balik regresi logistik .
Berikut ini adalah fakta tentang regresi logistik yang saya mengerti.
Sebagai dasar untuk hipotesis kami menggunakan fungsi sigmoid . Saya mengerti mengapa hal itu merupakan pilihan yang tepat, namun mengapa itu adalah satu-satunya pilihan saya tidak mengerti. Hipotesis mewakili probabilitas bahwa output yang sesuai adalah , oleh karena itu domain fungsi kita harus , ini adalah satu-satunya properti fungsi sigmoid yang saya temukan berguna dan sesuai di sini, namun banyak fungsi memenuhi properti ini. Selain itu, fungsi sigmoid memiliki turunan dalam bentuk ini , tapi saya tidak melihat kegunaan bentuk khusus ini dalam regresi logistik.
Pertanyaan : apa yang spesial dari fungsi sigmoid, dan mengapa kita tidak bisa menggunakan fungsi lain dengan domain ?
Fungsi biaya terdiri dari dua parameter jika y = 1 , C o s t ( h θ ( x ) , y ) = - log ( 1 - h θ ( x ) ) jika y = . Dalam hal yang sama seperti di atas, saya mengerti mengapa itu benar, namun mengapa hanya itu bentuk? Sebagai contoh, mengapa tidak bisa | h θ ( x ) - y | menjadi pilihan yang baik untuk fungsi biaya?
Pertanyaan : apa yang istimewa tentang bentuk fungsi biaya di atas; mengapa kita tidak bisa menggunakan formulir lain?
Saya akan sangat menghargai jika Anda dapat membagikan pemahaman Anda tentang regresi logistik.
sumber
Jawaban:
Model regresi logistik adalah kemungkinan maksimum menggunakan parameter alami (rasio log-odds) untuk membandingkan perubahan relatif dalam risiko hasil per perbedaan unit dalam prediktor. Ini mengasumsikan, tentu saja, model probabilitas binomial untuk hasilnya. Itu berarti bahwa sifat konsistensi dan ketahanan dari regresi logistik meluas secara langsung dari kemungkinan maksimum: kuat hingga hilang pada data acak, konsistensi root-n, dan keberadaan serta keunikan solusi untuk memperkirakan persamaan. Ini dengan asumsi solusi tidak pada batas ruang parameter (di mana rasio odds log adalah ). Karena regresi logistik adalah kemungkinan maksimum, fungsi kerugian terkait dengan kemungkinan, karena mereka adalah masalah optimasi yang setara.±∞
Dengan quasilikelihood atau estimasi persamaan (inferensi semiparametri), keberadaan, sifat keunikan masih berlaku tetapi asumsi bahwa model rata-rata berlaku tidak relevan dan inferensi dan kesalahan standar konsisten terlepas dari salah spesifikasi model. Jadi dalam kasus ini, ini bukan masalah apakah sigmoid adalah fungsi yang benar, tetapi yang memberi kita tren yang dapat kita percayai dan diparameterisasi oleh parameter yang memiliki interpretasi yang luas.
Namun, sigmoid itu bukan satu-satunya fungsi pemodelan biner semacam itu. Fungsi probit yang paling umum dikontraskan memiliki sifat yang serupa. Itu tidak memperkirakan rasio odds log, tetapi secara fungsional mereka terlihat sangat mirip dan cenderung memberikan perkiraan yang sangat mirip dengan hal yang sama persis . Orang tidak perlu menggunakan sifat-sifat batas dalam fungsi model rata-rata. Cukup menggunakan kurva log dengan fungsi varians binomial memberikan regresi risiko relatif, hubungan identitas dengan varians binomial memberikan model risiko aditif. Semua ini ditentukan oleh pengguna. Sayangnya, popularitas regresi logistik adalah mengapa hal itu sangat umum digunakan. Namun, saya punya alasan (alasan yang saya sebutkan) mengapa saya pikir itu dibenarkan baik untuk digunakan dalam sebagian besar keadaan pemodelan hasil biner.
Dalam dunia inferensi, untuk hasil yang jarang, rasio peluang dapat secara kasar diartikan sebagai "risiko relatif", yaitu "persen perubahan relatif dalam risiko hasil membandingkan X + 1 hingga X". Ini tidak selalu terjadi dan, secara umum, rasio odds tidak dapat dan tidak seharusnya ditafsirkan demikian. Namun, parameter tersebut memiliki interpretasi dan dapat dengan mudah dikomunikasikan kepada peneliti lain adalah poin penting, sesuatu yang sayangnya hilang dari bahan didaktik pelajar mesin '.
Model regresi logistik juga memberikan dasar konseptual untuk pendekatan yang lebih canggih seperti pemodelan hierarkis, serta pemodelan campuran dan pendekatan kemungkinan kondisional yang konsisten dan kuat untuk jumlah parameter gangguan yang meningkat secara eksponensial. GLMM dan regresi logistik bersyarat adalah konsep yang sangat penting dalam statistik dimensi tinggi.
sumber
Salah satu cara untuk berpikir tentang regresi logistik adalah sebagai model respon ambang batas. Dalam model ini, Anda memiliki variabel dependen biner, , yang dipengaruhi oleh nilai-nilai dari vektor variabel independen X . Variabel dependen Y hanya dapat mengambil nilai 0 dan 1, sehingga Anda tidak dapat memodelkan ketergantungan Y pada X dengan persamaan regresi linier tipikal seperti Y i = X i β + ϵ i . Tapi kami benar-benar menyukai persamaan linear. Atau, setidaknya, saya tahu.Y X Y Y X Yi=Xiβ+ϵi
Sekali lagi, seperti yang Anda katakan, Anda dapat memilih fungsi distribusi apa pun untukF dan mana yang Anda pilih akan mempengaruhi hasil Anda.
sumber