Menggunakan MSE alih-alih kehilangan log dalam regresi logistik

9

Misalkan kita mengganti fungsi kerugian dari regresi logistik (yang biasanya log-kemungkinan) dengan MSE. Artinya, masih memiliki rasio odds log menjadi fungsi linier dari parameter, tetapi meminimalkan jumlah perbedaan kuadrat antara estimasi probabilitas dan hasil (dikodekan sebagai 0/1):

logp1p=β0+β1x1+...+βnxn

dan meminimalkan bukannya .(yipi)2[yilogpi+(1yi)log(1pi)]

Tentu saja, saya mengerti mengapa log masuk akal di bawah beberapa asumsi. Tetapi dalam pembelajaran mesin, di mana asumsi biasanya tidak dibuat, apa alasan intuitif MSE benar-benar tidak masuk akal? (Atau apakah ada situasi di mana MSE mungkin masuk akal?).

maks
sumber
Anda dapat menggunakan MSE sebagai kriteria optimasi Anda tetapi dalam hal ini Anda tidak boleh mengoptimalkannya dengan kemungkinan maksimum tetapi dengan varian gradient descent. Ini pada dasarnya adalah apa yang dilakukan perceptron linier.
Digio

Jawaban:

12

Jawaban singkatnya adalah bahwa teori kemungkinan ada untuk membimbing kita menuju solusi optimal, dan memaksimalkan sesuatu selain dari kemungkinan, kemungkinan hukuman, atau kepadatan posterior Bayesian menghasilkan penduga suboptimal. Kedua, meminimalkan jumlah kesalahan kuadrat mengarah pada estimasi yang tidak bias dari probabilitas sebenarnya. Di sini Anda tidak menginginkan perkiraan yang tidak bias, karena memiliki perkiraan itu bisa negatif atau lebih besar dari satu. Untuk membatasi estimasi dengan tepat diperlukan satu untuk mendapatkan estimasi yang sedikit bias (ke tengah) secara umum, pada skala probabilitas (bukan logit).

Jangan percaya bahwa metode pembelajaran mesin tidak membuat asumsi. Masalah ini tidak ada hubungannya dengan pembelajaran mesin.

Perhatikan bahwa proporsi individu adalah estimasi yang tidak bias dari probabilitas yang sebenarnya, maka model logistik biner dengan hanya intersep memberikan estimasi yang tidak bias. Sebuah model logistik biner dengan prediktor tunggal yang memiliki saling kategori eksklusif akan memberikan perkiraan berisi probabilitas. Saya pikir bahwa model yang memanfaatkan asumsi aditivitas dan memungkinkan pengguna untuk meminta estimasi di luar rentang data (misalnya, satu prediktor yang kontinu) akan memiliki bias kecil pada skala probabilitas sehingga untuk menghormati paksaan.kk[0,1]

Frank Harrell
sumber
4

Meskipun jawaban Frank Harrell benar, saya pikir itu merindukan ruang lingkup pertanyaan. Jawaban untuk pertanyaan Anda adalah ya , MSE akan masuk akal dalam skenario nonparametrik ML. ML setara dengan regresi logistik adalah perceptron linear, yang tidak membuat asumsi dan tidak digunakan MSE sebagai fungsi biaya. Ini menggunakan keturunan gradien online untuk pelatihan parameter dan, karena memecahkan masalah optimasi cembung, estimasi parameter harus pada global optimal. Perbedaan utama antara kedua metode adalah bahwa dengan pendekatan nonparametrik Anda tidak mendapatkan interval kepercayaan dan nilai-p dan oleh karena itu Anda tidak dapat menggunakan model Anda untuk inferensi, Anda hanya dapat menggunakannya untuk prediksi.

The Linear Perceptron tidak membuat asumsi probabilistik. Ada asumsi pada data bahwa itu terpisah secara linear, tetapi ini bukan asumsi pada model. MSE dapat secara teori dipengaruhi oleh heteroskedastisitas tetapi dalam praktiknya efek ini dibatalkan oleh fungsi aktivasi.

Digio
sumber