Mengapa regresi logistik menghasilkan model yang terkalibrasi dengan baik?

13

Saya memahami bahwa salah satu alasan regresi logistik sering digunakan untuk memprediksi rasio klik-tayang di web adalah karena ia menghasilkan model yang terkalibrasi dengan baik. Apakah ada penjelasan matematis yang bagus untuk ini?

lsankar4033
sumber
2
regresi logistik dibuat untuk memprediksi probabilitas -> yang mengarah pada prediksi terkalibrasi jika tidak sesuai. sementara sebagian besar model pembelajaran mesin tidak memprediksi probabilites, melainkan kelas - dan ada beberapa liuk terhadap pseudo-probabilites yang diturunkan dari prediksi ini -> maka perhatikan dengan baik dikalibrasi
charles
2
Saya seharusnya mengklarifikasi dalam pertanyaan, tetapi pertanyaan saya lebih tentang mengapa LR sangat berguna untuk memprediksi probabilitas.
lsankar4033
Perlu dicatat bahwa Anda dapat menyesuaikan regresi logistik dengan output dari classifier yang tidak dikalibrasi untuk mendapatkan model yang dikalibrasi. Ini disebut Platt Scaling en.wikipedia.org/wiki/Platt_scaling
generic_user

Jawaban:

14

Iya.

Vektor probabilitas yang diprediksi p dari regresi logistik memenuhi persamaan matriks

Xt(py)=0

Di mana adalah matriks desain dan adalah vektor respons. Hal ini dapat dilihat sebagai kumpulan dari persamaan linear, satu yang timbul dari setiap kolom dari desain matriks .y XXyX

Mengkhususkan diri untuk mencegat kolom (yang merupakan baris dalam matriks yang dipindahkan), persamaan linier terkait adalah

i(piyi)=0

sehingga rata-rata probabilitas prediksi keseluruhan sama dengan rata-rata respons.

Secara umum, untuk kolom fitur biner , persamaan linear yang terkait adalahxij

ixij(piyi)=ixij=1(piyi)=0

jadi jumlah (dan karenanya rata-rata) dari probabilitas yang diprediksi sama dengan jumlah dari respons, bahkan ketika mengkhususkan pada catatan-catatan yang .xij=1

Matthew Drury
sumber
1
@ MatthewDrury bagaimana saya bisa menafsirkan persamaan pertama Anda? Apakah dalam bentuk ? Namun demikian, hubungan linear ini berlaku? Terima kasih! p1/(1+exp(x))
Ric
1
Ya, p dari bentuk itu. Persamaan pertama berasal dari pengaturan turunan dari fungsi kerugian ke nol.
Matthew Drury
1
Ini hanya alamat kalibrasi-in-the-large yang bukan yang kita inginkan: kalibrasi-in-the-small.
Frank Harrell
1
@FrankHarrell Peduli untuk menguraikan? Saya belum pernah mendengar istilah itu sebelumnya.
Matthew Drury
3
Ada sejarah panjang dalam perkiraan probabilitas literatur yang berasal dari US Weather Service 1950 - di situlah skor Brier pertama kali digunakan. Kalibrasi-dalam-kecil berarti bahwa jika melihat risiko yang diprediksi sebesar 0,01, 0,02, ..., 0,99, masing-masing akurat, yaitu, untuk semua saat ketika risiko yang diprediksi adalah 0,4, hasilnya terjadi sekitar 0,4 dari waktu. Saya menyebut "kalibrasi-in-the-mungil" langkah berikutnya: untuk pria di mana prediksi adalah 0,4 adalah hasilnya 0,4 saat itu, kemudian untuk wanita.
Frank Harrell
2

Saya pikir saya bisa memberi Anda penjelasan yang mudah dipahami sebagai berikut:

Kita tahu bahwa fungsi kerugiannya dapat dinyatakan sebagai fungsi berikut: Dimana mewakili jumlah semua sampel pelatihan, label sampel ke-i, probabilitas yang diprediksi dari sampel ke-i: . (perhatikan bias sini)

J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

Karena tujuan pelatihan adalah untuk meminimalkan fungsi kerugian, mari kita evaluasi turunan parsialnya berkenaan dengan setiap parameter (derivasi terperinci dapat ditemukan di sini ): Dan mengaturnya ke nol yeils:θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)


i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

Itu berarti bahwa jika model sepenuhnya terlatih, probabilitas yang diprediksi yang kita dapatkan untuk set pelatihan menyebar sendiri sehingga untuk setiap fitur jumlah dari nilai-nilai tertimbang (semua) dari fitur itu sama dengan jumlah nilai-nilai fitur itu dari sampel positif.

Di atas cocok dengan setiap fitur sehingga bias . Menetapkan sebagai 1 dan sebagai yeilds: Kemudian kita mendapatkan: Di mana adalah probabilitas yang diprediksi dari model yang terlatih penuh untuk sampel engan. Dan kita dapat menulis fungsi dengan cara yang ringkas: αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

Kita dapat melihat dengan jelas bahwa regresi logistik dikalibrasi dengan baik.

Referensi: Model Log-linear dan Bidang Acak Bersyarat oleh Charles Elkan

Lerner Zhang
sumber