Untuk mengkalibrasi tingkat kepercayaan ke probabilitas dalam pembelajaran yang diawasi (katakanlah untuk memetakan kepercayaan dari SVM atau pohon keputusan menggunakan data yang terlalu banyak) salah satu metode adalah dengan menggunakan Penskalaan Platt (misalnya, Memperoleh Kemungkinan yang Dikalibrasi dari Peningkatan ).
Pada dasarnya orang menggunakan regresi logistik untuk memetakan ke . Variabel dependen adalah label yang sebenarnya dan prediktor adalah kepercayaan dari model yang tidak dikalibrasi. Yang tidak saya mengerti adalah penggunaan variabel target selain 1 atau 0. Metode ini membutuhkan pembuatan "label" baru:
Untuk menghindari overfitting ke set kereta sigmoid, model out-of-sample digunakan. Jika ada contoh positif dan contoh negatif di set kereta, untuk setiap contoh pelatihan Platt Calibration menggunakan nilai target dan (masing-masing bukan 1 dan 0), di mana
Yang tidak saya mengerti adalah bagaimana target baru ini berguna. Bukankah regresi logistik hanya akan memperlakukan variabel dependen sebagai label biner (terlepas dari label apa yang diberikan)?
MEMPERBARUI:
Saya menemukan bahwa dalam SAS mengubah ketergantungan dari ke sesuatu yang lain dikembalikan ke model yang sama (menggunakan ). Mungkin kesalahan saya atau mungkin kurangnya fleksibilitas SAS. Saya dapat mengubah model dalam R. Sebagai contoh:PROC GENMOD
data(ToothGrowth)
attach(ToothGrowth)
# 1/0 coding
dep <- ifelse(supp == "VC", 1, 0)
OneZeroModel <- glm(dep~len, family=binomial)
OneZeroModel
predict(OneZeroModel)
# Platt coding
dep2 <- ifelse(supp == "VC", 31/32, 1/32)
plattCodeModel <- glm(dep2~len, family=binomial)
plattCodeModel
predict(plattCodeModel)
compare <- cbind(predict(OneZeroModel), predict(plattCodeModel))
plot(predict(OneZeroModel), predict(plattCodeModel))
sumber
Metode lain untuk menghindari over-fitting yang menurut saya berguna adalah menyesuaikan model regresi logistik univariat dengan output cross-validasi silang keluar-keluar dari SVM, yang dapat didekati secara efisien menggunakan ikatan Span .
Namun, jika Anda menginginkan classifier yang menghasilkan perkiraan probabilitas keanggotaan kelas, maka Anda akan lebih baik menggunakan regresi logistik kernel, yang bertujuan untuk melakukannya secara langsung. Ouput dari SVM dirancang untuk klasifikasi diskrit dan tidak harus berisi informasi yang diperlukan untuk estimasi probabilitas yang akurat jauh dari kontur p = 0,5.
Penggolong proses Gaussian adalah pilihan lain yang baik jika Anda menginginkan penggolong probabilistik berbasis kernel.
sumber