Metode kernel mana yang memberikan output probabilitas terbaik?

10

Baru-baru ini saya telah menggunakan penskalaan Platt untuk keluaran-SVM untuk memperkirakan probabilitas peristiwa-standar. Alternatif yang lebih langsung sepertinya adalah "Kernel logistic Regression" (KLR) dan "Import Vector Machine" terkait.

Adakah yang bisa mengatakan metode kernel mana yang memberikan probabilitas-keluaran saat ini canggih? Apakah ada R-implementasi KLR?

Terima kasih banyak atas bantuan Anda!

RichardN
sumber
(+1) Sebuah pertanyaan yang sangat menarik ...
steffen

Jawaban:

7

Klasifikasi proses Gaussian (menggunakan Propagasi Ekspektasi) mungkin adalah yang paling mutakhir dalam pembelajaran mesin. Ada buku yang sangat bagus oleh Rasmussen dan Williams (dapat diunduh gratis), situs web yang memiliki implementasi MATLAB yang sangat baik. Lebih banyak perangkat lunak, buku, makalah, dll . Di sini . Namun, dalam praktiknya, KLR mungkin akan berfungsi dengan baik untuk sebagian besar masalah, kesulitan utama adalah dalam memilih parameter kernel dan regularisasi, yang mungkin paling baik dilakukan dengan validasi silang, meskipun validasi silang keluar-keluar-keluar dapat diperkirakan. sangat efisien, lihat Cawley dan Talbot (2008).

Dikran Marsupial
sumber
(+1) Terima kasih atas tautan dan saran tentang masalah pemilihan model.
chl
Saya harus menambahkan, jangan menggunakan implementasi berdasarkan perkiraan Laplace - posterior sangat miring, dan pendekatan simetris yang berpusat pada mode umumnya tidak akan bekerja dengan baik.
Dikran berkantung
Dikran terima kasih! Bisakah Anda jelaskan kepada saya hubungan KLR dan pemulusan kernel? Model KLR dibangun mirip dengan formulasi svm [loss + penalti] dan diselesaikan melalui gradient descent. Tetapi referensi waktu yang sama (misalnya dalam "Regresi Logistik Kernel dan Mesin Vektor Impor", Zhu dan Hastie 2005) pada KLR pergi ke literatur smoothing (misalnya "Generalized Additive Models", Hastie dan Tibshirani 1990).
RichardN
Saya tidak begitu terbiasa dengan literatur smoothing, tetapi model kernel terkait erat dengan smoothing spline. Saya pikir tempat terbaik untuk melihat adalah publikasi oleh Grace Wahba ( stat.wisc.edu/~wahba ), yang pekerjaannya mencakup metode smoothing dan kernel.
Dikran berkantung
Terima kasih, saya akan melihat lebih dekat publikasi wahba. Bisakah Anda merekomendasikan implementasi KLR, terbaik di R?
RichardN
1

Saya kira Anda tahu bahwa kernel untuk regresi logistik adalah non parametrik, jadi pertama-tama Anda memiliki batasan itu.

Mengenai paket R yang saya tahu dan bekerja cukup baik adalah np : Metode smoothing kernel nonparametric untuk tipe data campuran

Paket ini menyediakan berbagai metode kernel nonparametrik (dan semiparametri) yang secara mulus menangani campuran tipe data faktor kontinu, tidak berurutan, dan terurut.

Mengenai keadaan seni kernel saya dapat merekomendasikan untuk bereksperimen dengan yang dijelaskan dalam makalah ini dari 2009. Baca dengan cermat untuk memilih salah satu yang terbaik dan lebih aktual untuk Anda.

mariana lebih lembut
sumber
Hai Mariana, terima kasih atas jawaban Anda, tetapi kami memiliki kesalahpahaman: Saya dengan "metode kernel" berarti metode seperti mesin vektor Dukungan menggunakan "trik kernel", bukan metode penghalusan kernel.
RichardN