Mengapa classifier regresi ridge berfungsi cukup baik untuk klasifikasi teks?

17

Selama percobaan untuk klasifikasi teks, saya menemukan classifier ridge menghasilkan hasil yang secara konstan berada di atas tes di antara classifier yang lebih umum disebutkan dan diterapkan untuk tugas-tugas penambangan teks, seperti SVM, NB, kNN, dll. Meskipun, saya belum menguraikan tentang cara mengoptimalkan setiap classifier pada tugas klasifikasi teks khusus ini kecuali beberapa penyesuaian sederhana tentang parameter.

Hasil seperti itu juga disebut Dikran Marsupial .

Tidak berasal dari latar belakang statistik, setelah membaca beberapa materi online, saya masih tidak tahu alasan utama untuk ini. Adakah yang bisa memberikan wawasan tentang hasil seperti itu?

Mengelupas
sumber

Jawaban:

16

Masalah klasifikasi teks cenderung memiliki dimensi yang cukup tinggi (banyak fitur), dan masalah dimensi tinggi cenderung terpisah secara linear (karena Anda dapat memisahkan titik d + 1 dalam ruang dimensi d dengan classifier linier, terlepas dari bagaimana titik tersebut diberi label). Jadi pengklasifikasi linier, apakah regresi ridge atau SVM dengan kernel linier, cenderung baik. Dalam kedua kasus, parameter ridge atau C untuk SVM (seperti tdc menyebutkan +1) mengendalikan kompleksitas classifier dan membantu menghindari pemasangan yang berlebihan dengan memisahkan pola masing-masing kelas dengan margin yang besar (yaitu permukaan keputusan melewati tengah celah antara dua koleksi poin). Namun untuk mendapatkan kinerja yang baik, parameter ridge / regularisasi perlu disetel dengan benar (saya menggunakan validasi silang tinggalkan-satu-keluar karena murah).

Namun, alasan regresi ridge berfungsi dengan baik adalah bahwa metode non-linear terlalu kuat dan sulit untuk menghindari pemasangan berlebihan. Mungkin ada classifier non-linear yang memberikan kinerja generalisasi yang lebih baik daripada model linier terbaik, tetapi terlalu sulit untuk memperkirakan parameter-parameter tersebut menggunakan sampel hingga dari data pelatihan yang kami miliki. Dalam praktiknya, semakin sederhana modelnya, semakin sedikit masalah yang kita miliki dalam mengestimasi parameter, sehingga ada kecenderungan yang kurang pas, sehingga kita mendapatkan hasil yang lebih baik dalam praktik.

Masalah lain adalah pemilihan fitur, regresi ridge menghindari over-fitting dengan mengatur bobot agar tetap kecil, dan pemilihan model lurus ke depan karena Anda hanya perlu memilih nilai parameter regresi tunggal. Jika Anda mencoba untuk menghindari pemasangan berlebihan dengan memilih set fitur yang optimal, maka pemilihan model menjadi sulit karena ada derajat kebebasan (semacam) untuk setiap fitur, yang memungkinkan untuk menyesuaikan kriteria pemilihan fitur dan Anda berakhir dengan serangkaian fitur yang optimal untuk sampel data khusus ini, tetapi memberikan kinerja generalisasi yang buruk. Jadi tidak melakukan pemilihan fitur dan menggunakan regularisasi sering dapat memberikan kinerja prediksi yang lebih baik.

Saya sering menggunakan Bagging (membentuk komite model yang dilatih pada sampel bootstraped dari set pelatihan) dengan model ridge-regression, yang sering memberikan peningkatan dalam kinerja, dan karena semua model linier Anda dapat menggabungkan mereka untuk membentuk model linier tunggal , jadi tidak ada kinerja yang beroperasi.

Dikran Marsupial
sumber
d-1d
Biasanya diasumsikan bahwa titik berada dalam "posisi umum", sehingga (misalnya) titik tersebut tidak terletak pada garis lurus, dalam hal ini dalam ruang 2-d Anda dapat memisahkan 3 titik. Jika semua titik terletak pada garis lurus maka mereka menghuni subruang 1-d yang tertanam dalam ruang 2-d.
Dikran Marsupial
Di wikipedia ada pernyataan "karena metode ini rata-rata beberapa prediktor, itu tidak berguna untuk meningkatkan model linier" walaupun saya tidak yakin mengapa ini harus benar?
tdc
Saya tidak mengerti mengapa itu juga benar. Saya menduga masalah bahwa model linier kantong dapat diwakili secara tepat oleh model linier tunggal, namun masalahnya adalah estimasi parameter model tunggal, bukan bentuk model. Saya telah menemukan mengantongi memang meningkatkan generalisasi, tetapi keuntungan umumnya kecil kecuali jika Anda memiliki lebih banyak fitur daripada pengamatan (sehingga estimasi model tidak stabil dan perubahan kecil dalam data menghasilkan perubahan besar dalam model).
Dikran Marsupial
Mungkin Anda harus memperbarui halaman Wikipedia! Anda terdengar berpengetahuan luas tentang masalah ini ...
tdc
6

Regresi punggungan, seperti namanya, adalah metode untuk regresi daripada klasifikasi. Mungkin Anda menggunakan ambang batas untuk mengubahnya menjadi classifier. Bagaimanapun, Anda hanya belajar classifier linier yang didefinisikan oleh hyperplane. Alasannya adalah karena tugas yang ada pada dasarnya terpisah secara linier - yaitu hyperplane sederhana adalah semua yang diperlukan untuk memisahkan kelas. Parameter "ridge" memungkinkannya bekerja dalam kasus-kasus yang tidak sepenuhnya dapat dipisahkan secara linear atau masalah-masalah yang kekurangan peringkat (dalam hal ini optimasi akan menurun).

Dalam hal ini, tidak ada alasan mengapa pengklasifikasi lain tidak juga berkinerja baik, dengan asumsi bahwa mereka telah diterapkan dengan benar. Sebagai contoh, SVM menemukan "hyperplane pemisah yang optimal" (yaitu hyperplane yang memaksimalkan margin, atau kesenjangan, di antara kelas-kelas). The Cparameter SVM adalah kontrol kapasitas parameter analog dengan parameter punggungan, yang memungkinkan untuk beberapa misclassifications (outlier). Dengan asumsi proses pemilihan parameter telah dilakukan dengan rajin, saya akan mengharapkan dua metode untuk menghasilkan hasil yang hampir sama persis pada dataset tersebut.

tdc
sumber
2
Saya ingat pernah membaca dapat ditunjukkan bahwa klasifikasi biner LS-SVM setara dengan Ridge Regression pada -1,1 label, formulasinya sama.
Firebug
Pikirkan Anda mungkin benar tentang hal itu
tdc