Jumlah fitur vs jumlah pengamatan

26

Apakah ada makalah / buku / ide tentang hubungan antara jumlah fitur dan jumlah pengamatan yang harus dimiliki untuk melatih classifier "kuat"?

Sebagai contoh, anggap saya memiliki 1000 fitur dan 10 pengamatan dari dua kelas sebagai satu set pelatihan, dan 10 pengamatan lainnya sebagai set pengujian. Saya melatih beberapa classifier X dan memberi saya sensitivitas 90% dan spesifisitas 90% pada set pengujian. Katakanlah saya senang dengan akurasi ini dan berdasarkan itu saya bisa mengatakan itu adalah klasifikasi yang baik. Di sisi lain, saya telah mendekati fungsi 1000 variabel hanya menggunakan 10 poin, yang mungkin tampaknya tidak terlalu ... kuat?

Leo
sumber

Jawaban:

20

Apa yang Anda tekan di sini adalah kutukan dimensi atau masalah p >> n (di mana p adalah prediktor dan n adalah pengamatan). Ada banyak teknik yang dikembangkan selama bertahun-tahun untuk menyelesaikan masalah ini. Anda dapat menggunakan AIC atau BIC untuk menghukum model dengan lebih banyak prediktor. Anda dapat memilih set variabel acak dan menilai pentingnya menggunakan cross-validation . Anda dapat menggunakan ridge-regression , laso , atau jaring elastis untuk regularisasi . Atau Anda dapat memilih teknik, seperti mesin vektor dukungan atau hutan acak yang menangani banyak prediktor.

Jujur, solusinya tergantung pada sifat spesifik dari masalah yang Anda coba selesaikan.

Zach
sumber
9

Saya menduga bahwa tidak ada aturan praktis yang berlaku secara umum. Pertimbangkan masalah dengan dua kelas gaussian yang berpusat pada dan , keduanya dengan matriks kovarians sebesar . Dalam hal ini, Anda hanya perlu dua sampel, satu dari kedua kelas untuk mendapatkan klasifikasi sempurna, hampir terlepas dari jumlah fitur. Di ujung lain spektrum jika kedua kelas dipusatkan pada asal dengan kovarians+1-10,000001sayasaya, tidak ada jumlah data pelatihan yang akan memberi Anda penggolong yang bermanfaat. Pada akhirnya, jumlah sampel yang Anda butuhkan untuk sejumlah fitur tertentu tergantung pada bagaimana data didistribusikan, secara umum, semakin banyak fitur yang Anda miliki, semakin banyak data yang Anda perlukan untuk menggambarkan distribusi data secara memadai. (eksponensial dalam jumlah fitur jika Anda beruntung - lihat kutukan dimensi yang disebutkan oleh Zach).

Jika Anda menggunakan regularisasi, maka pada prinsipnya, (batas atas) kesalahan generalisasi tidak tergantung pada jumlah fitur (lihat karya Vapnik pada mesin vektor dukungan). Namun itu meninggalkan masalah menemukan nilai yang baik untuk parameter regularisasi (validasi silang berguna).

Dikran Marsupial
sumber
9

Anda mungkin lebih terkesan dari pemodelan klasik, yang rentan terhadap masalah seperti paradoks Runge dan karenanya memerlukan beberapa tuning kekikiran di pasca-pemrosesan.
Namun, dalam hal pembelajaran mesin, gagasan memasukkan ketahanan sebagai tujuan optimasi model hanyalah inti dari keseluruhan domain (sering dinyatakan sebagai akurasi pada data yang tidak terlihat). Jadi, yah, selama Anda tahu model Anda berfungsi dengan baik (misalnya dari CV) mungkin tidak ada gunanya repot.

haln


sumber
1

Salah satu buku saya yang paling berharga selama bertahun-tahun adalah Tinsley and Brown's Handbook . Ada banyak tempat dalam buku ini yang membahas topik ini, oleh berbagai penulis yang berkontribusi.

rolando2
sumber