Pemodelan dengan lebih banyak variabel daripada titik data

12

Saya cukup baru dalam Pembelajaran Mesin / Pemodelan dan saya ingin latar belakang untuk masalah ini. Saya memiliki dataset di mana jumlah pengamatan adalah namun jumlah variabel adalah . Pertama apakah masuk akal untuk mempertimbangkan membangun model pada dataset seperti ini atau haruskah seseorang mempertimbangkan teknik pemilihan variabel untuk memulai dengan seperti regresi ridge atau Lasso? Saya sudah membaca bahwa situasi ini dapat menyebabkan terlalu pas. Apakah itu berlaku untuk semua teknik ML atau melakukan beberapa teknik menangani ini lebih baik daripada yang lain? Tanpa matematika terlalu banyak penjelasan sederhana tentang mengapa matematika mulai rusak untuk akan dihargai.n<200p8000p>n

PaulB.
sumber

Jawaban:

14

Tentunya mungkin untuk menyesuaikan model yang baik ketika ada lebih banyak variabel daripada titik data, tetapi ini harus dilakukan dengan hati-hati.

Ketika ada lebih banyak variabel daripada titik data, masalahnya mungkin tidak memiliki solusi unik kecuali itu lebih lanjut dibatasi. Artinya, mungkin ada beberapa (mungkin tak terhingga banyak) solusi yang sesuai dengan data dengan baik. Masalah seperti itu disebut 'keliru' atau 'tidak ditentukan'. Misalnya, ketika ada lebih banyak variabel daripada titik data, regresi kuadrat standar minimum memiliki banyak solusi yang mencapai nol kesalahan pada data pelatihan.

Model seperti itu tentu akan terlalu bagus karena terlalu fleksibel untuk jumlah data pelatihan. Ketika fleksibilitas model meningkat (misalnya lebih banyak variabel dalam model regresi) dan jumlah data pelatihan menyusut, menjadi semakin mungkin bahwa model akan dapat mencapai kesalahan rendah dengan menyesuaikan fluktuasi acak dalam data pelatihan yang tidak mewakili benar, distribusi yang mendasarinya. Karena itu kinerjanya akan buruk ketika model dijalankan pada data masa depan yang diambil dari distribusi yang sama.

Masalah sikap buruk dan overfitting dapat diatasi dengan memaksakan kendala. Ini dapat mengambil bentuk batasan eksplisit pada parameter, hukuman / ketentuan regularisasi, atau Bayesian sebelumnya. Pelatihan kemudian menjadi tradeoff antara pemasangan data dengan baik dan memuaskan kendala. Anda menyebutkan dua contoh strategi ini untuk masalah regresi: 1) LASSO membatasi atau menghukum norma bobot, yang setara dengan memaksakan Laplacian sebelumnya. 2) Regresi Ridge membatasi atau menghukum norma dari bobot, yang setara dengan memaksakan Gaussian sebelumnya.12

Kendala dapat menghasilkan solusi unik, yang diinginkan ketika kita ingin menafsirkan model untuk mempelajari sesuatu tentang proses yang menghasilkan data. Mereka juga dapat menghasilkan kinerja prediksi yang lebih baik dengan membatasi fleksibilitas model, sehingga mengurangi kecenderungan untuk berpakaian berlebihan.

Namun, hanya memaksakan kendala atau menjamin bahwa ada solusi unik tidak menyiratkan bahwa solusi yang dihasilkan akan baik. Kendala hanya akan menghasilkan solusi yang baik ketika mereka benar-benar cocok dengan masalah tersebut.

Beberapa poin lain-lain:

  • Keberadaan beberapa solusi tidak selalu bermasalah. Misalnya, jaring saraf dapat memiliki banyak solusi yang mungkin berbeda satu sama lain tetapi hampir sama baiknya.
  • Keberadaan lebih banyak variabel daripada titik data, adanya beberapa solusi, dan overfitting seringkali bertepatan. Tetapi, ini adalah konsep yang berbeda; masing-masing dapat terjadi tanpa yang lain.
pengguna20160
sumber
3

Ada banyak solusi untuk jumlah istilah yang sama dengan : , , misalnya.33=7313=123423451+22220

Tanpa asumsi tambahan, seseorang tidak bisa mendapatkan solusi yang sangat berarti. Dalam praktiknya, Anda dapat berasumsi bahwa Anda tidak memiliki lebih dari dua istilah yang tidak nol (hipotesis sparsity), dan Anda dapat membatasi mereka menjadi positif (hipotesis positif). Dalam kasus seperti itu, Anda berakhir dengan kembar tiga yang dipesan seperti atau , set yang dikurangi yang dapat Anda jelajahi sebagai solusi "praktis" potensial yang harus diuji.(3,0,0)(2,1,0)

Inilah yang dimaksud dengan regresi yang dihukum (seperti laso atau ridge) untuk: temukan subset yang dapat dikelola dari solusi "sederhana", yang berpotensi lebih alami sampai batas tertentu. Mereka menggunakan hukum kekikiran, atau pisau cukur Ockham , yang jika dua model menjelaskan pengamatan dengan ketepatan yang sama, dapat lebih bijaksana untuk memilih yang lebih kompak dalam hal, misalnya, jumlah parameter bebas. Seseorang tidak benar-benar "menjelaskan" hubungan yang berguna antara variabel dengan model yang terlalu terlibat.

Kutipan yang dikaitkan dengan John von Neumann menggambarkan konteks ini:

Dengan empat parameter saya dapat memuat seekor gajah, dan dengan lima parameter saya dapat membuatnya menggoyangkan belalainya.

Laurent Duval
sumber