Teknik untuk mendeteksi overfitting

9

Saya memiliki wawancara kerja untuk posisi ilmu data. Selama wawancara, saya ditanya apa yang harus saya lakukan untuk memastikan modelnya tidak overfitting. Jawaban pertama saya adalah menggunakan validasi silang untuk menilai kinerja model. Namun, pewawancara mengatakan bahwa bahkan validasi silang tidak dapat mengidentifikasi overfitting sepenuhnya. Lalu saya menyebutkan regularisasi, tetapi pewawancara mengatakan bahwa ini bisa membantu mengurangi overfitting (yang saya setuju), tetapi tidak untuk mendeteksinya. Apakah ada teknik lain yang dapat digunakan untuk memastikan model tidak overfitting?

jroberayalas
sumber
2
q ini mungkin membantu: stats.stackexchange.com/questions/193661/…
einar
Saya tidak yakin apakah ini yang Anda inginkan, John Langford dalam url ini menjelaskan sumber overfitting dan teknik penyembuhan.
wolfe

Jawaban:

7

Saya percaya bahwa ketika menanyakan tentang terlalu pas pewawancara sedang mencari "jawaban buku teks" sementara Anda pergi beberapa langkah setelah itu.

Gejala over fitting adalah bahwa kinerja classifier pada set kereta lebih baik dari pada set tes. Saya merujuk jawaban ini sebagai "jawaban buku teks" karena ini adalah jawaban umum dan perkiraan yang masuk akal.

Perhatikan bahwa jawaban ini memiliki banyak ujung terbuka. Misalnya, berapa banyak perbedaan overfitting? . Juga, perbedaan dalam kinerja antara set data tidak selalu karena overfitting. Di sisi lain, overfitting, tidak serta merta menghasilkan perbedaan kinerja yang signifikan pada kedua dataset.

Validasi silang adalah teknik untuk mengevaluasi kinerja pelajar (misalnya, pohon keputusan) pada data yang tidak dilihatnya sebelumnya. Namun, overfitting mengacu pada model tertentu (misalnya, jika "f1" maka dan bukan "f2" memprediksi True). Ini akan menunjukkan kepada Anda kecenderungan pelajar untuk menyesuaikan diri dengan data ini, tetapi tidak akan menjawab apakah model spesifik Anda dilengkapi berlebihan.

Untuk melengkapi model ini akan membutuhkan kompleksitas dan itu adalah regularisasi yang membantu. Ini membatasi (atau memperdagangkan) kompleksitas model. Perhatikan bahwa sumber overfitting lainnya adalah ukuran set hipotesis (dapat dianggap sebagai jumlah model yang mungkin). Memutuskan di muka untuk menggunakan set hipotesis terbatas adalah cara lain untuk menghindari overfitting.

Dl
sumber