Dapatkah seseorang meringkas untuk saya dengan contoh yang mungkin, pada situasi apa meningkatkan data pelatihan meningkatkan sistem secara keseluruhan? Kapan kami mendeteksi bahwa menambahkan lebih banyak data pelatihan dapat membuat data terlalu berlebihan dan tidak memberikan akurasi yang baik pada data uji?
Ini adalah pertanyaan yang sangat tidak spesifik, tetapi jika Anda ingin menjawabnya khusus untuk situasi tertentu, silakan lakukan.
Jawaban:
Dalam kebanyakan situasi, lebih banyak data biasanya lebih baik . Overfitting pada dasarnya mempelajari korelasi palsu yang terjadi dalam data pelatihan Anda, tetapi tidak di dunia nyata. Misalnya, jika Anda hanya menganggap rekan saya, Anda mungkin belajar mengaitkan "bernama Matt" dengan "berjanggut." Ini 100% valid (n = 4 , bahkan!), Tapi itu jelas tidak benar secara umum. Meningkatkan ukuran kumpulan data Anda (misalnya, ke seluruh gedung atau kota) harus mengurangi korelasi palsu ini dan meningkatkan kinerja pelajar Anda.
Yang mengatakan, satu situasi di mana lebih banyak data tidak membantu --- dan bahkan mungkin merugikan --- adalah jika data pelatihan tambahan Anda berisik atau tidak cocok dengan apa pun yang Anda coba prediksi. Saya pernah melakukan percobaan di mana saya memasukkan model bahasa yang berbeda [*] ke sistem reservasi restoran yang diaktifkan suara. Saya memvariasikan jumlah data pelatihan serta relevansinya: pada satu ekstrem, saya memiliki koleksi kecil orang yang hati-hati memilih tabel pemesanan, pasangan yang cocok untuk aplikasi saya. Di sisi lain, saya memiliki model yang diperkirakan dari koleksi besar literatur klasik, model bahasa yang lebih akurat, tetapi kecocokan yang jauh lebih buruk dengan aplikasinya. Yang mengejutkan saya, model kecil tapi relevan jauh mengungguli model besar tapi kurang relevan.
Situasi mengejutkan, yang disebut double-descent , juga terjadi ketika ukuran set pelatihan dekat dengan jumlah parameter model. Dalam kasus-kasus ini, risiko tes pertama berkurang ketika ukuran set pelatihan meningkat, sementara meningkat ketika sedikit lebih banyak data pelatihan ditambahkan, dan akhirnya mulai menurun lagi ketika set pelatihan terus tumbuh. Fenomena ini dilaporkan 25 tahun dalam literatur jaringan saraf (lihat Opper, 1995), tetapi terjadi dalam jaringan modern juga ( Advani dan Saxe, 2017 ). Menariknya, ini terjadi bahkan untuk regresi linier, meskipun sesuai dengan SGD ( Nakkiran, 2019). Fenomena ini belum sepenuhnya dipahami dan sebagian besar menarik secara teoritis: Saya tentu tidak akan menggunakannya sebagai alasan untuk tidak mengumpulkan lebih banyak data (meskipun saya mungkin mengutak-atik ukuran set pelatihan jika n == p dan kinerjanya tiba-tiba buruk ).
[*] Model bahasa hanyalah probabilitas untuk melihat urutan kata-kata tertentu misalnya
sumber
Satu catatan: dengan menambahkan lebih banyak data (baris atau contoh, bukan kolom atau fitur) peluang Anda overfitting berkurang daripada meningkat.
Ringkasan dua paragraf seperti ini:
Ada beberapa kriteria sederhana untuk membandingkan kualitas model. Lihatlah misalnya di AIC atau di BIC .
Keduanya menunjukkan bahwa menambahkan lebih banyak data selalu membuat model lebih baik, sementara menambahkan kompleksitas parameter di luar yang optimal, mengurangi kualitas model.
sumber
Meningkatkan data pelatihan selalu menambah informasi dan harus meningkatkan kecocokan. Kesulitan datang jika Anda kemudian mengevaluasi kinerja classifier hanya pada data pelatihan yang digunakan untuk fit. Ini menghasilkan penilaian bias secara optimis dan merupakan alasan mengapa validasi silang kiri-keluar atau bootstrap digunakan sebagai gantinya.
sumber
Idealnya, setelah Anda memiliki lebih banyak contoh pelatihan Anda akan memiliki tes-kesalahan yang lebih rendah (varians dari penurunan model, yang berarti kita kurang overfitting), tetapi secara teoritis, lebih banyak data tidak selalu berarti Anda akan memiliki model yang lebih akurat karena model bias tinggi tidak akan mendapat manfaat dari lebih banyak contoh pelatihan .
Lihat di sini: Di Pembelajaran Mesin, Apa yang Lebih Baik: Lebih Banyak Data atau Algoritma yang lebih baik
Varians tinggi - model yang mewakili pelatihan yang ditetapkan dengan baik, tetapi berisiko overfitting untuk data pelatihan yang berisik atau tidak representatif.
Bias tinggi - model yang lebih sederhana yang tidak cenderung pakaian berlebihan, tetapi mungkin kurang sesuai dengan data pelatihan, gagal menangkap keteraturan penting.
sumber
Analisis spektrum akan membantu dalam analisis keragaman sampel, pada kenyataannya, informasi palsu akan dipelajari dalam pemodelan jika tidak "sampel nyata" ditambahkan, yang biasanya disebut pemasangan berlebihan. Biasanya, jika informasi yang diberikan oleh sampel kurang, sampel yang lebih nyata didorong untuk diberikan untuk memastikan informasi yang berguna dapat digunakan dalam pengujian. Semoga berhasil!
sumber