Saya agak mengerti apa arti "overfitting", tetapi saya perlu bantuan tentang bagaimana menghasilkan contoh dunia nyata yang berlaku untuk overfitting.
Kesalahan pemodelan (terutama kesalahan pengambilan sampel) alih-alih hubungan yang dapat direplikasi dan informatif antar variabel meningkatkan statistik kecocokan model, tetapi mengurangi kekikiran, dan memperburuk validitas penjelasan dan prediktif.
Saya agak mengerti apa arti "overfitting", tetapi saya perlu bantuan tentang bagaimana menghasilkan contoh dunia nyata yang berlaku untuk overfitting.
Saya memiliki latar belakang ilmu komputer tetapi saya mencoba mengajari diri sendiri ilmu data dengan memecahkan masalah di internet. Saya telah mengerjakan masalah ini selama beberapa minggu terakhir (sekitar 900 baris dan 10 fitur). Saya awalnya menggunakan regresi logistik tetapi sekarang...
Gagasan analisis data adaptif adalah Anda mengubah rencana Anda untuk menganalisis data saat Anda belajar lebih banyak tentangnya. Dalam kasus analisis data eksplorasi (EDA), ini umumnya merupakan ide yang baik (Anda sering mencari pola yang tidak terduga dalam data), tetapi untuk studi konfirmasi,...
Apakah mungkin untuk mengenakan model regresi logistik? Saya melihat video yang mengatakan bahwa jika area saya di bawah kurva ROC lebih tinggi dari 95%, maka kemungkinan besar akan terlalu pas, tetapi apakah mungkin untuk mengenakan model regresi
Saya melatih jaringan saraf sederhana pada dataset CIFAR10. Setelah beberapa waktu, kehilangan validasi mulai meningkat, sedangkan akurasi validasi juga meningkat. Kehilangan pengujian dan akurasi pengujian terus meningkat. Bagaimana ini mungkin? Tampaknya jika kehilangan validasi meningkat,...
Saya menyelesaikan kursus Pembelajaran Mesin Andrew Ng sekitar setahun yang lalu, dan sekarang saya sedang menulis penjelajahan Matematika SMA saya tentang cara kerja Regresi Logistik dan teknik untuk mengoptimalkan kinerja. Salah satu teknik ini, tentu saja, regularisasi. Tujuan dari regularisasi...
Asumsikan bahwa model memiliki akurasi 100% pada data pelatihan, tetapi akurasi 70% pada data uji. Apakah argumen berikut ini benar tentang model ini? Jelas bahwa ini adalah model overfitted. Akurasi pengujian dapat ditingkatkan dengan mengurangi overfitting. Namun, model ini masih bisa menjadi...
Benarkah metode Bayesian tidak overfit? (Saya melihat beberapa makalah dan tutorial membuat klaim ini) Sebagai contoh, jika kita menerapkan Proses Gaussian ke MNIST (klasifikasi digit tulisan tangan), tetapi hanya memperlihatkannya sebagai sampel tunggal, akankah ia kembali ke distribusi...
Asumsikan saya memiliki dataset untuk tugas klasifikasi statistik terawasi, misalnya, melalui pengklasifikasi Bayes. Dataset ini terdiri dari 20 fitur dan saya ingin meringkasnya menjadi 2 fitur melalui teknik pengurangan dimensionalitas seperti Principal Component Analysis (PCA) dan / atau Linear...
Saya sedang membaca laporan dari solusi memenangkan kompetisi Kaggle ( Klasifikasi Malware ). Laporan ini dapat ditemukan di posting forum ini . Masalahnya adalah masalah klasifikasi (sembilan kelas, metrik adalah kehilangan logaritmik) dengan 10.000 elemen di set kereta, 10.000 elemen di set...
Saya telah melakukan penelitian tentang overfitting dan underfitting, dan saya telah mengerti apa itu sebenarnya, tetapi saya tidak dapat menemukan alasannya. Apa alasan utama untuk overfitting dan underfitting? Mengapa kita menghadapi dua masalah ini dalam melatih
Pengaturan saya adalah sebagai berikut: Saya mengikuti garis pedoman dalam "Pemodelan Prediktif Terapan". Jadi saya telah memfilter fitur-fitur terkait dan berakhir dengan yang berikut: 4900 titik data di set latihan dan 1600 titik data di set tes. Saya memiliki 26 fitur dan targetnya adalah...
Regularisasi dalam regresi (linier, logistik ...) adalah cara paling populer untuk mengurangi pemasangan berlebihan. Ketika tujuannya adalah akurasi prediksi (tidak menjelaskan), apakah ada alternatif yang baik untuk regularisasi, terutama cocok untuk kumpulan data besar (mil / pengamatan...
The tingkat belajar parameter ( ) di Gradient Meningkatkan menyusut kontribusi masing-masing model dasar baru -typically sebuah pohon yang dangkal yang ditambahkan dalam seri. Itu terbukti secara dramatis meningkatkan akurasi set tes, yang dapat dimengerti karena dengan langkah-langkah yang lebih...
Apakah ada definisi matematis atau algoritmik overfitting? Definisi yang sering disediakan adalah plot 2-D klasik dari titik-titik dengan garis yang melewati setiap titik dan kurva kehilangan validasi tiba-tiba naik. Tetapi apakah ada definisi matematis yang
Jika saya memiliki data, dan saya menjalankan klasifikasi (katakanlah hutan acak pada data ini) dengan validasi silang (katakanlah 5 kali lipat), dapatkah saya menyimpulkan bahwa tidak ada kelebihan dalam metode
Sementara hasil dari set tes pribadi tidak dapat digunakan untuk memperbaiki model lebih lanjut, bukankah pemilihan model dari sejumlah besar model yang dilakukan berdasarkan hasil set tes pribadi? Tidakkah Anda, melalui proses itu sendiri, berakhir overfitting ke set tes pribadi? Menurut...
Katakanlah kita punya model mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects...
Mari kita pertimbangkan masalah tentang mengklasifikasikan dataset MNIST. Berdasarkan laman web MNIST Yann LeCun , 'Ciresan et al.' mendapat tingkat kesalahan 0,23% pada set uji MNIST menggunakan Jaringan Nevoltural Convolutional. Mari masing menunjukkan MNIST pelatihan ditetapkan sebagai , MNIST...
Saya cukup baru di hutan acak. Di masa lalu, saya selalu membandingkan akurasi fit vs tes terhadap fit vs kereta untuk mendeteksi overfitting apapun. Tapi saya baru baca di sini bahwa: "Di hutan acak, tidak perlu untuk validasi silang atau set tes terpisah untuk mendapatkan estimasi yang tidak...