Saya agak mengerti apa arti "overfitting", tetapi saya perlu bantuan tentang bagaimana menghasilkan contoh dunia nyata yang berlaku untuk overfitting.
Proses pencocokan beberapa model statistik ke set data tertentu. Sebagian besar dilakukan pada komputer, dan menggunakan metode numerik yang bervariasi seperti optimasi atau integrasi numerik, atau simulasi.
Saya agak mengerti apa arti "overfitting", tetapi saya perlu bantuan tentang bagaimana menghasilkan contoh dunia nyata yang berlaku untuk overfitting.
Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...
Saya memiliki latar belakang ilmu komputer tetapi saya mencoba mengajari diri sendiri ilmu data dengan memecahkan masalah di internet. Saya telah mengerjakan masalah ini selama beberapa minggu terakhir (sekitar 900 baris dan 10 fitur). Saya awalnya menggunakan regresi logistik tetapi sekarang...
Saya memiliki satu set data yang tidak dipesan dengan cara tertentu tetapi ketika diplot jelas memiliki dua tren yang berbeda. Regresi linier sederhana tidak akan cukup memadai di sini karena perbedaan yang jelas antara kedua seri. Apakah ada cara sederhana untuk mendapatkan dua trendline linear...
Gagasan analisis data adaptif adalah Anda mengubah rencana Anda untuk menganalisis data saat Anda belajar lebih banyak tentangnya. Dalam kasus analisis data eksplorasi (EDA), ini umumnya merupakan ide yang baik (Anda sering mencari pola yang tidak terduga dalam data), tetapi untuk studi konfirmasi,...
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya menggunakan tanda sisipan untuk menjalankan hutan...
Saya baru saja menemukan makalah ini , yang menjelaskan bagaimana menghitung pengulangan (alias reliabilitas, alias korelasi intraclass) dari pengukuran melalui pemodelan efek campuran. Kode R adalah: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...
Apakah mungkin untuk mengenakan model regresi logistik? Saya melihat video yang mengatakan bahwa jika area saya di bawah kurva ROC lebih tinggi dari 95%, maka kemungkinan besar akan terlalu pas, tetapi apakah mungkin untuk mengenakan model regresi
Saya melatih jaringan saraf sederhana pada dataset CIFAR10. Setelah beberapa waktu, kehilangan validasi mulai meningkat, sedangkan akurasi validasi juga meningkat. Kehilangan pengujian dan akurasi pengujian terus meningkat. Bagaimana ini mungkin? Tampaknya jika kehilangan validasi meningkat,...
Saya menyelesaikan kursus Pembelajaran Mesin Andrew Ng sekitar setahun yang lalu, dan sekarang saya sedang menulis penjelajahan Matematika SMA saya tentang cara kerja Regresi Logistik dan teknik untuk mengoptimalkan kinerja. Salah satu teknik ini, tentu saja, regularisasi. Tujuan dari regularisasi...
Meskipun saya membaca posting ini , saya masih tidak tahu bagaimana menerapkan ini pada data saya sendiri dan berharap seseorang dapat membantu saya. Saya memiliki data berikut: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743,...
Asumsikan bahwa model memiliki akurasi 100% pada data pelatihan, tetapi akurasi 70% pada data uji. Apakah argumen berikut ini benar tentang model ini? Jelas bahwa ini adalah model overfitted. Akurasi pengujian dapat ditingkatkan dengan mengurangi overfitting. Namun, model ini masih bisa menjadi...
Asumsikan saya memiliki dataset untuk tugas klasifikasi statistik terawasi, misalnya, melalui pengklasifikasi Bayes. Dataset ini terdiri dari 20 fitur dan saya ingin meringkasnya menjadi 2 fitur melalui teknik pengurangan dimensionalitas seperti Principal Component Analysis (PCA) dan / atau Linear...
Benarkah metode Bayesian tidak overfit? (Saya melihat beberapa makalah dan tutorial membuat klaim ini) Sebagai contoh, jika kita menerapkan Proses Gaussian ke MNIST (klasifikasi digit tulisan tangan), tetapi hanya memperlihatkannya sebagai sampel tunggal, akankah ia kembali ke distribusi...
Pertama, saya bukan ahli statistik. Namun, saya telah melakukan analisis jaringan statistik untuk PhD saya. Sebagai bagian dari analisis jaringan, saya merencanakan Fungsi Distribusi Kumulatif Pelengkap (CCDF) dari derajat jaringan. Apa yang saya temukan adalah bahwa, tidak seperti distribusi...
Saya sedang membaca laporan dari solusi memenangkan kompetisi Kaggle ( Klasifikasi Malware ). Laporan ini dapat ditemukan di posting forum ini . Masalahnya adalah masalah klasifikasi (sembilan kelas, metrik adalah kehilangan logaritmik) dengan 10.000 elemen di set kereta, 10.000 elemen di set...
Saya memiliki apa yang saya anggap naif sebagai masalah yang cukup lurus ke depan yang melibatkan deteksi outlier untuk banyak set data penghitungan yang berbeda. Secara khusus, saya ingin menentukan apakah satu atau lebih nilai dalam serangkaian data jumlah lebih tinggi atau lebih rendah dari yang...
Kutipan berikut berasal dari Schwager's Hedge Fund Market Wizzards (Mei 2012), sebuah wawancara dengan manajer dana lindung nilai yang sukses secara konsisten Jaffray Woodriff: Untuk pertanyaan: "Apa kesalahan terburuk yang dilakukan orang dalam penambangan data?": Banyak orang berpikir mereka...
Setelah melakukan analisis komponen utama (PCA), saya ingin memproyeksikan vektor baru ke ruang PCA (yaitu menemukan koordinatnya dalam sistem koordinat PCA). Saya telah menghitung PCA dalam bahasa R menggunakan prcomp. Sekarang saya harus bisa mengalikan vektor saya dengan matriks rotasi PCA....
EDIT: Karena pertanyaan ini telah meningkat, ringkasan: menemukan set data yang bermakna dan dapat ditafsirkan berbeda dengan statistik campuran yang sama (rata-rata, median, midrange dan dispersinya yang terkait, dan regresi). Kuartet Anscombe (lihat Tujuan memvisualisasikan data dimensi tinggi?...