Apakah benar-benar ada perbedaan antara jackknife dan meninggalkan satu validasi silang? Prosedurnya terlihat sama, apakah saya melewatkan
Apakah benar-benar ada perbedaan antara jackknife dan meninggalkan satu validasi silang? Prosedurnya terlihat sama, apakah saya melewatkan
Suppose I have constructed a prediction model for the occurrence of a particular disease in one dataset (the model building dataset) and now want to check how well the model works in a new dataset (the validation dataset). For a model built with logistic regression, I would calculate the predicted...
Saya cukup baru di hutan acak. Di masa lalu, saya selalu membandingkan akurasi fit vs tes terhadap fit vs kereta untuk mendeteksi overfitting apapun. Tapi saya baru baca di sini bahwa: "Di hutan acak, tidak perlu untuk validasi silang atau set tes terpisah untuk mendapatkan estimasi yang tidak...
Saya sangat baru dalam analisis data fungsional (FDA). Saya membaca: Ramsay, James O., dan Silverman, Bernard W. (2006), Analisis Data Fungsional, edisi ke-2, Springer, New York. Namun, saya masih belum begitu jelas di mana / kapan harus menggunakan FDA? Bisakah seseorang tolong beri saya...
"Bootstrap validation" / "resampling cross-validation" adalah hal baru bagi saya, tetapi telah dibahas oleh jawaban untuk pertanyaan ini . Saya mengumpulkannya melibatkan 2 jenis data: data nyata dan data simulasi, di mana satu set data simulasi yang dihasilkan dihasilkan dari data nyata dengan...
Saya menganalisis set data menggunakan model efek campuran dengan satu efek tetap (kondisi) dan dua efek acak (peserta karena desain subjek dan pasangan dalam). Model ini dihasilkan dengan lme4paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Selanjutnya, saya...
TLDR: Dataset saya cukup kecil (120) sampel. Saat melakukan validasi silang 10 kali lipat, haruskah saya: Kumpulkan output dari setiap lipatan tes, gabungkan menjadi vektor, dan kemudian hitung kesalahan pada vektor prediksi penuh ini (120 sampel)? Atau saya harus bukannya menghitung kesalahan...
Saya memiliki pertanyaan spesifik tentang validasi dalam penelitian pembelajaran mesin. Seperti yang kita ketahui, rezim pembelajaran mesin meminta para peneliti untuk melatih model mereka pada data pelatihan, memilih dari model kandidat dengan set validasi, dan melaporkan akurasi pada set tes....
Saya membaca berulang-ulang bahwa validasi silang "Leave-one-out" memiliki varian yang tinggi karena tumpang tindih yang besar dari lipatan pelatihan. Namun saya tidak mengerti mengapa itu adalah: Tidak seharusnya kinerja validasi silang menjadi sangat stabil (varian rendah) justru karena set...
Tes permutasi (juga disebut tes pengacakan, uji pengacakan ulang, atau tes yang tepat) sangat berguna dan berguna ketika asumsi distribusi normal yang diperlukan misalnya, t-testtidak terpenuhi dan ketika transformasi nilai dengan peringkat dari tes non-parametrik seperti Mann-Whitney-U-testakan...
Setelah membaca salah satu "Tip penelitian" RJ Hyndman tentang validasi silang dan rangkaian waktu, saya kembali ke pertanyaan lama saya yang akan saya coba rumuskan di sini. Idenya adalah bahwa dalam masalah klasifikasi atau regresi, pemesanan data tidak penting, dan karenanya k- lipatan validasi...
Saya melakukan klasifikasi gambar menggunakan pembelajaran mesin. Misalkan saya memiliki beberapa data pelatihan (gambar) dan akan membagi data menjadi set pelatihan dan validasi. Dan saya juga ingin menambah data (menghasilkan gambar baru dari yang asli) dengan rotasi acak dan injeksi noise....
Pemahaman umum saya adalah AIC berkaitan dengan pertukaran antara kebaikan model dan kompleksitas model. A IC= 2 k - 2 l n ( L )SEBUAHsayaC=2k-2ln(L)AIC =2k -2ln(L) = jumlah parameter dalam modelkkk = kemungkinanLLL Kriteria informasi Bayesian BIC terkait erat dengan AIC. AIC menghukum jumlah...
Pertanyaan utama saya adalah tentang mencoba memahami bagaimana k-fold cross-validation cocok dalam konteks memiliki pelatihan / validasi / pengujian set (jika cocok sama sekali dalam konteks seperti itu). Biasanya, orang berbicara tentang memecah data menjadi set pelatihan, validasi dan pengujian...
Halaman Scikit Learn pada Seleksi Model menyebutkan penggunaan validasi silang bersarang: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dua loop validasi silang dilakukan...
Terkunci . Pertanyaan ini dan jawabannya dikunci karena pertanyaannya di luar topik tetapi memiliki signifikansi historis. Saat ini tidak menerima jawaban atau interaksi baru. Sekarang saya memiliki Rkerangka data (pelatihan), adakah yang bisa memberi tahu saya cara
Saya telah mendengar ungkapan berikut sebelumnya: "Optimasi adalah akar dari semua kejahatan dalam statistik". Sebagai contoh, jawaban teratas di utas ini membuat pernyataan itu mengacu pada bahaya mengoptimalkan terlalu agresif selama pemilihan model. Pertanyaan pertama saya adalah sebagai...
Saya sedang menyusun tinjauan literatur tentang masalah kesehatan masyarakat saat ini di mana data dikacaukan: Apa saja studi kasus sejarah umum yang digunakan dalam pendidikan kesehatan / epidemiologi publik di mana hubungan atau kesimpulan yang tidak benar atau membingungkan secara sengaja atau...
Scikit memiliki CalibratedClassifierCV , yang memungkinkan kita untuk mengkalibrasi model kita pada pasangan X, y tertentu. Ini juga menyatakan dengan jelas itudata for fitting the classifier and for calibrating it must be disjoint. Jika mereka harus dipisahkan, apakah sah untuk melatih...
Saya telah menjelajahi berbagai utas di sini, tetapi saya rasa pertanyaan saya yang sebenarnya tidak dijawab. Saya memiliki dataset ~ 50.000 siswa dan waktu mereka untuk putus sekolah. Saya akan melakukan regresi bahaya proporsional dengan sejumlah besar kovariat potensial. Saya juga akan...