[diedit 21.7.15 8:31 CEST]
Saya kira Anda menggunakan RF untuk klasifikasi. Karena dalam kasus ini, algoritma menghasilkan pohon-pohon dewasa dengan node terminal murni hanya satu kelas target.
predict(model, data=X_train)
Baris pengkodean ini seperti anjing yang mengejar [~ 66% dari] ekornya sendiri. Prediksi sampel pelatihan adalah kelas sampel pelatihan itu sendiri. Untuk regresi, RF berhenti jika simpul memiliki 5 atau kurang sampel di dalamnya atau jika simpul murni. Di sini kesalahan prediksi akan kecil tetapi tidak 0%.
Dalam pembelajaran mesin kita sering bekerja dengan ruang hipotesis besar. Ini berarti akan selalu ada banyak hipotesis / penjelasan / model yang belum dipalsukan terhadap struktur data dari rangkaian pelatihan kami. Dalam statistik klasik adalah ruang hipotesis seringkali kecil dan oleh karena itu model-fit langsung informatif sesuai dengan beberapa teori probabilitas yang diasumsikan. Dalam pembelajaran mesin apakah kekurangan langsung berhubungan dengan bias model. Bias adalah "tidak fleksibel" dari model. Itu tidakdengan cara apa pun memberikan perkiraan kekuatan generalisasi (kemampuan untuk memprediksi peristiwa baru). Untuk model algoritmik, validasi silang adalah alat terbaik untuk memperkirakan kekuatan generalisasi, karena tidak ada teori yang dirumuskan. Namun, jika asumsi model pengambilan sampel independen gagal, model tersebut mungkin tidak berguna bagaimanapun, bahkan ketika validasi silang yang dilakukan dengan baik menyarankan sebaliknya. Pada akhirnya, bukti terkuat adalah dengan memuaskan memprediksi sejumlah set tes eksternal dari berbagai sumber.
Kembali ke CV: Out-of-bag sering merupakan jenis CV yang diterima. Saya pribadi berpendapat bahwa OOB-CV memberikan hasil yang sama dengan 5-lipat-CV, tetapi ini adalah gangguan yang sangat kecil. Jika membandingkan katakanlah RF ke SVM, maka OOB-CV tidak berguna karena kita biasanya menghindari tas SVM. Sebaliknya, baik SVM dan RF akan tertanam dalam skema validasi silang yang sama persis misalnya 10 kali lipat 10 kali dengan partisi yang cocok untuk setiap pengulangan. Setiap langkah rekayasa fitur seringkali juga diperlukan untuk divalidasi silang. Jika untuk menjaga semuanya tetap bersih, seluruh jalur pipa data dapat disematkan di CV.
Jika Anda menyetel model Anda dengan set-tes Anda (atau validasi silang) Anda kembali menggembungkan ruang hipotesis Anda dan kinerja prediksi yang divalidasi cenderung terlalu optimis. Sebagai gantinya Anda akan memerlukan set kalibrasi (atau loop-kalibrasi CV) untuk menyesuaikan dan set validasi uji (atau loop-validasi CV) untuk menilai model optimal akhir Anda.
Dalam arti ekstrem, skor validasi Anda hanya akan tidak bias jika Anda tidak pernah bertindak atas hasil ini, ketika Anda melihatnya. Ini adalah paradoks validasi, karena mengapa kita memperoleh pengetahuan yang hanya benar jika Anda tidak menindaklanjutinya. Dalam praktiknya, masyarakat dengan sukarela menerima beberapa bias publikasi, di mana para peneliti yang mendapat validasi terlalu optimis secara acak lebih mungkin untuk menerbitkan, daripada mereka yang sayangnya memiliki validasi over-pesimistis yang baik. Karena itu kadang-kadang mengapa tidak dapat mereproduksi model lain.