Saya memiliki beberapa model prediktif yang kinerjanya ingin saya uji kembali (yaitu, ambil dataset saya, "putar kembali" ke titik waktu sebelumnya, dan lihat bagaimana model tersebut akan tampil secara prospektif).
Masalahnya adalah bahwa beberapa model saya dibangun melalui proses interaktif. Misalnya, mengikuti saran dalam Strategi Pemodelan Regresi Frank Harrell , dalam satu model saya menggunakan splines kubik terbatas untuk menangani kemungkinan asosiasi nonlinear antara fitur dan respons. Saya mengalokasikan derajat kebebasan masing-masing spline berdasarkan pada kombinasi pengetahuan domain dan ukuran kekuatan asosiasi yang univariat. Tetapi derajat kebebasan yang saya ingin izinkan model saya jelas tergantung pada ukuran dataset, yang bervariasi secara dramatis ketika backtesting. Jika saya tidak ingin memilih sendiri derajat kebebasan secara terpisah untuk setiap kali model diuji ulang, apa pilihan saya yang lain?
Sebagai contoh lain, saya sedang bekerja pada deteksi outlier melalui menemukan poin dengan leverage tinggi. Jika saya senang melakukan ini dengan tangan, saya hanya akan melihat pada setiap titik data leverage tinggi, memeriksa kewaspadaan bahwa data itu bersih, dan apakah menyaringnya atau membersihkannya dengan tangan. Tapi ini bergantung pada banyak pengetahuan domain, jadi saya tidak tahu bagaimana mengotomatiskan proses.
Saya akan menghargai saran dan solusi baik (a) untuk masalah umum otomatisasi bagian interaktif dari proses pembangunan model, atau (b) saran khusus untuk dua kasus ini. Terima kasih!
sumber
Daripada mencoba mencari cara mengotomatiskan upaya penyetelan model manual Anda, saya akan mengatasi masalah itu bersama-sama dengan melihat ke dalam pelajar varian yang lebih rendah yang memerlukan penyetelan yang jauh lebih sedikit, bahkan jika itu ada pada biaya peningkatan bias model. Anda ingin percaya diri dalam hasil backtest Anda yang sebagian besar turun ke varians sampling rendah dalam prediksi Anda, dan memperkenalkan beberapa proses tuning otomatis di atas pelajar yang sudah memiliki varians sampling itu sendiri yang bekerja melawan tujuan itu. Ini mungkin tampak seperti ekor yang mengibas-ngibaskan anjing di sini, tetapi apa pun yang membutuhkan penyetelan yang hati-hati (manual atau otomatis) bukanlah kandidat yang bagus untuk lingkungan backtest IMO yang benar-benar jujur.
sumber