Dapatkah regularisasi bermanfaat jika kita hanya tertarik dalam memperkirakan (dan menafsirkan) parameter model, bukan dalam peramalan atau prediksi?
Saya melihat bagaimana regularisasi / validasi silang sangat berguna jika tujuan Anda adalah membuat perkiraan yang baik tentang data baru. Tetapi bagaimana jika Anda melakukan ekonomi tradisional dan semua yang Anda pedulikan adalah memperkirakan ? Dapatkah validasi silang juga bermanfaat dalam konteks itu? Kesulitan konseptual yang saya perjuangkan adalah bahwa kita benar-benar dapat menghitung pada data uji, tetapi kita tidak pernah dapat menghitung karena true menurut definisi tidak pernah diamati. (Anggap sebagai asumsi bahwa bahkan ada benar , yaitu kita tahu keluarga model dari mana data dihasilkan.)L ( Y , Y ) L ( β , β ) β β
Misalkan kerugian Anda adalah . Anda menghadapi pertukaran bias-varians, kan? Jadi, secara teori, Anda mungkin lebih baik melakukan beberapa regularisasi. Tetapi bagaimana Anda bisa memilih parameter regularisasi Anda?
Saya akan senang melihat contoh numerik sederhana dari model regresi linier, dengan koefisien , di mana fungsi kerugian peneliti adalah misalnya , atau bahkan hanya . Bagaimana, dalam praktiknya, seseorang dapat menggunakan validasi silang untuk meningkatkan kerugian yang diharapkan dalam contoh-contoh itu?
Sunting : DJohnson mengarahkan saya ke https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , yang relevan dengan pertanyaan ini. Penulis menulis itu
Teknik pembelajaran mesin ... memberikan cara yang disiplin untuk memprediksi mana } yang (i) menggunakan data itu sendiri untuk memutuskan bagaimana membuat trade-off bias-varians dan (ii) memungkinkan pencarian lebih dari sekumpulan yang sangat kaya variabel dan bentuk fungsional. Tapi semuanya harus dibayar: orang harus selalu ingat bahwa karena mereka disetel untuk mereka tidak (tanpa banyak asumsi lain) memberikan jaminan yang sangat berguna untuk .
Makalah lain yang relevan, sekali lagi terima kasih kepada DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Makalah ini membahas pertanyaan yang saya perjuangkan di atas:
Sebuah ... tantangan mendasar untuk menerapkan metode pembelajaran mesin seperti pohon regresi di luar rak untuk masalah inferensi kausal adalah bahwa pendekatan regularisasi berdasarkan cross-validasi biasanya bergantung pada pengamatan "kebenaran dasar," yaitu, hasil aktual dalam sampel validasi silang. Namun, jika tujuan kami adalah untuk meminimalkan rata-rata kesalahan kuadrat dari efek pengobatan, kami menemukan apa yang [11] sebut sebagai "masalah mendasar dari inferensi kausal": efek kausal tidak diamati untuk setiap unit individu, dan jadi kami tidak secara langsung memiliki kebenaran dasar. Kami mengatasinya dengan mengusulkan pendekatan untuk membangun estimasi yang tidak bias dari kesalahan rata-rata kuadrat dari efek kausal dari perawatan.
Jawaban:
Ya, saat kami ingin estimasi varians rendah yang bias. Saya sangat suka posting gung di sini. Masalah apa yang diselesaikan metode penyusutan? Tolong izinkan saya untuk menempelkan gambar gung di sini ...
Jika Anda memeriksa plot gung yang dibuat, Anda akan mengetahui mengapa kami membutuhkan regularisasi / susut. Pada awalnya, saya merasa aneh mengapa kita membutuhkan estimasi yang bias? Tetapi melihat angka itu, saya menyadari, memiliki model varian rendah memiliki banyak keuntungan: misalnya, itu lebih "stabil" dalam penggunaan produksi.
sumber
Ya bisa. Sebagai contoh, beberapa hari yang lalu saya menggunakan estimasi pentingnya parameter melalui Pohon Keputusan. Setiap kali saya membangun pohon, saya memeriksa kesalahan validasi silang. Saya mencoba untuk mengurangi kesalahan sebanyak yang saya bisa, maka saya akan pergi ke langkah selanjutnya memperkirakan pentingnya parameter. Ada kemungkinan bahwa jika pohon pertama yang Anda buat sangat buruk dan Anda tidak memeriksa kesalahan, Anda akan memiliki jawaban yang kurang akurat (jika tidak salah).
Alasan utama saya percaya adalah karena banyaknya jumlah variabel kontrol yang dimiliki masing-masing teknik. Bahkan sedikit perubahan dalam satu variabel kontrol akan memberikan hasil yang berbeda.
Bagaimana cara meningkatkan model Anda setelah Anda memeriksa kesalahan validasi silang? Yah, itu tergantung pada model Anda. Mudah-mudahan, setelah mencoba beberapa kali Anda akan mendapatkan beberapa gagasan tentang variabel kontrol yang paling penting dan dapat memanipulasi mereka untuk menemukan kesalahan yang rendah.
sumber