Saya punya pertanyaan praktis tentang rekayasa fitur ... katakanlah saya ingin memprediksi harga rumah dengan menggunakan regresi logistik dan menggunakan banyak fitur termasuk kode pos. Kemudian dengan memeriksa pentingnya fitur, saya menyadari zip adalah fitur yang cukup bagus, jadi saya memutuskan untuk menambahkan beberapa fitur berdasarkan zip - misalnya, saya pergi ke biro sensus dan mendapatkan penghasilan rata-rata, populasi, jumlah sekolah, dan jumlah rumah sakit masing-masing zip. Dengan keempat fitur baru ini, saya menemukan performa model yang lebih baik sekarang. Jadi saya menambahkan lebih banyak fitur yang berhubungan dengan zip ... Dan siklus ini terus berlanjut. Akhirnya model akan didominasi oleh fitur-fitur terkait zip ini, kan?
Pertanyaan saya:
- Apakah masuk akal melakukan ini di tempat pertama?
- Jika ya, bagaimana saya tahu kapan waktu yang tepat untuk menghentikan siklus ini?
- Jika tidak, mengapa tidak?
sumber
Biasanya, semakin kaya fitur semakin baik.
Satu hal yang perlu diingat, bagaimanapun, regresi, secara umum, tidak bekerja dengan baik dengan data yang sangat berkorelasi (multikolinieritas). Ketika Anda memperluas fitur Anda dengan cara ini, itu adalah sesuatu yang mungkin ingin Anda ingat.
Ada banyak informasi tentang topik ini (dan cara potensial untuk mengurangi), hanya regresi google dan multikolinieritas.
Pendeknya,
sumber
Fitur adalah informasi dari model Anda. Semakin banyak informasi, semakin baik kemampuannya untuk melakukan dan memprediksi. Semakin rendah, semakin sulit untuk memprediksi nilai. Jadi naser pendeknya adalah ya. Itu selalu layak untuk memiliki fitur sebanyak mungkin. Selalu ada batasan untuk ini karena informasi yang berlebihan juga dapat membakar prosesor Anda, jadi berhati-hatilah dengan berapa banyak fitur yang sedang direkayasa. Selain itu, fitur yang tidak perlu hanya menambah kejenuhan, jadi selalu praktik yang baik untuk membersihkan fitur tertentu. Seluruh fase preprocessing data adalah tentang itu.
Jawaban pertama memiliki beberapa detail yang bagus tentang itu. Sejauh menyangkut penghentian siklus, ada beberapa langkah dan faktor yang perlu Anda perhatikan untuk memeriksa di mana model Anda telah berhenti berkinerja lebih baik dan itu adalah langkah-langkah seperti RMSE. Contoh sederhana akan menggunakan
xgboost
regresi pada data Anda dan menentukan jumlah siklus. Jalankan model dan Anda akan mendapatkan RMSE untuk setiap siklus. Ini akan berkurang hingga batas yang setelahnya Anda akan dapat menyimpulkan bahwa model telah stabil setelah siklus tertentu. Beginilah cara penyetelan model dan pengoptimalan bekerja.sumber