Apakah masuk akal untuk mengenakan model secara sengaja?
Katakanlah saya memiliki kasus penggunaan di mana saya tahu data tidak akan banyak berbeda sehubungan dengan data pelatihan.
Saya berpikir di sini tentang prediksi lalu lintas, di mana status lalu lintas mengikuti serangkaian pola yang tetap
- pagi perjalanan
- aktivitas waktu malam
- dan seterusnya.
Pola-pola ini tidak akan banyak berubah kecuali ada peningkatan mendadak pengguna mobil atau perubahan besar dalam infrastruktur jalan. Dalam hal ini saya ingin model menjadi bias mungkin terhadap pola yang dipelajari dalam data saat ini, dengan asumsi bahwa di masa depan pola dan data akan sangat mirip.
Jawaban:
Secara umum tidak masuk akal untuk menyesuaikan data Anda dengan sengaja. Masalahnya adalah sulit untuk memastikan bahwa polanya juga muncul di bagian yang tidak termasuk dalam data Anda. Anda harus menegaskan bahwa ada pola dalam data. Salah satu kemungkinan melakukannya adalah konsep stasioneritas.
Apa yang Anda gambarkan mengingatkan saya pada stasioneritas dan ergodisitas. Dari sisi kontekstual / bisnis Anda menganggap bahwa rangkaian waktu Anda mengikuti pola-pola tertentu. Pola-pola ini disebut stasioneritas atau ergodisitas.
Definisi stasioneritas:
Proses stasioner adalah proses stokastik yang distribusi probabilitas gabungan tanpa syarat tidak berubah ketika bergeser waktu. Oleh karena itu parameter seperti mean dan varians juga tidak berubah seiring waktu.
Definisi ergodisitas:
Proses ergodik adalah proses yang berkaitan dengan atau menunjukkan sistem atau proses dengan properti yang, dengan waktu yang cukup, mereka termasuk atau menimpa semua titik dalam ruang yang diberikan dan dapat direpresentasikan secara statistik dengan pemilihan titik yang cukup besar.
Sekarang Anda ingin memastikan bahwa itu benar-benar mengikuti pola-pola tertentu ini. Anda dapat melakukan ini, misalnya dengan uji akar Unit (seperti Dickey-Fuller) atau uji Stationaritas (seperti KPSS).
Definisi Unit root test:
Definisi uji stasioneritas:
Bacaan lebih lanjut:
Apa perbedaan antara tes stasioner dan uji unit root?
Jika deret waktu benar-benar mengikuti peramalan dan prediksi pola ini akan "lebih mudah dari sudut pandang statistik", misalnya Anda dapat menerapkan model ekonometrik untuk peramalan seperti ARIMA atau TBATS. Jawaban saya berkaitan dengan deret waktu univariat dan juga multivariat jika Anda memiliki stasioneritas data cross-sectional dan unit root bukan konsep umum.
sumber
Tidak, tidak masuk akal untuk menyesuaikan data Anda.
Istilah overfitting sebenarnya mengacu pada perbandingan antara model: Jika kinerja model_a lebih baik pada data pelatihan yang diberikan tetapi out-of-sample lebih buruk daripada model_b , model_a overfitting. Atau dengan kata lain: " ada alternatif yang lebih baik ".
Jika status lalu lintas " tidak akan berubah sama sekali sehubungan dengan data pelatihan", maka Anda akan mencapai hasil terbaik dengan hanya menghafal data pelatihan (sekali lagi, itu bukan "overfitting").
Tetapi "data tidak akan banyak berbeda sehubungan dengan data pelatihan" hanya menyamakan memiliki representasi yang masuk akal dari pola yang mendasarinya. Di sinilah pembelajaran mesin bekerja paling baik ( lingkungan stasioner seperti yang dijelaskan Ferdi ).
sumber
Saya akan mengatakan, bahwa ada perasaan untuk menyesuaikan data Anda, tetapi hanya untuk tujuan penelitian. (Jangan gunakan model overfitted dalam produksi!)
Dalam kasus ketika data dapat menjadi kompleks dan tugas non-sepele, mencoba untuk mengenakan suatu model bisa menjadi langkah penting!
Jika Anda dapat mengenakan suatu model - itu berarti bahwa data tersebut mungkin untuk dijelaskan oleh model tersebut.
Jika Anda bahkan tidak bisa berpakaian berlebihan - itu bisa memberi Anda petunjuk untuk investigasi:
sumber