Saya penggemar berat sepakbola dan tertarik pada pembelajaran mesin juga. Sebagai proyek untuk kursus ML saya, saya mencoba membangun model yang akan memprediksi peluang menang untuk tim tuan rumah, mengingat nama-nama tim tuan rumah dan tandang. (Saya menanyakan dataset saya dan karenanya membuat titik data berdasarkan pertandingan sebelumnya antara kedua tim)
Saya memiliki data untuk beberapa musim untuk semua tim, tetapi saya memiliki masalah berikut yang saya ingin saran. EPL (Liga Premier Inggris) memiliki 20 tim yang bermain satu sama lain di kandang dan tandang (380 total pertandingan dalam satu musim). Jadi, setiap musim, dua tim bermain satu sama lain hanya dua kali.
Saya memiliki data selama 10+ tahun terakhir, menghasilkan 2 * 10 = 20 titik data untuk kedua tim. Namun saya tidak ingin melewati 3 tahun terakhir karena saya percaya tim berubah cukup banyak dari waktu ke waktu (ManCity, Liverpool) dan ini hanya akan memperkenalkan lebih banyak kesalahan ke dalam sistem.
Jadi ini menghasilkan hanya sekitar 6-8 poin data untuk setiap pasangan tim. Namun, saya memiliki beberapa fitur (hingga 20+) untuk setiap titik data seperti gol penuh waktu, gol setengah waktu, umpan, tembakan, kuning, merah, dll. Untuk kedua tim sehingga saya dapat memasukkan fitur seperti formulir terbaru, baru-baru ini formulir rumah, formulir tandang terakhir dll.
Namun gagasan hanya memiliki 6-8 datapoints untuk dilatih sepertinya tidak benar bagi saya. Adakah pemikiran tentang bagaimana saya bisa mengatasi masalah ini? (jika ini adalah masalah di tempat pertama)
Jawaban:
Bagaimana dengan meningkatkan dataset Anda dengan mempertimbangkan juga beberapa data tentang pertandingan vs lawan yang sama?
Contoh:
Selain itu, menurut saya tanggal seperti ini lebih baik daripada data yang Anda usulkan, karena tim tahun lalu sering tim yang sangat berbeda.
sumber