Saya berharap bisa mengajukan pertanyaan ini dengan cara yang benar. Saya memiliki akses ke data play-by-play, jadi ini lebih merupakan masalah dengan pendekatan terbaik dan membangun data dengan benar.
Yang ingin saya lakukan adalah menghitung probabilitas memenangkan game NHL mengingat skor dan waktu yang tersisa dalam regulasi. Saya pikir saya bisa menggunakan regresi logistik, tetapi saya tidak yakin seperti apa dataset seharusnya. Apakah saya akan memiliki beberapa pengamatan per game dan untuk setiap irisan waktu saya tertarik? Apakah saya akan memiliki satu pengamatan per game dan cocok dengan model terpisah per sepotong waktu? Apakah regresi logistik bahkan cara yang tepat untuk pergi?
Setiap bantuan yang Anda berikan akan sangat dihargai!
Salam Hormat.
sumber
Jawaban:
Lakukan regresi logistik dengan kovariat "waktu bermain" dan "gol (tim tuan rumah) - gol (tim tandang)". Anda akan memerlukan efek interaksi dari istilah-istilah ini karena keunggulan 2 gol di babak pertama akan memiliki efek yang jauh lebih kecil daripada keunggulan 2 gol dengan hanya 1 menit tersisa. Tanggapan Anda adalah "kemenangan (tim tuan rumah)".
Jangan hanya berasumsi linearitas untuk ini, cocok dengan model koefisien lancar bervariasi untuk efek "tujuan (tim tuan rumah) - gol (tim tandang)", misalnya dalam R Anda bisa menggunakan
mgcv
'sgam
fungsi dengan rumus model yang sepertiwin_home ~ s(time_remaining, by=lead_home)
. Buatlead_home
menjadi faktor, sehingga Anda mendapatkan efek berbedatime_remaining
untuk setiap nilailead_home
.Saya akan membuat beberapa pengamatan per game, satu untuk setiap irisan waktu yang Anda minati.
sumber
win_home
konstan pada tingkat pengelompokan (yaitu untuk semua irisan waktu untuk setiap pertandingan tertentu itu 0 atau 1), termasuk, misalnya intersep acak, untuk pertandingan hanya akan menghasilkan masalah besar dengan pemisahan dalam konteks ini.Saya akan mulai mensimulasikan data dari model mainan. Sesuatu seperti:
Sekarang kami memiliki sesuatu untuk dimainkan. Anda juga bisa menggunakan data mentah, tetapi saya menemukan simulasi data sangat membantu untuk memikirkan semuanya.
Selanjutnya saya hanya akan memplot data, yaitu, plot waktu pertandingan versus rumah, dengan skala warna yang sesuai dengan probabilitas yang diamati untuk menang.
Ini akan membantu Anda menemukan dukungan data Anda, dan memberi Anda gambaran mentah tentang seperti apa kemungkinannya.
sumber
Lihatlah statistik kutu buku di Football Outsiders dan juga buku Mathletics untuk mendapatkan inspirasi.
Para pemain Football Outsiders membuat prediksi pertandingan berdasarkan setiap permainan di pertandingan sepakbola.
Winston in Mathletics menggunakan beberapa teknik seperti pemrograman dinamis juga.
Anda juga dapat mempertimbangkan algoritma lain seperti SVM.
sumber