Siapa pun yang mengikuti bisbol kemungkinan telah mendengar tentang penampilan tipe-MVP Toronto-Jose Bautista yang entah dari mana. Dalam empat tahun sebelumnya, ia mencapai sekitar 15 home run per musim. Tahun lalu ia mencapai 54, angka yang hanya dilampaui oleh 12 pemain dalam sejarah baseball.
Pada 2010 dia dibayar 2,4 juta dan dia meminta 10,5 juta untuk tim 2011. Mereka menawarkan 7,6 juta. Jika dia bisa mengulanginya di tahun 2011, dia akan dengan mudah mendapatkan jumlah yang layak. Tapi apa kemungkinan dia mengulangi? Seberapa keras kita dapat mengharapkan dia untuk mundur ke mean? Seberapa besar penampilannya yang bisa kita harapkan karena kebetulan? Apa yang bisa kita harapkan dari total 2010 yang disesuaikan dengan regresi-to-the-mean? Bagaimana cara saya mengatasinya?
Saya telah bermain-main dengan Database Baseball Lahman dan memeras kueri yang mengembalikan total home run untuk semua pemain dalam lima musim sebelumnya yang memiliki setidaknya 50 at-bats per musim.
Tabelnya terlihat seperti ini (perhatikan Jose Bautista di baris 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
dan hasil lengkap (232 baris) tersedia di sini .
Saya benar-benar tidak tahu harus mulai dari mana. Adakah yang bisa mengarahkan saya ke arah yang benar? Beberapa teori yang relevan, dan perintah R akan sangat membantu.
Terima kasih
Tommy
Catatan: Contohnya sedikit dibuat-buat. Home run jelas bukan indikator terbaik dari nilai pemain, dan total home run tidak mempertimbangkan berbagai peluang per musim yang dimiliki adonan untuk melakukan home run (penampilan di plate). Juga tidak mencerminkan bahwa beberapa pemain bermain di stadion yang lebih menguntungkan, dan bahwa rata-rata liga rumah berubah dari tahun ke tahun. Dll. Jika saya dapat memahami teori di balik akuntansi untuk regresi dengan rata-rata, saya dapat menggunakannya pada langkah-langkah yang lebih cocok daripada SDM.
sumber
Jawaban:
Saya pikir pasti ada penyusutan Bayesian atau koreksi sebelumnya yang dapat membantu prediksi tetapi Anda mungkin ingin juga mempertimbangkan taktik lain ...
Carilah pemain dalam sejarah, bukan hanya beberapa tahun terakhir, yang telah mengalami musim breakout setelah pasangan di jurusan (peningkatan dramatis mungkin 2x) dan lihat bagaimana mereka melakukannya di tahun berikutnya. Mungkin saja kemungkinan untuk mempertahankan kinerja ada prediktor yang tepat.
Ada berbagai cara untuk melihat masalah ini, tetapi seperti kata mpiktas, Anda akan membutuhkan lebih banyak data. Jika Anda hanya ingin berurusan dengan data terbaru maka Anda harus melihat statistik liga secara keseluruhan, pitcher yang ia hadapi, itu masalah yang kompleks.
Dan kemudian ada hanya mempertimbangkan data Bautista sendiri. Ya, itu adalah tahun terbaiknya tetapi itu juga pertama kalinya sejak 2007 ia memiliki lebih dari 350 AB (569). Anda mungkin ingin mempertimbangkan untuk mengubah persentase peningkatan kinerja.
sumber
Anda bisa memasukkan model ke data ini saja dan mendapatkan prediksi yang memperhitungkan regresi ke mean dengan menggunakan model campuran (bertingkat). Prediksi-prediksi dari model-model semacam itu menjelaskan regresi ke nilai tengah. Bahkan tanpa mengetahui apa-apa tentang baseball, saya tidak menemukan hasil yang saya peroleh, karena, seperti yang Anda katakan, model ini benar-benar perlu memperhitungkan faktor-faktor lain, seperti penampilan di piring.
Saya pikir model efek campuran Poisson akan lebih cocok daripada model campuran linier karena jumlah home run adalah hitungan. Melihat data yang Anda berikan , histogram
hr
menunjukkan kemiringannya sangat positif, menunjukkan bahwa model campuran linier tidak akan berfungsi dengan baik, dan termasuk angka nol yang cukup besar, dengan atau tanpa jam-transformasi pertama.Berikut ini beberapa kode yang menggunakan
lmer
fungsi dari paket lme4 . Setelah membuat variabel ID untuk mengidentifikasi setiap pemain dan membentuk kembali data ke format 'panjang' seperti yang ditunjukkan oleh mpikta dalam jawabannya, (saya melakukan itu di Stata karena saya tidak pandai mengelola data di R, tetapi Anda bisa melakukannya dalam paket spreadsheet):Ini cocok dengan model dengan log-link yang memberikan ketergantungan eksponensial dari hit-rate pada tahun, yang diperbolehkan bervariasi di antara para pemain. Fungsi tautan lainnya dimungkinkan, meskipun tautan identitas memberi kesalahan karena nilai pas negatif. Tautan sqrt berfungsi dengan baik, dan memiliki BIC dan AIC yang lebih rendah daripada model dengan tautan log, sehingga mungkin lebih cocok. Prediksi untuk hit-rate pada 2011 sensitif terhadap fungsi tautan yang dipilih, terutama untuk pemain seperti Bautista yang hit-ratenya telah banyak berubah baru-baru ini.
Sayangnya saya belum berhasil mendapatkan prediksi seperti itu
lme4
. Saya lebih akrab dengan Stata, yang membuatnya sangat mudah untuk mendapatkan prediksi untuk pengamatan dengan nilai yang hilang untuk hasilnya, walaupun xtmelogit tampaknya tidak menawarkan pilihan fungsi tautan selain log, yang memberikan prediksi 50 untuk Bautista's. home run di 2011. Seperti yang saya katakan, saya tidak menemukan itu sangat bisa dipercaya. Saya akan berterima kasih seseorang dapat menunjukkan cara menghasilkan prediksi untuk 2011 darilmer
model di atas.Sebuah Model autoregressive seperti AR (1) untuk kesalahan pemain-tingkat mungkin menarik juga, tapi aku tidak tahu bagaimana untuk menggabungkan struktur seperti dengan model campuran Poisson.
sumber
Anda memerlukan data tambahan tentang pemain dan karakteristik mereka dalam rentang waktu yang Anda miliki data tentang home-run. Untuk langkah pertama, tambahkan beberapa karakteristik yang bervariasi waktu seperti usia pemain atau pengalaman. Kemudian Anda bisa menggunakan HLM atau model data panel. Anda perlu menyiapkan data dalam bentuk:
Maka model yang paling sederhana adalah (fungsi lme berasal dari paket nlme )
Model ini akan sangat bergantung pada asumsi bahwa angka home-run masing-masing pemain hanya bergantung pada pengalaman yang memungkinkan beberapa variabilitas. Ini mungkin tidak akan terlalu akurat, tetapi Anda setidaknya akan merasakan betapa tidak mungkinnya angka Jose Bautista dibandingkan dengan pemain rata-rata. Model ini dapat ditingkatkan lebih lanjut dengan menambahkan karakteristik pemain lain.
sumber
Anda mungkin ingin membaca The Book Blog.
Tom Tango dan penulis lain dari "The Book: Playing the Perscentages in Baseball" mungkin merupakan sumber sabermetrik terbaik di luar sana. Secara khusus, mereka suka regresi ke mean. Mereka datang dengan sistem peramalan yang dirancang untuk menjadi sistem yang paling dasar yang dapat diterima (Marcel), dan itu bergantung hampir secara eksklusif pada regresi ke rata-rata.
Dari atas kepala saya, saya kira salah satu metode akan menggunakan ramalan seperti itu untuk memperkirakan bakat sejati, dan kemudian menemukan distribusi yang tepat di sekitar bakat yang berarti. Setelah Anda memilikinya, setiap tampilan lempeng akan menjadi seperti uji coba Bernoulli, sehingga distribusi binomial dapat membawa Anda ke jalan selanjutnya.
sumber
FYI, dari 2011 hingga 2014, ia menekan 43, 27, 28, dan 35.
Itu cukup dekat dengan rata-rata permainan 162-nya 32 (yang tentu saja termasuk nilai-nilai itu), dan sekitar 1 SD di bawah 54 tahun 2010.
Tampak seperti regresi terhadap mean dalam aksi: Kelompok ekstrim yang dibangun dengan memanfaatkan subjek yang berisik (1 dalam kasus ini) menyimpang dari kelompok mereka yang dimaksud secara kebetulan.
http://www.baseball-reference.com/players/b/bautijo02.shtml
sumber