EDIT: Sejak membuat posting ini, saya telah menindaklanjuti dengan posting tambahan di sini .
Ringkasan teks di bawah ini: Saya sedang mengerjakan model dan telah mencoba regresi linier, transformasi Box Cox dan GAM tetapi belum membuat banyak kemajuan
Dengan menggunakan R
, saya saat ini sedang mengerjakan model untuk memprediksi keberhasilan pemain baseball liga kecil di tingkat liga utama (MLB). Variabel dependen, karier yang ofensif menang di atas penggantian (oWAR), adalah proksi untuk sukses di level MLB dan diukur sebagai jumlah kontribusi ofensif untuk setiap permainan yang dilibatkan pemain selama karirnya (detail di sini - http : //www.fangraphs.com/library/misc/war/). Variabel independen adalah z-skor variabel ofensif liga kecil untuk statistik yang dianggap sebagai prediktor penting keberhasilan di tingkat liga utama termasuk usia (pemain dengan lebih banyak sukses di usia yang lebih muda cenderung prospek yang lebih baik), strike out rate [SOPct ], walk rate [BBrate] dan produksi yang disesuaikan (ukuran global produksi ofensif). Selain itu, karena ada beberapa level liga minor, saya telah memasukkan variabel dummy untuk level liga minor (Double A, High A, Low A, Rookie, dan Musim Pendek dengan Triple A [level tertinggi sebelum liga utama] sebagai variabel referensi]). Catatan: Saya telah mengubah skala PERANG menjadi variabel yang berubah dari 0 menjadi 1.
Variabel sebar adalah sebagai berikut:
Untuk referensi, variabel dependen, oWAR, memiliki plot berikut:
Saya mulai dengan regresi linier oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
dan mendapatkan plot diagnostik berikut:
Ada masalah yang jelas dengan kurangnya ketidakberpihakan dari residu dan kurangnya variasi acak. Selain itu, residu tidak normal. Hasil regresi ditunjukkan di bawah ini:
Mengikuti saran di utas sebelumnya , saya mencoba transformasi Box-Cox tanpa hasil. Selanjutnya, saya mencoba GAM dengan tautan log dan menerima plot ini:
Asli
Plot Diagnostik Baru
Sepertinya splines membantu mencocokkan data tetapi plot diagnostik masih menunjukkan kecocokan yang buruk. EDIT: Saya pikir saya melihat residual vs nilai pas awalnya tapi saya salah. Plot yang awalnya ditampilkan ditandai sebagai Asli (di atas) dan plot yang saya unggah kemudian ditandai sebagai Plot Diagnostik Baru (juga di atas)
The model telah meningkat
tetapi hasil yang dihasilkan oleh perintah gam.check(myregression, k.rep = 1000)
tidak begitu menjanjikan.
Adakah yang bisa menyarankan langkah selanjutnya untuk model ini? Saya senang memberikan informasi lain yang menurut Anda mungkin berguna untuk memahami kemajuan yang saya buat sejauh ini. Terima kasih atas bantuan yang Anda berikan.
Jawaban:
lrm
rms
rms
orm
sumber
require(Hmisc); cut2(y, g=100, levels.mean=TRUE)
rms
akan segera dirilis, apakah Anda tahu kapan itu mungkin?Saya pikir kembali bekerja variabel dependen dan model bisa bermanfaat di sini. Melihat residu Anda dari
lm()
, tampaknya masalah utama adalah dengan pemain dengan PERANG karir tinggi (yang Anda definisikan sebagai jumlah dari semua PERANG). Perhatikan bahwa WAR yang diprediksi (skala) tertinggi Anda adalah 0,15 dari maksimum 1! Saya pikir ada dua hal dengan variabel dependen ini yang memperburuk masalah ini:Namun dalam konteks prediksi, termasuk waktu yang dimainkan secara eksplisit sebagai kontrol (dengan cara apa pun, baik sebagai bobot, atau sebagai penyebut dalam menghitung rata-rata karir WAR) adalah kontraproduktif (juga saya menduga pengaruhnya juga akan non-linear). Jadi saya menyarankan waktu pemodelan agak kurang eksplisit dalam model campuran menggunakan
lme4
ataunlme
.Dengan
lme4
, ini akan terlihat sepertilmer(sWAR ~ <other stuff> + (1|Player), data=mydata)
sumber