Saya baru untuk hal R ini tetapi tidak yakin model mana yang harus dipilih.
Saya melakukan regresi maju bertahap memilih setiap variabel berdasarkan AIC terendah. Saya datang dengan 3 model yang saya tidak yakin mana yang "terbaik".
Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
Saya cenderung untuk pergi dengan Model # 3 karena memiliki AIC terendah (saya dengar negatif ok) dan nilai-p masih agak rendah.
Saya telah menjalankan 8 variabel sebagai prediktor Massa Penetasan dan menemukan bahwa ketiga variabel ini adalah prediktor terbaik.
Maju ke depan saya berikutnya saya memilih Model 2 karena meskipun AIC sedikit lebih besar nilai p semua lebih kecil. Apakah Anda setuju ini yang terbaik?
Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056) AIC = 26.518 Model 3: Var1 (p=0.258) + Var2 (p=0.0254) AIC = 36.905
Terima kasih!
Jawaban:
AIC adalah ukuran goodness of fit yang mendukung kesalahan residual yang lebih kecil dalam model, tetapi menghukum karena memasukkan prediktor lebih lanjut dan membantu menghindari overfitting. Pada set kedua model Anda model 1 (yang dengan AIC terendah) dapat bekerja paling baik bila digunakan untuk prediksi di luar dataset Anda. Penjelasan yang memungkinkan mengapa menambahkan Var4 ke model 2 menghasilkan AIC yang lebih rendah, tetapi nilai p yang lebih tinggi adalah bahwa Var4 agak berkorelasi dengan Var1, 2 dan 3. Dengan demikian, interpretasi model 2 lebih mudah.
sumber
Melihat nilai-p individu dapat menyesatkan. Jika Anda memiliki variabel yang collinear (memiliki korelasi tinggi), Anda akan mendapatkan nilai p yang besar. Ini tidak berarti variabel tidak berguna.
Sebagai pedoman praktis, memilih model Anda dengan kriteria AIC lebih baik daripada melihat nilai-p.
Salah satu alasan seseorang mungkin tidak memilih model dengan AIC terendah adalah ketika rasio variabel Anda terhadap titik data besar.
Perhatikan bahwa pemilihan model dan akurasi prediksi adalah masalah yang agak berbeda. Jika tujuan Anda adalah untuk mendapatkan prediksi yang akurat, saya sarankan memvalidasi silang model Anda dengan memisahkan data Anda dalam satu set pelatihan dan pengujian.
Sebuah makalah tentang pemilihan variabel: Stochastic Stepwise Ensembles untuk Pemilihan Variabel
sumber
AIC dimotivasi oleh estimasi kesalahan generalisasi (seperti Mallow's CP, BIC, ...). Jika Anda menginginkan model untuk prediksi, lebih baik gunakan salah satu kriteria ini. Jika Anda ingin model Anda untuk menjelaskan suatu fenomena, gunakan nilai-p.
Lihat juga di sini .
sumber