AIC atau p-value: mana yang akan dipilih untuk pemilihan model?

22

Saya baru untuk hal R ini tetapi tidak yakin model mana yang harus dipilih.

  1. Saya melakukan regresi maju bertahap memilih setiap variabel berdasarkan AIC terendah. Saya datang dengan 3 model yang saya tidak yakin mana yang "terbaik".

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Saya cenderung untuk pergi dengan Model # 3 karena memiliki AIC terendah (saya dengar negatif ok) dan nilai-p masih agak rendah.

    Saya telah menjalankan 8 variabel sebagai prediktor Massa Penetasan dan menemukan bahwa ketiga variabel ini adalah prediktor terbaik.

  2. Maju ke depan saya berikutnya saya memilih Model 2 karena meskipun AIC sedikit lebih besar nilai p semua lebih kecil. Apakah Anda setuju ini yang terbaik?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

Terima kasih!

MEL
sumber
Bisakah Anda memberi tahu kami perbedaan antara (1) dan (2)? Jelas ada sesuatu yang berubah, karena Model 3 in (1) dan Model 2 in (2) secara nominal identik tetapi nilai-p dan AIC berbeda.
whuber
2
Pertanyaan ini telah diposting ulang dua kali, yang berarti bahwa kita tidak hanya harus menutupnya, tetapi juga tanggapan terkait yang sudah diberikan kepada Anda. Bisakah Anda mendaftarkan akun Anda (lihat FAQ ), dan perhatikan kebijakan posting StackExchange di masa depan? Terima kasih.
chl
@whuber, aku khawatir aku tidak mengerti pertanyaanmu sepenuhnya. Mungkin karena kurangnya pemahaman statistik saya. Tetapi untuk mencoba mengklarifikasi. Model 1 memiliki 4 variabel, Model 2 memiliki 3 variabel dan Model 3 memiliki 2 variabel. Variabel berada dalam urutan yang sama di setiap model (artinya variabel satu = temp di setiap model). Saya pikir @GaBorgulya dan @djma menjawab pertanyaan saya dengan sempurna. Variabel 4 IS berkorelasi dengan variabel 3. AH-HA! Masuk akal. terima kasih banyak sekali!
MEL
Saya telah mengonversi tanggapan Anda ke komentar di atas. Jika Anda merasa salah satu respons saat ini membantu atau menjawab pertanyaan Anda, jangan lupa untuk menerimanya, seperti yang diingatkan oleh @richiemorrisroe. BTW, senang melihat Anda mendaftarkan akun Anda.
chl

Jawaban:

23

AIC adalah ukuran goodness of fit yang mendukung kesalahan residual yang lebih kecil dalam model, tetapi menghukum karena memasukkan prediktor lebih lanjut dan membantu menghindari overfitting. Pada set kedua model Anda model 1 (yang dengan AIC terendah) dapat bekerja paling baik bila digunakan untuk prediksi di luar dataset Anda. Penjelasan yang memungkinkan mengapa menambahkan Var4 ke model 2 menghasilkan AIC yang lebih rendah, tetapi nilai p yang lebih tinggi adalah bahwa Var4 agak berkorelasi dengan Var1, 2 dan 3. Dengan demikian, interpretasi model 2 lebih mudah.

GaBorgulya
sumber
31

Melihat nilai-p individu dapat menyesatkan. Jika Anda memiliki variabel yang collinear (memiliki korelasi tinggi), Anda akan mendapatkan nilai p yang besar. Ini tidak berarti variabel tidak berguna.

Sebagai pedoman praktis, memilih model Anda dengan kriteria AIC lebih baik daripada melihat nilai-p.

Salah satu alasan seseorang mungkin tidak memilih model dengan AIC terendah adalah ketika rasio variabel Anda terhadap titik data besar.

Perhatikan bahwa pemilihan model dan akurasi prediksi adalah masalah yang agak berbeda. Jika tujuan Anda adalah untuk mendapatkan prediksi yang akurat, saya sarankan memvalidasi silang model Anda dengan memisahkan data Anda dalam satu set pelatihan dan pengujian.

Sebuah makalah tentang pemilihan variabel: Stochastic Stepwise Ensembles untuk Pemilihan Variabel

djma
sumber
4
Jika sasaran Anda adalah akurasi prediksi, Anda ingin menggunakan AIC (karena meminimalkan perbedaan KL yang diharapkan antara model yang sesuai dan kebenaran). Jika Anda menginginkan prosedur pemilihan model yang konsisten (p tetap, tumbuh n), Anda dapat menggunakan, katakanlah, BIC sebagai gantinya. Menggunakan nilai-p dalam regresi bertahap untuk memilih hipotesis secara pasti tidak direkomendasikan.
emakalic
8
0,154|t|>log(N)
-3

AIC dimotivasi oleh estimasi kesalahan generalisasi (seperti Mallow's CP, BIC, ...). Jika Anda menginginkan model untuk prediksi, lebih baik gunakan salah satu kriteria ini. Jika Anda ingin model Anda untuk menjelaskan suatu fenomena, gunakan nilai-p.

Lihat juga di sini .

JohnRos
sumber