Mengapa kriteria informasi (tidak disesuaikan

9

Dalam model deret waktu, seperti ARMA-GARCH, untuk memilih jeda atau urutan model kriteria informasi yang berbeda, seperti AIC, BIC, SIC, dll.

Pertanyaan saya sangat sederhana, mengapa kami tidak menggunakan disesuaikan R2untuk memilih model yang sesuai? Kita bisa pilih model yang menyebabkan nilai yang lebih tinggi dari adjusted R2 . Karena baik disesuaikan R2dan kriteria informasi menghukum untuk sejumlah regressor tambahan dalam model, di mana mantan menghukum R2 dan kemudian menghukum nilai kemungkinan.

Neeraj
sumber
Saya mungkin kehilangan sesuatu dalam jawaban (di bawah) tetapi R-kuadrat serta Adjusted R-kuadrat sesuai untuk kelas yang relatif terbatas dari model estimasi OLS sedangkan AIC, BIC, dll., Sesuai untuk kelas yang lebih luas dari generalisasi linier model diperkirakan, mungkin, dengan ML atau varian.
Mike Hunter

Jawaban:

12

Saya berpendapat bahwa setidaknya ketika membahas model linier (seperti model AR), dan AIC yang disesuaikan tidak jauh berbeda.R2

Pertimbangkan pertanyaan apakah harus dimasukkan dalam y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ Ini sama dengan membandingkan model M 1X2

y=X1(n×K1)β1+X2(n×K2)β2+ϵ
di manaE(u|X1,X2)=0. Kami mengatakan bahwaM2adalahmodel sebenarnyajikaβ20. Perhatikan bahwaM1M2. Model demikianbersarang. Sebuah pemilihan model prosedur M
M1:y=X1β1+uM2:y=X1β1+X2β2+u,
E(u|X1,X2)=0M2β20M1M2M^ adalah aturan yang bergantung pada data yang memilih yang paling masuk akal dari beberapa model.

M^

limnP(M^=M1|M1)=1limnP(M^=M2|M2)=1

Pertimbangkan penyesuaian . Yaitu, pilih jika . Karena secara monoton menurun dalam , prosedur ini setara dengan meminimalkan . Pada gilirannya, ini sama dengan meminimalkan . Untuk cukup besar , yang terakhir dapat ditulis sebagai manaM 1 ˉ R 2 1 > ˉ R 2 2 ˉ R 2 s 2 s 2 log ( s 2 ) nR2M1R¯12>R¯22R¯2s2s2log(s2)n

log(s2)=log(σ^2nnK)=log(σ^2)+log(1+KnK)log(σ^2)+KnKlog(σ^2)+Kn,
σ^2adalah estimator ML dari varian kesalahan. Pemilihan model berdasarkan oleh karena itu asimptotik setara dengan memilih model dengan terkecil . Prosedur ini tidak konsisten.R¯2log(σ^2)+K/n

Proposisi :

limnP(R¯12>R¯22|M1)<1

Bukti : mana baris ke-2 mengikuti karena statistik adalah statistik LR dalam kasus regresi linier yang mengikuti asimtotik distribusi nol. QED

P(R¯12>R¯22|M1)P(log(s12)<log(s22)|M1)=P(nlog(s12)<nlog(s22)|M1)P(nlog(σ^12)+K1<nlog(σ^22)+K1+K2|M1)=P(n[log(σ^12)log(σ^22)]<K2|M1)P(χK22<K2)<1,
χK22

Sekarang pertimbangkan kriteria Akaike, Dengan demikian, AIC juga memperdagangkan pengurangan SSR yang tersirat oleh regressor tambahan terhadap "hukuman jangka" , "yang menunjuk ke arah yang berlawanan. Jadi, pilih jika , kalau tidak pilih .

AIC=log(σ^2)+2Kn
M1AIC1<AIC2M2

Dapat dilihat bahwa juga tidak konsisten dengan melanjutkan bukti di atas pada baris tiga dengan . disesuaikan dan dengan demikian memilih model "besar" dengan probabilitas positif, bahkan jika adalah model yang sebenarnya.AICP(nlog(σ^12)+2K1<nlog(σ^22)+2(K1+K2)|M1)R2AICM2M1

Karena penalti untuk kompleksitas dalam AIC sedikit lebih besar daripada untuk disesuaikan , mungkin akan lebih rentan untuk melakukan overselect. Dan itu memiliki properti bagus lainnya (meminimalkan perbedaan KL ke model yang benar jika itu tidak dalam set model yang dipertimbangkan) yang tidak dibahas dalam posting saya.R2

Christoph Hanck
sumber
1
Jawaban bagus: tidak terlalu berat tetapi masih tepat! Jika sudah ada kemarin, saya tidak akan memposting milik saya.
Richard Hardy
Bagaimana dengan kasus ARMA-GARCH? Bagaimana lakukan saat memilih istilah amung MA dan GARCH? Radj2
Zachary Blumenfeld
Saya tidak akan berani mengatakannya. Ketika Anda menjelaskan itu bahkan tidak jelas apa artinya R2 untuk kesesuaian model seperti itu.
Christoph Hanck
5

Hukuman dalam tidak menghasilkan properti bagus dalam hal pemilihan model seperti yang dimiliki oleh AIC atau BIC. Hukuman dalam sudah cukup untuk membuat sebagai penaksir yang tidak bias dari populasi ketika tak satu pun dari para regressor yang benar-benar termasuk dalam model (sesuai posting blog Dave Giles ' "In What Sense Apakah "Disesuaikan" R-Squared Tidak Cocok? " dan " Lebih lanjut tentang Properti dari "Disesuaikan" Koefisien Determinasi " ); Namun, bukan pemilih model yang optimal. R 2 a d j R 2 a d j R 2 R 2 a d jRadj2Radj2Radj2R2Radj2

(Mungkin ada bukti berdasarkan kontradiksi: jika AIC optimal dalam satu hal dan BIC optimal dalam hal lain, dan tidak setara dengan keduanya, maka tidak optimal di kedua dari dua indera ini.) R 2 a d jRadj2Radj2

Richard Hardy
sumber
Berapa banyak parameter GARCH yang harus saya tambahkan sebelum meningkat? :) .... Saya percaya argumen serupa dapat dibuat untuk asumsi kesalahan berkorelasi (seperti dalam model MA), model GLS tidak mengurangi jumlah residu kuadrat atas kuadrat terkecil biasa. Dalam MA dan GARCH, parameter (bukan variabel penjelas, yang disesuaikan dengan ) ditambahkan ke model. Parameter MA dan GARCH tidak ditambahkan untuk mengurangi , melainkan ditambahkan kembali untuk meningkatkan kemungkinan dan / atau mengurangi jumlah residu kuadrat tertimbang untuk mencerminkan kurangnya istilah kesalahan awal. R 2 a d j S S RR2R2adjSSR
Zachary Blumenfeld
Apakah ini benar-benar membahas posting asli atau jawaban saya? Bagaimanapun, saya setuju dengan poin Anda.
Richard Hardy
Apa yang saya coba tunjukkan adalah bahwa tidak dapat benar-benar digunakan untuk memilih komponen GARCH (dan mungkin juga komponen MA) karena didasarkan pada fraksi dibandingkan yang merupakan penduga yang bias. varians ketika istilah kesalahan tidak iid. (Ini hanya kasus tertentu dari bias yang Anda bicarakan). Dalam kasus ARMA-GARCH, Anda tidak akan pernah memilih model dengan komponen GARCH, bahkan jika ada volatilitas stokastik dalam data, karena tidak meningkatkan . Pada dasarnya, saya setuju dengan Anda dengan mencoba memberikan contoh spesifik. S S T - S S R S S T R 2Radj2SSTSSRSSTR2
Zachary Blumenfeld