Saya telah menyesuaikan beberapa data deret waktu menggunakan model aditif umum Poisson menggunakan SAS PROC GAM
. Secara umum, saya sudah memiliki prosedur validasi silang internal yang terintegrasi menghasilkan setidaknya "titik awal" yang layak untuk spline tunggal saya, yang merupakan fungsi waktu non-linear bersama dengan istilah parametrik tunggal (yang saya sebenarnya tertarik).
Sejauh ini, ini bekerja dengan cukup baik, dengan pengecualian satu set data saya. Ada 132 pengamatan dalam kumpulan data itu, dan GCV menyarankan garis kebebasan 128 derajat. Sepertinya ... salah. Sangat salah. Lebih penting lagi, ini juga tidak stabil sama sekali. Saya mencoba pendekatan kedua, menggunakan sesuatu seperti kriteria "Perubahan Estimasi" untuk berhenti menambahkan derajat kebebasan ketika perkiraan istilah parametrik berhenti berubah karena mengapa terus menambahkan kontrol jika tidak ada yang berbeda?
Masalahnya adalah bahwa estimasi sama sekali tidak stabil. Saya mencoba tingkat kebebasan berikut, dan seperti yang Anda lihat, istilah parametrik memantul dengan liar:
DF: Parametric Estimate:
1 -0.76903
2 -0.56308
3 -0.47103
4 -0.43631
5 -0.33108
6 -0.1495
7 0.0743
8 0.33459
9 0.62413
10 0.92161
15 1.88763
20 1.98869
30 2.5223
40-60 had convergence issues
70 7.5497
80 7.22267
90 6.71618
100 5.83808
110 4.61436
128 1.32347
Saya tidak punya intuisi sama sekali tentang apa yang harus saya gunakan dalam hal df untuk bit data khusus ini. Ada ide lain tentang cara memilih df? Haruskah saya melihat pentingnya spline?
Melakukan beberapa pengamatan lebih lanjut antara df = 10 dan df = 15, sepertinya df = 12 adalah yang terdekat dengan perkiraan yang dihasilkan oleh 128 dan masih berada dalam kisaran "derajat kebebasan yang masuk akal". Seiring dengan istilah linear, intersep dan istilah parametrik tunggal, yang terasa seperti model yang sangat jenuh. Apakah dibenarkan hanya menggunakan 12?
Sebagai pembaruan kedua, mengubah smoothing dari spline(t)
menjadi loess(t)
menghasilkan estimasi df yang lebih baik - haruskah saya beralih ke loess smoothing?
sumber
Jawaban:
Wood (2011) juga mengilustrasikan bahwa AICc tidak memberikan banyak manfaat tambahan atas GCV untuk basis peringkat rendah hingga menengah yang digunakan untuk fungsi yang lancar.
Wood (2011) menjelaskan prosedur estimasi REML dan ML yang cepat dan stabil, yang ia tunjukkan membaik dibandingkan pendekatan REML (ML) yang ada dalam hal konvergensi. Ide-ide ini tersedia dalam Simon mgcv paket untuk R .
Karena Wood (2011) berada di belakang paywall, saya menyertakan salinan gambar yang serupa (hasil AICc tidak ditampilkan di sini) yang diambil dari serangkaian slide Simon, tersedia di situs webnya , tentang metode pemilihan kelancaran {PDF}. Angka, dari slide 10, ditunjukkan di bawah ini
Seperti yang disebutkan oleh @ M.Berk dan @BrendenDufault, tingkat subjektivitas mungkin diperlukan ketika menyiapkan basis spline, dalam hal memilih dimensi dasar yang sesuai yang cocok untuk GAM. Tetapi pemilihan kelancaran REML telah terbukti cukup kuat dalam pengalaman saya dalam berbagai aplikasi GAM menggunakan metode Wood.
Wood, SN (2011) Fast stable yang membatasi kemungkinan maksimum dan estimasi marginal likelihood dari model semiparametric generalisasi . J. Royal Statistics Society B 73 (Bagian 1), 3--6.
sumber
Saya pikir taruhan terbaik Anda berada di luar algoritma perataan; pertimbangkan model kekikiran.
Anda menyinggung ini, tapi saya percaya itu harus menjadi kriteria seleksi utama Anda. Tanyakan pada diri Anda berapa banyak "tikungan" yang masuk akal berdasarkan etiologi / hubungan sebab akibat dari proses yang dimodelkan. Buat grafik splines yang dipasang dengan
plots=components(clm)
pernyataan dan nilai visual yang sesuai. Mungkin splines DF tinggi menceritakan kisah yang sama dengan splines DF rendah, kecuali lebih berisik. Dalam hal itu, pilih kecocokan DF rendah.Lagipula, model-model GAM dimaksudkan untuk eksplorasi.
Setelah menggunakan opsi gcv sendiri, saya bertanya-tanya tentang kinerjanya dalam kondisi Poisson, data jarang, dll. Mungkin studi simulasi akan dilakukan di sini.
sumber
Saya mengetik jawaban berikut dan kemudian menyadari bahwa saya tidak tahu apakah itu berlaku untuk regresi Poisson yang saya tidak punya pengalaman dengannya. Mungkin orang bisa menjawabnya dengan beberapa komentar.
Secara pribadi, saya menyukai saran dari BW Silverman (1985) "Beberapa aspek dari pendekatan smoothing spline untuk penyesuaian kurva regresi non-parametrik (dengan diskusi)." (Tersedia tanpa berlangganan di sini ): coba berbagai parameter perataan dan pilih satu yang paling menarik secara visual.
Karena ia juga dengan tepat menunjukkan dalam makalah yang sama, sementara pendekatan subjektif mungkin lebih disukai, masih ada kebutuhan untuk metode otomatis. Namun, GCV umumnya merupakan pilihan yang buruk karena memiliki kecenderungan untuk gagal. Lihat, misalnya Hurvich et al (1998) "Menghaluskan Pemilihan Parameter dalam Regresi Nonparametrik Menggunakan Kriteria Informasi Akaike yang Ditingkatkan" (Tersedia tanpa berlangganan di sini ). Dalam makalah yang sama mereka mengusulkan kriteria baru yang dapat meringankan masalah Anda, AIC yang diperbaiki yang mencakup koreksi ukuran sampel kecil. Anda mungkin menemukan deskripsi Wikipedia tentang AICc lebih mudah diikuti daripada makalahnya. Artikel Wikipedia juga menyertakan beberapa saran bagus dari Burnham & Anderson (yaitu menggunakan AICc daripada AIC terlepas dari ukuran sampel).
Singkatnya, saran saya adalah, sesuai urutan preferensi:
sumber