Saya sedang mengerjakan model biaya prediksi di mana usia pasien (kuantitas bilangan bulat yang diukur dalam tahun) adalah salah satu variabel prediktor. Hubungan nonlinear yang kuat antara usia dan risiko rawat inap jelas:
Saya sedang mempertimbangkan penghalusan regresi penghalusan hukuman untuk usia pasien. Menurut The Elements of Statistics Learning (Hastie et al, 2009, hal.151), penempatan simpul yang optimal adalah satu simpul per nilai unik dari usia anggota.
Mengingat bahwa saya mempertahankan usia sebagai bilangan bulat, apakah spline penghalusan setara dengan menjalankan regresi ridge atau laso dengan 101 variabel indikator usia yang berbeda, satu nilai per usia ditemukan dalam dataset (minus satu untuk referensi)? Parameterisasi berlebihan kemudian dihindari karena koefisien pada setiap indikator usia menyusut mendekati nol.
Jawaban:
Pertanyaan yang bagus Saya percaya bahwa jawaban untuk pertanyaan yang Anda ajukan - "adalah spline smoothing yang dihukum setara dengan menjalankan regresi ridge atau laso" - adalah ya. Ada sejumlah sumber di luar sana yang dapat memberikan komentar & perspektif. Satu tempat yang mungkin ingin Anda mulai adalah tautan PDF ini . Seperti dicatat dalam catatan:
"Menyesuaikan model spline smoothing sama dengan melakukan bentuk regresi ridge sebagai dasar untuk splines alami."
Jika Anda mencari beberapa bacaan umum, Anda mungkin menikmati memeriksa makalah yang luar biasa ini tentang Penalized Regressions: The Bridge Versus the Lasso . Ini mungkin membantu menjawab pertanyaan apakah spline penghalusan yang dihukum sama persis - meskipun memberikan perspektif yang lebih umum. Saya merasa menarik karena mereka membandingkan teknik yang berbeda satu sama lain, khususnya model regresi jembatan baru dengan LASSO, serta Ridge Regression.
sumber
Saya tidak yakin Anda benar-benar menginginkan begitu banyak simpul, mengingat alurnya.
Sepertinya Anda mungkin memiliki beberapa sampel kecil pada usia tertentu; puncak pada 74 dan nilai 0 pada rendah dan tinggi tidak masuk akal.
Dengan otoritas sumber situs Anda, mungkin Anda ingin membatasi splines kubik, dengan jumlah simpul yang jauh lebih kecil?
sumber
Saya terlambat ke diskusi ini, tetapi lihat pada bagan data ... bahwa spikeyness yang tampak dalam data di atas usia 70 bukanlah cerminan sejati dari risiko yang berkaitan dengan usia, itu adalah gejala dari data yang jarang dan beberapa keacakan.
Anda tidak ingin memodelkan bahwa menggunakan satu-simpul-per-tahun, yang pasti akan menyebabkan kebisingan yang berlebihan.
Juga, Anda akan menemukan pola yang sangat berbeda jika Anda melihat wanita vs pria. Sebagian besar puncak dalam kisaran usia 15-30 akan menjadi Kebidanan.
sumber