Seleksi k knot dalam regresi smoothing spline yang setara dengan variabel k?

9

Saya sedang mengerjakan model biaya prediksi di mana usia pasien (kuantitas bilangan bulat yang diukur dalam tahun) adalah salah satu variabel prediktor. Hubungan nonlinear yang kuat antara usia dan risiko rawat inap jelas:

masukkan deskripsi gambar di sini

Saya sedang mempertimbangkan penghalusan regresi penghalusan hukuman untuk usia pasien. Menurut The Elements of Statistics Learning (Hastie et al, 2009, hal.151), penempatan simpul yang optimal adalah satu simpul per nilai unik dari usia anggota.

Mengingat bahwa saya mempertahankan usia sebagai bilangan bulat, apakah spline penghalusan setara dengan menjalankan regresi ridge atau laso dengan 101 variabel indikator usia yang berbeda, satu nilai per usia ditemukan dalam dataset (minus satu untuk referensi)? Parameterisasi berlebihan kemudian dihindari karena koefisien pada setiap indikator usia menyusut mendekati nol.

RobertF
sumber
Proposal indikator-usia + susut Anda pada dasarnya adalah hal yang sama dengan spline pesanan yang
mulus
Akan sangat membantu jika Anda menentukan variabel prediktif lainnya, seperti yang disarankan oleh salah satu jawaban, jika Anda mengontrol alasan penerimaan Anda mungkin memiliki grafik yang sangat berbeda.
seanv507

Jawaban:

11

Pertanyaan yang bagus Saya percaya bahwa jawaban untuk pertanyaan yang Anda ajukan - "adalah spline smoothing yang dihukum setara dengan menjalankan regresi ridge atau laso" - adalah ya. Ada sejumlah sumber di luar sana yang dapat memberikan komentar & perspektif. Satu tempat yang mungkin ingin Anda mulai adalah tautan PDF ini . Seperti dicatat dalam catatan:

"Menyesuaikan model spline smoothing sama dengan melakukan bentuk regresi ridge sebagai dasar untuk splines alami."

Jika Anda mencari beberapa bacaan umum, Anda mungkin menikmati memeriksa makalah yang luar biasa ini tentang Penalized Regressions: The Bridge Versus the Lasso . Ini mungkin membantu menjawab pertanyaan apakah spline penghalusan yang dihukum sama persis - meskipun memberikan perspektif yang lebih umum. Saya merasa menarik karena mereka membandingkan teknik yang berbeda satu sama lain, khususnya model regresi jembatan baru dengan LASSO, serta Ridge Regression.

L=(yf)TW(yf)+λcTΣcc(XTWX+λΣ)c=XTWy

Nathaniel Payne
sumber
Jangan khawatir @RobertF. Selamat sore.
Nathaniel Payne
1
Tautan ke tautan PDF dalam paragraf 1 rusak.
Jthorpe
3

Saya tidak yakin Anda benar-benar menginginkan begitu banyak simpul, mengingat alurnya.

Sepertinya Anda mungkin memiliki beberapa sampel kecil pada usia tertentu; puncak pada 74 dan nilai 0 pada rendah dan tinggi tidak masuk akal.

Dengan otoritas sumber situs Anda, mungkin Anda ingin membatasi splines kubik, dengan jumlah simpul yang jauh lebih kecil?

Peter Flom
sumber
1
Terima kasih Peter - ya, obs jarang digunakan untuk orang yang sangat muda dan tua. Dengan menggunakan begitu banyak simpul yang tampaknya berlawanan dengan intuisi, saya melakukan dua kali pengambilan mental ketika pertama kali membaca di ESL yang menempatkan simpul pada setiap pengamatan meminimalkan jumlah sisa kotak. Saya kira buktinya ada di puding apakah spline kubik terbatas atau spline smoothing dihukum bekerja lebih baik dalam memprediksi variabel respons saya dalam dataset uji.
RobertF
0

Saya terlambat ke diskusi ini, tetapi lihat pada bagan data ... bahwa spikeyness yang tampak dalam data di atas usia 70 bukanlah cerminan sejati dari risiko yang berkaitan dengan usia, itu adalah gejala dari data yang jarang dan beberapa keacakan.

Anda tidak ingin memodelkan bahwa menggunakan satu-simpul-per-tahun, yang pasti akan menyebabkan kebisingan yang berlebihan.

Juga, Anda akan menemukan pola yang sangat berbeda jika Anda melihat wanita vs pria. Sebagian besar puncak dalam kisaran usia 15-30 akan menjadi Kebidanan.

Doug Dame
sumber
Hai Doug - Benar, pengamatan pasti lebih sedikit di atas usia 70 tahun. Model hukuman satu tahun per simpul mungkin akan menjatuhkan 70+ koefisien ke nol. Tujuannya di sini adalah untuk mengganti pemilihan manual penempatan simpul dengan proses otomatis yang paling cocok dengan hubungan nonlinear antara usia dan penerimaan IP, terutama berguna dalam model prediksi.
RobertF