Saya tidak memiliki contoh atau tugas tertentu dalam pikiran. Saya baru menggunakan b-splines dan saya ingin mendapatkan pemahaman yang lebih baik tentang fungsi ini dalam konteks regresi.
Mari kita asumsikan bahwa kita ingin menilai hubungan antara variabel respon dan beberapa prediktor x 1 , x 2 , . . . , x p . Prediktor tersebut mencakup beberapa variabel numerik serta beberapa variabel kategorikal.
Katakanlah setelah memasang model regresi, salah satu variabel numerik misalkan adalah signifikan. Langkah logis setelahnya adalah menilai apakah polinomial orde tinggi misalnya: x 2 1 dan x 3 1 diperlukan untuk menjelaskan hubungan secara memadai tanpa overfitting.
Pertanyaan saya adalah:
Pada titik apa Anda memilih antara b-splines atau polinomial orde tinggi sederhana. misalnya dalam R:
y ~ poly(x1,3) + x2 + x3
vs.
y ~ bs(x1,3) + x2 + x3
Bagaimana Anda dapat menggunakan plot untuk menginformasikan pilihan Anda di antara keduanya dan apa yang terjadi jika plot tersebut tidak benar-benar jelas (misalnya: karena sejumlah besar titik data)
Bagaimana Anda menilai istilah interaksi dua arah antara dan katakanlah x 3
Bagaimana perubahan di atas untuk berbagai jenis model
Apakah Anda mempertimbangkan untuk tidak pernah menggunakan polinomial orde tinggi dan selalu menyesuaikan b-splines dan menghukum fleksibilitas tinggi?
sumber
mgcv
itu, mengapa tidak menggunakan model aditif (umum). Pemilihan kelancaran bersifat otomatis, dan metode inferensial dikembangkan dengan baik.Jawaban:
Saya biasanya hanya mempertimbangkan splines daripada polinomial. Polinomial tidak dapat memodelkan ambang batas dan sering bersifat global, yaitu, pengamatan pada satu rentang prediktor memiliki pengaruh kuat pada apa yang dilakukan model pada rentang yang berbeda ( Magee, 1998, The American Statistician dan Regression Modeling Strategies Frank Harrell ). Dan tentu saja splines terbatas yang linier di luar simpul ekstrem lebih baik untuk ekstrapolasi, atau bahkan intrapolasi pada nilai ekstrem dari prediktor.
Satu kasus di mana Anda mungkin ingin mempertimbangkan polinomial adalah ketika penting untuk menjelaskan model Anda kepada khalayak nonteknis. Orang-orang memahami polinomial lebih baik daripada splines. (Sunting: Matthew Drury menunjukkan bahwa orang mungkin hanya berpikir mereka memahami polinomial lebih baik daripada splines. Saya tidak akan memihak pada pertanyaan ini.)
Plot seringkali tidak terlalu berguna dalam memutuskan antara cara-cara yang berbeda dalam berurusan dengan nonlinier. Lebih baik melakukan cross-validation. Ini juga akan membantu Anda menilai interaksi, atau menemukan hukuman yang baik.
Akhirnya, jawaban saya tidak berubah dengan jenis model, karena poin-poin di atas berlaku untuk model statistik atau ML.
sumber
Dalam bagian 7.4.5 dari "Elemen Pembelajaran Statistik", dikatakan bahwa splines sering memberikan hasil yang unggul daripada regresi polinomial, karena:
sumber