Apa keuntungan / kerugian menggunakan splines, splines yang dihaluskan, dan emulator proses gaussian?

20

Saya tertarik untuk belajar (dan mengimplementasikan) suatu alternatif interpolasi polinomial.

Namun, saya mengalami kesulitan menemukan deskripsi yang baik tentang bagaimana metode ini bekerja, bagaimana mereka berhubungan, dan bagaimana mereka membandingkan.

Saya akan menghargai masukan Anda tentang pro / kontra / kondisi di mana metode atau alternatif ini akan berguna, tetapi beberapa referensi yang bagus untuk teks, slide, atau podcast akan cukup.

David LeBauer
sumber
Ini memang pertanyaan yang sangat menarik, tapi mungkin (hanya mungkin) lebih cocok untuk math.stackexchange.com ?
steffen
Ada beberapa materi tentang splines dan spline smoothing dalam The Elements of Statistics Learning oleh Hastie et al.
NPE
8
Saya pikir ini adalah pertanyaan yang masuk akal tentang statistik perhitungan.
csgillespie
@csgillespie: Semua yang saya tahu tentang splines dan interpolasi yang saya pelajari dalam kuliah numerik / matematika. Karenanya saya mungkin sedikit bias;).
steffen

Jawaban:

24

Regresi OLS dasar adalah teknik yang sangat baik untuk menyesuaikan fungsi dengan sekumpulan data. Namun, regresi sederhana hanya cocok dengan garis lurus yang konstan untuk seluruh rentang . Ini mungkin tidak sesuai untuk situasi tertentu. Misalnya, data terkadang menunjukkan hubungan yang melengkung . Hal ini dapat diatasi dengan cara mengembalikan Y ke transformasi X , f ( X ) . Transformasi yang berbeda dimungkinkan. Dalam situasi di mana hubungan antara X dan Y adalah monoton , tetapi terus berkurang, log berubahXYXf(X)XYdapat digunakan. Pilihan populer lainnya adalah menggunakan polinomial di mana istilah baru dibentuk dengan menaikkan ke serangkaian kekuatan (misalnya, X 2 , X 3 , dll.). Strategi ini mudah diterapkan, dan Anda dapat mengartikan kecocokan tersebut dengan memberi tahu Anda berapa banyak 'tikungan' yang ada di data Anda (di mana jumlah tikungan sama dengan daya tertinggi yang dibutuhkan minus 1). XX2X3

Namun, regresi berdasarkan logaritma atau eksponen kovariat akan cocok secara optimal hanya ketika itu adalah sifat yang tepat dari hubungan yang sebenarnya. Sangat masuk akal untuk membayangkan bahwa ada hubungan lengkung antara dan Y yang berbeda dari kemungkinan yang mampu dihasilkan oleh transformasi. Jadi, kita sampai pada dua strategi lain. Pendekatan pertama adalah loess , serangkaian regresi linier tertimbang yang dihitung pada jendela bergerak. Pendekatan ini lebih tua, dan lebih cocok untuk analisis data eksplorasi . XY

Pendekatan lain adalah dengan menggunakan splines. Di itu sederhana, spline adalah istilah baru yang berlaku untuk hanya sebagian dari berbagai . Misalnya, X dapat berkisar dari 0 hingga 1, dan istilah spline mungkin hanya berkisar dari 0,7 hingga 1. Dalam hal ini, 0,7 adalah simpulnya . Sebuah sederhana, istilah spline linear akan dihitung seperti ini: X s p l i n e = { 0XX

Xshallsayane={0jika X.7X-.7jika X>.7

dan akan ditambahkan ke model Anda, selain istilah asli . Model pas akan menunjukkan penembusan tajam pada .7 dengan garis lurus dari 0 hingga .7, dan garis berlanjut dengan kemiringan berbeda dari .7 ke 1. Namun, suku spline tidak perlu linier. Secara khusus, telah ditentukan bahwa splines kubik sangat berguna (yaitu, X 3 s p l i n eXXshallsayane3). Istirahat yang tajam juga tidak perlu ada di sana. Algoritma telah dikembangkan yang membatasi parameter yang dipasang sedemikian rupa sehingga turunan pertama dan kedua cocok pada knot, yang membuat simpul tidak mungkin terdeteksi dalam output. Hasil akhir dari semua ini adalah bahwa dengan hanya beberapa simpul (biasanya 3-5) di lokasi pilihan (yang dapat ditentukan oleh perangkat lunak untuk Anda) dapat mereproduksi hampir semuamelengkung. Selain itu, derajat kebebasan dihitung dengan benar, sehingga Anda dapat mempercayai hasilnya, yang tidak benar ketika Anda melihat data Anda terlebih dahulu dan kemudian memutuskan untuk mencocokkan istilah kuadrat karena Anda melihat tikungan. Selain itu, semua ini hanyalah versi lain (walaupun lebih rumit) dari model linear dasar. Dengan demikian, semua yang kita dapatkan dengan model linier disertai dengan ini (misalnya, prediksi, residu, pita kepercayaan, tes, dll.) Ini adalah keuntungan besar .

Pengantar paling sederhana untuk topik-topik ini yang saya tahu adalah:

gung - Reinstate Monica
sumber
6

Catatan online Cosma Shalizi pada kuliahnya Analisis Data Lanjutan dari Sudut Pandang Dasar cukup baik dalam hal ini, melihat hal-hal dari perspektif di mana interpolasi dan regresi adalah dua pendekatan untuk masalah yang sama. Saya secara khusus menarik perhatian Anda pada bab-bab tentang metode smoothing dan splines .

Martin O'Leary
sumber
Tautan Anda dapat menggunakan pembaruan. Saya mencobanya, tetapi Anda harus memeriksa bahwa pengeditan yang saya usulkan mengenai halaman yang Anda maksud.
Gregor --reinstate Monica--