Interpretasi probabilistik dari Thin Plate Smoothing Splines

TLDR: Apakah splines regresi plat tipis memiliki interpretasi probabilistik / Bayesian?

Pasangan input-output yang diberikan , ; Saya ingin memperkirakan fungsi sebagai berikut mana adalah fungsi kernel dan adalah vektor fitur dengan ukuran . Koefisien dan dapat ditemukan dengan menyelesaikan mana baris diberikan oleh $(x_i,y_i)$ $i=1,...,n$ $f(\cdot)$

f (x) \approx u (x) = ϕ (x i) T β + \sum i = 1 n α i k (x, x i),

$\begin{equation}f(x)\approx u(x)=\phi(x_i)^T\beta +\sum_{i=1}^n \alpha_i k(x,x_i),\end{equation}$

k(⋅,⋅) $k(\cdot,\cdot)$

ϕ(xi) $\phi(x_i)$

m<n $m<n$

αi $\alpha_i$

βi $\beta_i$

min α \in R n, β \in R m 1 n ∥ Y - Φ β - K α ∥ 2 R n + λ α T K α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n},\beta \in R^{m}}{\frac {1}{n}}\|Y-\Phi\beta -K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}$

Φ $\Phi$

ϕ(xi)T $\phi(x_i)^T$ dan, dengan beberapa penyalahgunaan notasi, entri

i,j $i,j$ dari matriks kernel

K $K$ adalah

k(xi,xj) $k(x_{i},x_{j})$ . Ini memberi

α * = λ - 1 (I + λ - 1 K) - 1 (Y - Φ β *)

$\begin{equation} \alpha^*=\lambda^{-1}(I+\lambda^{-1}K)^{-1}(Y-\Phi\beta^*) \end{equation}$

β * = {Φ T (I + λ - 1 K) - 1 Φ} - 1 Φ T (I + λ - 1 K) - 1 Y .

$\begin{equation} \beta^*=\{\Phi^T(I+\lambda^{-1}K)^{-1}\Phi\}^{-1}\Phi^T(I+\lambda^{-1}K)^{-1}Y. \end{equation}$ Dengan asumsi bahwa

k(⋅,⋅) $k(\cdot,\cdot)$ adalah fungsi kernel pasti positif, solusi ini dapat dilihat sebagai Prediktor Linier Tidak Linier Terbaik untuk model Bayesian berikut:

y | (β, h (\cdot)) \sim N (ϕ (x) β + h (x), σ 2),

$\begin{equation} y~\vert~(\beta,h(\cdot))~\sim~N(\phi(x)\beta+h(x),\sigma^2), \end{equation}$

h (\cdot) \sim G P (0, τ k (\cdot, \cdot)),

$\begin{equation} h(\cdot)~\sim~GP(0,\tau k(\cdot,\cdot)), \end{equation}$

β \propto 1,

$\begin{equation} \beta\propto1, \end{equation}$ di mana

σ2/τ=λ $\sigma^2/\tau=\lambda$ dan

GP $GP$ menunjukkan proses Gaussian. Lihat misalnya https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2665800/

Pertanyaan saya adalah sebagai berikut. Misalkan saya membiarkan $k(x,x'):=|x-x'|^2 \ln(|x-x'|)$ dan $\phi(x)^T=(1,x)$ , yaitu spline pelat tipis regresi. Sekarang, $k(\cdot,\cdot)$ bukan fungsi semidefinite positif dan interpretasi di atas tidak berfungsi. Apakah model di atas dan solusinya masih memiliki interpretasi probabilistik untuk kasus $k(\cdot,\cdot)$ adalah semidefinite positif?

regression bayesian gaussian-process smoothing semiparametric MthQ
sumber

Anda tampaknya menganggap berada dalam ruang dimensional dengan atau setidaknya bilangan bulat adalah genap.

x $x$

d $d$

d=2 $d=2$

d $d$

Yves

Ok, jadi apa implikasinya?

MthQ

Ini hanya komentar sampingan karena dalam pertanyaan orang mungkin berpikir bahwa adalah skalar. Tetapi dalam kasus ini kernel Duchon memiliki bentuk dengan integer, dan untuk spline smoothing yang biasa. Saya berpikir bahwa interpretasi probabilistik tetap hampir tidak berubah tetapi GP adalah non-stasioner: ini adalah Fungsi Acak Intrinsik . Untuk spline smoothing biasa, ini ternyata menjadi proses Wiener terintegrasi.

xi $x_i$

|x−x′|2m−1 $|x - x'|^{2m-1}$

m $m$

m=2 $m=2$

Yves

@Ya itu terdengar menarik. Anda mungkin ingin memperluas komentar Anda menjadi sebuah jawaban, menjelaskan sedikit lebih banyak apa fungsi acak intrinsik itu, dan menambahkan contoh klasik dari spline smoothing. Jika Anda khawatir untuk membuktikan bahwa kernel TPS memunculkan GP non-stasioner, mungkin sebuah simulasi bisa menjadi kompromi yang berguna, terutama jika Anda menambahkan estimasi non parametrik dari varian dari distribusi prediksi posterior.

DeltaIV

@DeltaIV. Terima kasih. Saya akan mencoba melakukannya, bukan tugas yang mudah. Saya cukup yakin ini berlaku ketika fungsi adalah polinomial yang cocok terkait dengan kernel, tetapi ini mungkin tidak lagi benar dengan arbitrary seperti dalam konteks GP yang lebih klasik.

ϕj $\phi_j$

Yves

Biarkan model pertanyaan ditulis sebagai mana adalah GP yang tidak teramati dengan indeks dan adalah istilah kebisingan normal dengan varians . GP biasanya diasumsikan berpusat, stasioner dan non-deterministik. Perhatikan bahwa istilah dapat dianggap sebagai GP (deterministik) dengan kernel mana

Y i = ϕ (x i) ⊤ β + h (x i) + ε i (1)

$\begin{equation} \tag{1} Y_i = \boldsymbol{\phi}(\mathbf{x}_i)^\top\boldsymbol{\beta} + h(\mathbf{x}_i) + \varepsilon_i \end{equation}$

h(x) $h(\mathbf{x})$

x∈Rd $\mathbf{x} \in \mathbb{R}^d$

εi $\varepsilon_i$

σ2 $\sigma^2$

ϕ(x)⊤β $\boldsymbol{\phi}(\mathbf{x})^\top \boldsymbol{\beta}$

ϕ(x)⊤Bϕ(x) $\boldsymbol{\phi}(\mathbf{x})^\top \mathbf{B}\, \boldsymbol{\phi}(\mathbf{x})$

B $\mathbf{B}$ adalah matriks kovarians yang bernilai tak terbatas. Memang, dengan mengambil dengan kita mendapatkan persamaan kriging dari pertanyaan. Ini sering dinamai difuse prior untuk . Posterior yang tepat untuk hanya dihasilkan ketika matriks memiliki peringkat penuh. Jadi model menulis dan mana adalah GP . Interpretasi Bayes yang sama dapat digunakan dengan pembatasan ketika bukan lagi GP tetapi merupakan

B:=ρI $\mathbf{B} := \rho \, \mathbf{I}$

ρ→∞ $\rho \to \infty$

β $\boldsymbol{\beta}$

Φ $\boldsymbol{\Phi}$

Y i = ζ (x i) + ε i (2)

$\begin{equation} \tag{2} Y_i = \zeta(\mathbf{x}_i) + \varepsilon_i \end{equation}$

ζ(x) $\zeta(\mathbf{x})$

ζ(x) $\zeta(\mathbf{x})$ Fungsi Acak Intrinsik (IRF). Derivasi dapat ditemukan dalam buku G. Wahba. Presentasi yang dapat dibaca dari konsep IRF misalnya dalam buku oleh N. Cressie dan artikel oleh Mardia et al yang dikutip di bawah ini. IRF mirip dengan proses terintegrasi yang terkenal dalam konteks waktu diskrit (seperti ARIMA): IRF ditransformasikan menjadi GP klasik dengan semacam operasi yang membedakan.

Berikut adalah dua contoh IRF untuk . Pertama, pertimbangkan proses Wiener dengan kondisi awalnya diganti dengan kondisi awal difus : normal dengan varian tak terbatas. Setelah nilai diketahui, IRF dapat diprediksi seperti halnya Wiener GP. Kedua, pertimbangkan proses Wiener terintegrasi yang diberikan oleh persamaan mana adalah proses Wiener. Untuk mendapatkan GP kita sekarang membutuhkan dua parameter skalar: dua nilai dan untuk $d=1$ $\zeta(x)$ $\zeta(0) = 0$ $\zeta(0)$ $\zeta(x)$

d 2 ζ (x) / d x 2 = d W (x) / d x

$\text{d}^2 \zeta(x) / \text{d}x^2 = \text{d} W(x)/\text{d}x$

W(x) $W(x)$

ζ(x) $\zeta(x)$

ζ(x′) $\zeta(x')$

x≠x′ $x \neq x'$ , atau nilai dan pada beberapa dipilih . Kami dapat mempertimbangkan bahwa dua parameter tambahan adalah Gaussian bersama dengan matriks kovarians tanpa batas . Dalam kedua contoh, segera setelah serangkaian pengamatan terbatas yang sesuai tersedia, IRF hampir diatasi dengan GP. Selain itu kami menggunakan operator diferensial: dan masing-masing. Nullspace adalah ruang linear dari fungsi sedemikian rupa sehingga . Ini berisi fungsi konstan

ζ(x) $\zeta(x)$

dζ(x)/dx $\text{d}\zeta(x) / \text{d}x$

x $x$

2×2 $2 \times 2$

L:=d/dx $L := \text{d}/ \text{d}x$

L:=d2/dx2 $L := \text{d}^2/ \text{d}x^2$

F $\mathcal{F}$

ϕ(x) $\phi(x)$

Lϕ=0 $L \phi = 0$

ϕ1(x)=1 $\phi_1(x)=1$ dalam kasus pertama dan fungsi dan dalam kasus kedua. Perhatikan bahwa dalam contoh pertama adalah GP untuk setiap perbaikan dalam contoh pertama dan demikian pula adalah dokter umum dalam kasus kedua.

ϕ1(x)=1 $\phi_1(x)=1$

ϕ2(x)=x $\phi_2(x) = x$

ζ(x)−ζ(x+δ) $\zeta(x) - \zeta(x + \delta)$

δ $\delta$

ζ(x−δ)−2ζ(x)+ζ(x+δ) $\zeta(x-\delta) - 2 \zeta(x) + \zeta(x + \delta)$

Untuk dimensi umum , pertimbangkan spasi linear dari fungsi yang didefinisikan pada . Kami menyebut kenaikan relatif ke koleksi terbatas lokasi dan bobot nyata sedemikian rupa sehingga Anggap sebagai ruang kosong dari contoh kita. Sebagai contoh pertama kita dapat mengambil contoh dengan dan sewenang-wenang dan $d$ $\mathcal{F}$ $\mathbb{R}^d$ $\mathcal{F}$ $s$ $\mathbf{x}_i \in \mathbb{R}^d$ $s$ $\nu_i$

\sum i = 1 s ν i ϕ (x i) = 0 for all ϕ \in F .

$\sum_{i=1}^s \, \nu_i \,\phi(\mathbf{x}_i) = 0 \text{ for all } \phi \in \mathcal{F}.$

F $\mathcal{F}$

s=2 $s=2$

x1 $x_1$

x2 $x_2$

[1,−1] $[1, \, -1]$ . Untuk contoh kedua kita dapat mengambil dengan spasi dan dengan spasi yang sama . Definisi IRF melibatkan ruang fungsi dan fungsi yang merupakan kondisional positif wrt , yang berarti bahwa bertahan segera setelah adalah kenaikan bertahap . Dari dan

s=3 $s = 3$

xi $x_i$

ν=[1,−2,1] $\boldsymbol{\nu} = [1,\,-2,\,1]$

F $\mathcal{F}$

g(x,x′) $g(\mathbf{x}, \, \mathbf{x}')$

F $\mathcal{F}$

\sum i = 1 s \sum j = 1 s ν i ν j g (x i, x' j) \geq 0

$\sum_{i=1}^s \sum_{j=1}^s \nu_i \nu_j \, g(\mathbf{x}_i, \, \mathbf{x}'_j) \geq 0$

[νi,xi]si=1 $[\nu_i,\,\mathbf{x}_i]_{i=1}^s$

F $\mathcal{F}$

g(x,x′) $g(\mathbf{x},\,\mathbf{x}')$ kita dapat membuat kernel kovarians karenanya GP seperti pada Mardia et al. Kita dapat mulai dari operator diferensial linier dan menggunakan nullspace sebagai ; IRF kemudian akan memiliki koneksi dengan persamaan a Gaussian noise.

L $L$

F $\mathcal{F}$

Lζ= $L \zeta =$

Perhitungan prediksi IRF hampir sama dengan dalam pertanyaan, dengan digantikan oleh , tetapi dengan sekarang membentuk dasar . Batasan ekstra harus ditambahkan dalam masalah optimisasi, yang akan memberikan bahwa . Kita masih dapat menambahkan fungsi-fungsi basis lainnya yang tidak ada di jika diperlukan; ini akan memiliki efek menambahkan GP deterministik, katakan ke IRF $k(\mathbf{x},\,\mathbf{x}')$ $g(\mathbf{x},\,\mathbf{x}')$ $\phi_i(\mathbf{x})$ $\mathcal{F}$ $\boldsymbol{\Phi}^\top \boldsymbol{\alpha} = \mathbf{0}$ $\boldsymbol{\alpha}^\top \mathbf{K} \boldsymbol{\alpha} \geq 0$ $\mathcal{F}$ $\boldsymbol{\psi}(\mathbf{x})^\top\boldsymbol{\gamma}$ $\zeta(\mathbf{x})$ di (2).

Spline pelat tipis bergantung pada bilangan bulat sehingga , ruang berisi polinomial dengan derajat rendah, dengan dimensi tergantung pada dan . Dapat ditunjukkan bahwa jika adalah fungsi berikut untuk lalu mendefinisikan wrt positif bersyarat positif . Konstruksi berhubungan dengan operator diferensial $m$ $m> 2d$ $\mathcal{F}$ $p(m)$ $m$ $d$ $E(r)$ $r \geq 0$

$E(r) := \begin{cases} (-1)^{m + 1 + d /2} \, r^{2m-d} \log r & d \text{ even},\\ r^{2m-d} & d \text{ odd,} \end{cases}$

$g(\mathbf{x},\,\mathbf{x}') := E(\|\mathbf{x} - \mathbf{x}'\|)$

$\mathcal{F}$

$L$ . Ternyata untuk dan spline plat tipis tidak lebih dari spline kubik alami yang biasa, yang berhubungan dengan contoh Wiener terintegrasi di atas, dengan . Jadi (2) tidak lebih dari model spline smoothing biasa. Ketika dan nullspace memiliki dimensi dan dihasilkan oleh fungsi , dan .

$d=1$

$m=2$

$g(x,\,x') = |x - x'|^3$

$d=2$

$m=2$

$p(m)=3$

$1$

$x_1$

$x_2$

Cressie N Statistik untuk Data Spasial . Wiley 1993.

Mardia KV, Kent JT, Goodall CR dan Little JA. Kriging dan splines dengan informasi derivatif. Biometrika (1996), 83,1, hlm. 207-221.

Model Wahba G Spline untuk Data Observasional . SIAM 1990.

Wang, Y Smoothing Splines, Metode dan Aplikasi . Chapman and Hall, 2011.

Yves
sumber

Terima kasih banyak atas upaya yang Anda lakukan. Sangat bermanfaat. Saya punya satu pertanyaan tambahan. Jadi menambahkan fungsi basis tambahan ke (di atas fungsi dasar ) tidak mengubah interpretasi dari . Namun, yang saya perhatikan adalah bahwa solusi diberikan dalam pertanyaan saya di atas, selalu memuaskan , tidak hanya jika . Bagaimana ini bisa ditafsirkan?

$\boldsymbol{\phi}(\cdot)$

$\mathcal{F}$

$\zeta(\cdot)$

$\alpha^*$

$\boldsymbol{\Phi}^\top \boldsymbol{\alpha} = \mathbf{0}$

$\boldsymbol{\phi}(\cdot)\in \mathcal{F}$

MthQ

Iya. Dalam kedua kasus ada fungsi dasar dalam pendekatan , sementara hanya pengamatan yang digunakan. Jadi kami memiliki sesuatu seperti regresi peringkat-kurang dengan koefisien dan . Karena bagian tidak dihukum, itu cenderung 'menyerap' lebih banyak variasi daripada bagian yang membawa kendala linear . Perhatikan bahwa tidak ada yang melarang penggunaan beberapa fungsi "kernel shifts" sebagai . Jika kita menggunakan semuanya maka semua bintang

$n+p$

$f(x)$

$n$

$\beta_i$

$\alpha_j$

$\beta$

$y$

$\alpha$

$p$

$n$

$x \mapsto k(x, x_i)$

$\phi_j(x)$

$\alpha_j^\star$ adalah nol, yang tampaknya masuk akal.

Yves

Interpretasi probabilistik dari Thin Plate Smoothing Splines

Jawaban: