Istilah varians dalam dekomposisi bias-varians dari regresi linier

Dalam 'The Elements of statistik Learning', ekspresi bias-variance dekomposisi linier model diberikan sebagai mana

E r r (x_{0}) = σ_{ϵ}^{2} + E [f (x_{0}) - E \hat{f} (x_{0})]^{2} + | | h (x_{0}) | |^{2} σ_{ϵ}^{2},

$Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,$

f (x_{0})

$f(x_0)$ adalah fungsi target yang sebenarnya,

adalah varian dari kesalahan acak dalam model

dan

adalah estimator linear dari

σ_{ϵ}^{2}

$\sigma_\epsilon^2$

y = f (x) + ϵ

$y=f(x)+\epsilon$

\hat{f} (x)

$\hat f(x)$

f (x)

$f(x)$

Istilah varians mengganggu saya di sini karena persamaan menyiratkan bahwa varians akan menjadi nol jika target tidak bersuara, yaitu, Tapi itu tidak masuk akal bagi saya karena bahkan dengan nol noise saya masih bisa mendapatkan perbedaan estimator untuk set pelatihan yang berbeda yang berarti varians adalah non-nol. $\sigma_\epsilon^2=0.$ $\hat f(x_0)$

Misalnya, anggap fungsi target adalah kuadratik dan data pelatihan berisi dua titik sampel secara acak dari kuadratik ini; jelas, saya akan mendapatkan kecocokan linear yang berbeda setiap kali saya mencicipi dua poin secara acak dari target kuadratik. Lalu bagaimana varians menjadi nol? $f(x_0)$

Adakah yang bisa membantu saya menemukan apa yang salah dalam pemahaman saya tentang dekomposisi bias-varians?

regression linear-model bias-variance-tradeoff Abhinav Gupta
sumber

Jawaban:

Selalu ada seluk-beluk mengintai dalam perawatan bias dan varians, dan penting untuk memperhatikannya saat belajar. Jika Anda membaca kembali beberapa kata pertama ESL di bagian dari bab itu, penulis harus memberikan penghormatan.

Diskusi estimasi tingkat kesalahan bisa membingungkan, karena kita harus memperjelas jumlah mana yang tetap dan mana yang acak

Kehalusan adalah apa yang diperbaiki, dan apa yang acak .

$X$ $y$ $X$ $Err(x_0)$ $Err(x_0 \mid X)$

Itu bukan untuk mengatakan bahwa kekhawatiran Anda tidak valid, memang benar bahwa pemilihan data pelatihan memang memperkenalkan keacakan dalam algoritma model kami, dan seorang praktisi yang rajin akan berusaha untuk mengukur efek keacakan ini pada hasil mereka. Bahkan, Anda dapat melihat dengan jelas bahwa praktik umum bootstrap dan validasi silang secara eksplisit memasukkan sumber-sumber keacakan ini ke dalam inferensi mereka.

$X$ $X$

Matthew Drury
sumber

X

$X$

Y | X

$Y|X$

(X, Y)

$(X,Y)$

E = E_{X} E_{Y | X}

$E=E_XE_{Y|X}$

V a r (\hat{f} (x_{0})) = E_{X} [| | h (x_{0}) | |^{2} σ_{ϵ}^{2}]

$Var(\hat f(x_0))=E_X[||h(x_0)||^2\sigma_\epsilon^2]$

σ_{ϵ}^{2}

$\sigma_\epsilon^2$

Dugaan saya ada bahwa penulis mengasumsikan model ditentukan dengan benar, yaitu mencakup semua dan hanya prediktor yang relevan dengan transformasi yang benar. Saya harus kembali ke buku alih-alih mengandalkan ingatan saya untuk mengonfirmasi.

Matthew Drury

Jika dengan 'ditentukan dengan benar' maksud Anda fungsi target memang linier maka saya mengerti bahwa nol noise akan menyiratkan bias nol. Tetapi ternyata bahkan jika fungsi target tidak linier, kami mendapatkan ekspresi yang sama persis untuk varians.

Abhinav Gupta

Memang benar, tetapi dalam kasus itu "ditentukan dengan benar" akan berarti bahwa Anda menggunakan regresi linier agar sesuai dengan model termasuk prediktor yang benar. Jadi jika hubungan yang sebenarnya adalah kuadratik, maka Anda akan mengasumsikan model Anda termasuk istilah kuadratik.

Matthew Drury