Kesalahan prediksi yang diharapkan - derivasi

20

Saya berjuang untuk memahami derivasi dari kesalahan prediksi yang diharapkan per bawah (ESL), terutama pada derivasi dari 2.11 dan 2.12 (mengkondisikan, langkah menuju titik minimum bijaksana). Setiap petunjuk atau tautan sangat dihargai.

Di bawah ini saya melaporkan kutipan dari ESL hal. 18. Dua persamaan pertama adalah, secara berurutan, persamaan 2.11 dan 2.12.


Misalkan menunjukkan vektor input acak bernilai nyata, dan variabel output acak bernilai nyata, dengan distribusi gabungan . Kami mencari fungsi untuk memprediksi nilai yang diberikan dari input . Teori ini membutuhkan fungsi kerugian untuk menghukum kesalahan dalam prediksi, dan sejauh ini yang paling umum dan nyaman adalah hilangnya kesalahan kuadrat : . Ini membawa kita ke kriteria untuk memilih ,XRp L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 fYRPr(X,Y)f(X)YX L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

kesalahan prediksi yang diharapkan (kuadrat). Dengan mengkondisikan , kita dapat menulis sebagai EPEX

EPE(f)=EXEY|X([Y-f(X)]2|X)

dan kami melihat bahwa itu sudah cukup untuk meminimalkan EPE point-wise:

f(x)=ArgmincEY|X([Y-c]2|X)

Solusinya adalah

f(x)=E(Y|X=x)

harapan bersyarat, juga dikenal sebagai fungsi regresi .

pengguna1885116
sumber
Mengganti dan dalam persamaan pertama dalam artikel Wikipedia tentang Hukum Total Ekspektasi memberikan persamaan (2,9) dan (2,11). Baca artikel itu untuk bukti. (2.12) bersifat langsung, dengan pengertian bahwa harus dipilih untuk meminimalkan EPE. Y fXYf
whuber
3
Catatan: Ini dari Elemen Pembelajaran Statistik
Zhubarb
2
Bagi mereka yang juga membaca buku ini, lihat catatan komprehensif ini oleh Weathermax dan Epstein
Dodgie
@Dodgie Tautan itu telah mati: (
Matthew Drury
2
@MatthewDrury Untungnya, googling "Statistik Weathermax dan Epstein" mengembalikan tautan sebagai hasil pertama;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/…
Dodgie

Jawaban:

16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)
pengguna48002
sumber
3
Saya mengerti apa yang Anda tulis, tetapi apakah Anda berpikir jika OP bingung dengan derivasi yang ditunjukkan dalam pertanyaan, bahwa dia akan memahami jawaban Anda? tentu saja, saya sudah mengerti derivasi yang ditunjukkan dalam pertanyaan.
Mark L. Stone
Saya tiba di sini dari google dengan pertanyaan yang sama dan benar-benar menemukan derivasi ini tepat seperti yang saya butuhkan.
Titik koma dan Duct Tape
1
@ MarkL.Stone - ini mungkin pertanyaan bodoh, tetapi bisakah Anda menjelaskan apa yang dimaksud dengan dan bagaimana itu menjadi p ( x , y ) d x d y ? Terima kasih banyakPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte
1
Yang dimaksud dengan yang pertama adalah yang terakhir. Saya pikir lebih umum menggunakan dP (x, y) atau dF (x, y). Dalam 1D, Anda akan sering melihat dF (x) berarti f (x) dx, di mana f (x) adalah fungsi kepadatan probabilitas, tetapi notasi juga dapat memungkinkan fungsi massa probabilitas diskrit (dalam penjumlahan) atau bahkan campuran dari kepadatan berkesinambungan dan massa probabilitas diskrit.
Mark L. Stone
Bukankah lebih tepat untuk mengatakan (rumus terakhir) ? EX(EY|X([Yf(X)]2|X=x))
D1X
11

Persamaan (2.11) adalah konsekuensi dari kesetaraan kecil berikut. Untuk dua variabel acak, dan Z 2 , dan fungsi apa saja gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

Notasi adalah harapan atas bersama distribusi. Notasi E Z 1Z 2 pada dasarnya mengatakan "berintegrasi dengan distribusi bersyarat Z 1 seolah-olah Z 2 diperbaiki".EZ1,Z2EZ1Z2Z1Z2

Sangat mudah untuk memverifikasi ini dalam kasus yang dan Z 2 adalah variabel acak diskrit dengan hanya unwinding definisi yang terlibatZ1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

Kasus kontinu dapat dilihat secara informal sebagai batasan argumen ini, atau secara formal diverifikasi setelah semua ukuran teori do-ayah ada di tempat.

Untuk melepas aplikasi, ambil , Z 2 = X , dan g ( x , y ) = ( y - f ( x ) ) 2 . Semuanya berbaris tepat.Z1=YZ2=Xg(x,y)=(y-f(x))2

Penegasan (2.12) meminta kami untuk mempertimbangkan meminimalkan

EXEYX(Y-f(X))2

di mana kita bebas memilih seperti yang kita inginkan. Sekali lagi, berfokus pada kasing diskrit, dan jatuh setengah ke atas di atas, kita melihat bahwa kita meminimalkanf

x(y(y-f(x))2Pr(Y=yX=x))Pr(X=x)

Segala sesuatu di dalam tanda kurung besar adalah non-negatif, dan Anda dapat meminimalkan jumlah jumlah non-negatif dengan meminimalkan puncak secara individual. Dalam konteks, ini berarti bahwa kita dapat memilih untuk meminimalkanf

y(y-f(x))2Pr(Y=yX=x)

secara individual untuk setiap nilai diskrit . Ini persis isi dari apa yang diklaim ESL, hanya dengan notasi yang lebih menarik.x

Matthew Drury
sumber
8

Saya menemukan beberapa bagian dalam buku ini diungkapkan dengan cara yang sulit dipahami, terutama bagi mereka yang tidak memiliki latar belakang yang kuat dalam statistik.

Saya akan mencoba membuatnya menjadi sederhana dan berharap Anda dapat menghilangkan kebingungan.

E(X)=E(E(X|Y)),X,Y

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

E(Yf(X))2E(YE(Y|X))2,f

E((Y-f(X))2|X)=E(([Y-E(Y|X)]+[E(Y|X)-f(X)])2|X)=E((Y-E(Y|X))2|X)+E((E(Y|X)-f(X))2|X)+2E((Y-E(Y|X))(E(Y|X)-f(X))|X)=E((Y-E(Y|X))2|X)+E((E(Y|X)-f(X))2|X)+2(E(Y|X)-f(X))E(Y-E(Y|X))|X)( sejak E(Y|X)-f(X) diberikan konstan X)=E((Y-E(Y|X))2|X)+E((E(Y|X)-f(X))2|X) (gunakan Klaim 1 )E((Y-E(Y|X))2|X)

Mengambil harapan kedua sisi persamaan di atas memberikan Klaim 2 (QED)

Oleh karena itu, f optimal adalah f(X)=E(Y|X)

Thanhtang
sumber