Memahami derivasi tradeoff varians

20

Saya membaca bab bias-varians dari unsur-unsur pembelajaran statistik dan saya ragu dalam rumus di halaman 29. Biarkan data muncul dari model sehingga

Y=f(x)+ϵ
mana adalah bilangan acak dengan nilai yang diharapkan dan Variance . Biarkan nilai kesalahan model yang diharapkan adalah mana adalah prediksi dari pelajar kita. Menurut buku itu, kesalahannya adalah ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y - f k ( x ) ) 2 ]ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Pertanyaan saya adalah mengapa istilah bias bukan 0? mengembangkan rumus kesalahan yang saya lihat

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

sebagai adalah angka acak independen2 E [ ( f ( x ) - f k ( x ) ) ϵ ] = 2 E [ ( f ( x ) - f k ( x ) ) ] E [ ϵ ] = 0ϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Dimana saya salah?

emanuele
sumber

Jawaban:

20

Anda tidak salah, tetapi Anda membuat kesalahan dalam satu langkah sejak . adalah .E [ ( f ( x ) - f k ( x ) ) 2 ] MSE ( f k ( x )) ) = V a r ( f k ( x )E[(f(x)-fk(x))2]VSebuahr(fk(x))E[(f(x)-fk(x))2]MSE(fk(x))=Var(fk(x))+Bias2(fk(x))

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Catatan:E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.

Greenparker
sumber
Dalam hal hasil biner, Apakah ada bukti setara dengan cross entropy sebagai ukuran kesalahan?
emanuele
1
Itu tidak bekerja dengan sangat baik dengan respons biner. Lihat Kel 7.2 di edisi kedua "Elemen Pembelajaran Statistik".
Matthew Drury
3
dapatkah Anda menjelaskan bagaimana Anda beralih dari ke ? V a r ( f kE[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Antoine
16

Beberapa langkah lagi dari dekomposisi Bias - Variance

Memang, derivasi lengkap jarang diberikan dalam buku teks karena melibatkan banyak aljabar yang tidak menarik. Berikut adalah derivasi yang lebih lengkap menggunakan notasi dari buku "Elemen Pembelajaran Statistik" di halaman 223


Jika kita mengasumsikan bahwa dan dan maka kita dapat memperoleh ekspresi untuk kesalahan prediksi yang diharapkan dari kecocokan regresi pada input menggunakan squared error lossY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f ( X ) X = x 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Untuk kesederhanaan notasi, biarkan , dan ingat bahwa danf^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

Untuk istilah kita dapat menggunakan trik yang sama seperti di atas, menambah dan mengurangi untuk mendapatkanE[(ff^)2]E[f^]

E[(f-f^)2]=E[(f+E[f^]-E[f^]-f^)2]=E[f-E[f^]]2+E[f^-E[f^]]2=[f-E[f^]]2+E[f^-E[f^]]2=BsayaSebuahs2[f^]+VSebuahr[f^]

Menyatukannya

E[(Y-f^)2]=σϵ2+BsayaSebuahs2[f^]+VSebuahr[f^]


Beberapa komentar tentang mengapaE[f^Y]=fE[f^]

Diambil dari Alecos Papadopoulos di sini

Ingat bahwa adalah prediktor yang kami buat berdasarkan pada titik data sehingga kita dapat menulis untuk mengingatnya.f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m

Di sisi lain adalah prediksi yang kami buat pada titik data baru dengan menggunakan model yang dibangun pada titik data atas. Jadi Mean Squared Error dapat ditulis sebagaiY(x(m+1),y(m+1))m

E[f^m(x(m+1))-y(m+1)]2

Memperluas persamaan dari bagian sebelumnya

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

Bagian terakhir dari persamaan dapat dilihat sebagai

E[f^m(x(m+1))ϵ(m+1)]=0

Karena kami membuat asumsi berikut tentang titik :x(m+1)

  • Itu tidak digunakan ketika membangunf^m
  • Ini tidak tergantung pada semua pengamatan lain{(x(1),y(1)),...,(x(m),y(m))}
  • Tidak tergantung padaϵ(m+1)

Sumber lain dengan derivasi penuh

Xavier Bourret Sicotte
sumber
1
Mengapa ? Saya tidak berpikir dan adalah independen, karena pada dasarnya dibangun menggunakan . E[f^Y]=fE[f^]Yf^f^Y
Felipe Pérez
5
Tetapi pada dasarnya pertanyaannya sama, mengapa ? Keacakan berasal dari kesalahan jadi saya tidak melihat mengapa dan bebas, dan karenanya, . E[f^ϵ]=0f^ϵf^ϵE(f^ϵ)=0
Felipe Pérez
Dari persiapan Anda tampaknya bahwa sampel masuk dan keluar dari perspektif sampel sangat penting. Begitu? Jika kita hanya bekerja dalam sampel dan, kemudian, lihat sebagai residual pengorbanan varians bias menghilang? ϵ
markowitz
1
@ FelipePérez sejauh yang saya mengerti, keacakan berasal dari split tes kereta (poin yang berakhir di set pelatihan dan memberikan sebagai prediktor terlatih). Dengan kata lain, varian berasal dari semua himpunan bagian yang mungkin dari set data tetap yang diberikan yang bisa kita ambil sebagai set pelatihan. Karena kumpulan data diperbaiki, tidak ada keacakan yang datang dari dan oleh karena itu dan independen. f^f^f^ϵf^ϵ
Alberto Santini