Saya berjuang untuk memahami derivasi dari kesalahan prediksi yang diharapkan per bawah (ESL), terutama pada derivasi dari 2.11 dan 2.12 (mengkondisikan, langkah menuju titik minimum bijaksana). Setiap petunjuk atau tautan sangat dihargai.
Di bawah ini saya melaporkan kutipan dari ESL hal. 18. Dua persamaan pertama adalah, secara berurutan, persamaan 2.11 dan 2.12.
Misalkan menunjukkan vektor input acak bernilai nyata, dan variabel output acak bernilai nyata, dengan distribusi gabungan . Kami mencari fungsi untuk memprediksi nilai yang diberikan dari input . Teori ini membutuhkan fungsi kerugian untuk menghukum kesalahan dalam prediksi, dan sejauh ini yang paling umum dan nyaman adalah hilangnya kesalahan kuadrat : . Ini membawa kita ke kriteria untuk memilih , L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 f
kesalahan prediksi yang diharapkan (kuadrat). Dengan mengkondisikan , kita dapat menulis sebagai EPE
dan kami melihat bahwa itu sudah cukup untuk meminimalkan EPE point-wise:
Solusinya adalah
harapan bersyarat, juga dikenal sebagai fungsi regresi .
sumber
Jawaban:
sumber
Persamaan (2.11) adalah konsekuensi dari kesetaraan kecil berikut. Untuk dua variabel acak, dan Z 2 , dan fungsi apa saja gZ1 Z2 g
Notasi adalah harapan atas bersama distribusi. Notasi E Z 1 ∣ Z 2 pada dasarnya mengatakan "berintegrasi dengan distribusi bersyarat Z 1 seolah-olah Z 2 diperbaiki".EZ1,Z2 EZ1∣Z2 Z1 Z2
Sangat mudah untuk memverifikasi ini dalam kasus yang dan Z 2 adalah variabel acak diskrit dengan hanya unwinding definisi yang terlibatZ1 Z2
Kasus kontinu dapat dilihat secara informal sebagai batasan argumen ini, atau secara formal diverifikasi setelah semua ukuran teori do-ayah ada di tempat.
Untuk melepas aplikasi, ambil , Z 2 = X , dan g ( x , y ) = ( y - f ( x ) ) 2 . Semuanya berbaris tepat.Z1= Y Z2= X g( x , y) = ( y- f( x ) )2
Penegasan (2.12) meminta kami untuk mempertimbangkan meminimalkan
di mana kita bebas memilih seperti yang kita inginkan. Sekali lagi, berfokus pada kasing diskrit, dan jatuh setengah ke atas di atas, kita melihat bahwa kita meminimalkanf
Segala sesuatu di dalam tanda kurung besar adalah non-negatif, dan Anda dapat meminimalkan jumlah jumlah non-negatif dengan meminimalkan puncak secara individual. Dalam konteks, ini berarti bahwa kita dapat memilih untuk meminimalkanf
secara individual untuk setiap nilai diskrit . Ini persis isi dari apa yang diklaim ESL, hanya dengan notasi yang lebih menarik.x
sumber
Saya menemukan beberapa bagian dalam buku ini diungkapkan dengan cara yang sulit dipahami, terutama bagi mereka yang tidak memiliki latar belakang yang kuat dalam statistik.
Saya akan mencoba membuatnya menjadi sederhana dan berharap Anda dapat menghilangkan kebingungan.
Mengambil harapan kedua sisi persamaan di atas memberikan Klaim 2 (QED)
Oleh karena itu, f optimal adalahf(X) =E( Y|X)
sumber