Buku Elemen Pembelajaran Statistik (tersedia dalam PDF online) membahas bias optimisim (7.21, halaman 229). Ini menyatakan bahwa bias optimisme adalah perbedaan antara kesalahan pelatihan dan kesalahan dalam sampel (kesalahan diamati jika kita sampel nilai-nilai hasil baru di masing-masing poin pelatihan asli) (per di bawah).
Selanjutnya, ia menyatakan bias optimisme ini ( ) sama dengan kovarians dari estimasi nilai y kami dan nilai y aktual (rumus per di bawah). Saya mengalami kesulitan memahami mengapa rumus ini menunjukkan bias optimisme; naif saya akan berpikir bahwa kovarians yang kuat antara aktual dan prediksi hanya menggambarkan akurasi - bukan optimisme. Beri tahu saya jika seseorang dapat membantu dengan derivasi formula atau berbagi intuisi.
sumber
Jawaban:
Mari kita mulai dengan intuisi.
Tidak ada yang salah dengan menggunakan untuk memprediksi . Bahkan, tidak menggunakannya berarti kita membuang informasi berharga. Namun, semakin kita bergantung pada informasi yang terkandung dalam untuk menghasilkan prediksi kita, semakin optimis penaksir kita.y i y iyi y^saya ysaya
Pada satu ekstrim, jika hanyalah , Anda akan memiliki prediksi sampel yang sempurna ( ), tetapi kami cukup yakin bahwa prediksi out-of-sample akan menjadi buruk. Dalam hal ini (mudah untuk memeriksa sendiri), derajat kebebasan akan menjadi .yiR2=1df( y )=ny^saya ysaya R2= 1 df( y^) = n
Di sisi lain, jika Anda menggunakan mean sampel : untuk semua , maka derajat kebebasan Anda hanya 1.y i = ^ y i = ˉ y iy ysaya= ysaya^= y¯ saya
Lihat selebaran yang bagus ini oleh Ryan Tibshirani untuk detail lebih lanjut tentang intuisi ini
Sekarang bukti yang mirip dengan jawaban yang lain, tetapi dengan sedikit penjelasan
Ingat bahwa, menurut definisi, optimisme rata-rata adalah:
Sekarang gunakan fungsi kerugian kuadratik dan perluas istilah kuadrat:
gunakan untuk menggantikan:EyEY0[ ( Y0saya)2] = Ey[ y2saya]
Untuk menyelesaikan, perhatikan bahwa , yang menghasilkan:Co v ( x , w ) = E[ x w ] - E[ x ] E[ w ]
sumber
Biarkan , kalau begituf^( xsaya) = y^saya
sumber