Pada hal. 34 dari Pengantar Pembelajaran Statistik :
Meskipun bukti matematika adalah di luar cakupan buku ini, adalah mungkin untuk menunjukkan bahwa tes diharapkan MSE, untuk nilai yang diberikan , selalu dapat didekomposisi menjadi jumlah dari tiga jumlah mendasar: varians dari , bias kuadrat dari dan varians dari istilah kesalahan . Itu adalah,
[...] Varians merujuk pada jumlah yang akan diubah jika kami memperkirakannya menggunakan kumpulan data pelatihan yang berbeda.
Pertanyaan: Karena tampaknya menunjukkan variasi fungsi , apa artinya ini secara formal?
Yaitu, saya akrab dengan konsep varian dari variabel acak , tetapi bagaimana dengan varian dari serangkaian fungsi? Bisakah ini dianggap hanya sebagai varian dari variabel acak lain yang nilainya mengambil bentuk fungsi?
sumber
Jawaban:
Korespondensi Anda dengan @whuber benar.
Algoritma pembelajaran dapat dilihat sebagai fungsi tingkat yang lebih tinggi, memetakan pelatihan yang disetel ke fungsi.SEBUAH
di mana adalah ruang set latihan yang memungkinkan. Ini bisa sedikit berbulu secara konseptual, tetapi pada dasarnya setiap pelatihan individu menetapkan hasil, setelah menggunakan algoritma pelatihan model, dalam fungsi khusus yang dapat digunakan untuk membuat prediksi yang diberikan titik data . f xT f x
Jika kita melihat ruang set pelatihan sebagai ruang probabilitas, sehingga ada beberapa distribusi set data pelatihan yang mungkin, maka algoritma pelatihan model menjadi fungsi yang bernilai variabel acak, dan kita bisa memikirkan konsep statistik. Secara khusus, jika kita memperbaiki titik data tertentu , maka kita mendapatkan variabel acak bernilai numerikx0
Yaitu, pertama-tama latih algoritma pada , dan kemudian evaluasi model yang dihasilkan pada . Ini hanyalah variabel acak yang lama, tetapi dibangun dengan cerdik, pada ruang probabilitas, sehingga kita dapat berbicara tentang variansnya. Ini adalah varian dalam rumus Anda dari ISL.x 0T x0
sumber
Interpretasi visual menggunakan kfold berulang
Untuk memberikan interpretasi visual / intuitif pada jawaban @Matthew Drury, perhatikan contoh mainan berikut ini.
Lihat di bawah untuk grafik yang dihasilkan untuk model polinomial derajat 2 dan derajat 6. Pada pandangan pertama, tampaknya polinomial yang lebih tinggi (berwarna merah) memiliki varian yang lebih besar.
Berargumen bahwa grafik merah memiliki varian yang lebih besar - secara eksperimen
Biarkan dan - sesuai dengan grafik hijau dan merah dan menjadi salah satu contoh grafik, berwarna hijau muda dan merah muda. Misalkan adalah jumlah titik di sepanjang sumbu dan menjadi jumlah grafik (yaitu jumlah simulasi). Di sini kita memiliki dan f r f (i)nxmn=400m=200f^g f^r f^(i) n x m n=400 m=200
Saya melihat tiga skenario utama
Dalam kasus contoh mainan ini, ketiga skenario berlaku pada rentang yang membenarkan argumen bahwa kecocokan polinomial orde tinggi (merah) memiliki varian lebih tinggi daripada polinomial orde rendah (berwarna hijau).(0,1)
Kesimpulan terbuka
Apa yang harus diperdebatkan ketika ketiga skenario di atas tidak semuanya berlaku. Misalnya, bagaimana jika varian prediksi merah lebih besar dari rata-rata, tetapi tidak untuk semua poin.
Detail label
Pertimbangkan titikx0=0.5
sumber