Pertanyaan saya adalah tentang pengelompokan tetangga terdekat 1 dan tentang pernyataan yang dibuat dalam buku The Elements of Statistics Learning, karya Hastie, Tibshirani, dan Friedman. Pernyataannya adalah (hlm. 465, bagian 13.3):
"Karena hanya menggunakan titik pelatihan yang paling dekat dengan titik kueri, bias dari estimasi tetangga 1-terdekat sering rendah, tetapi variansnya tinggi."
Buku ini tersedia di
http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html
Sebagai permulaan, kita dapat menentukan apa bias dan varians. Dari pertanyaan "bagaimana-dapat-meningkatkan-dimensi-meningkatkan-varians-tanpa-meningkatkan-bi-" , kita memiliki itu:
"Pertama-tama, bias dari classifier adalah perbedaan antara rata-rata estimasi dan fungsi sebenarnya, sedangkan varians dari classifier adalah perbedaan yang diharapkan dari fungsi prediksi estimasi dari nilai rata-rata (yaitu seberapa tergantung classifier pada acak pengambilan sampel dilakukan di set pelatihan).
Oleh karena itu, kehadiran bias menunjukkan sesuatu yang pada dasarnya salah dengan model, sedangkan varians juga buruk, tetapi model dengan varian tinggi setidaknya bisa memprediksi dengan baik rata-rata. "
Bisakah seseorang tolong jelaskan mengapa variansnya tinggi dan biasnya rendah untuk classifier tetangga 1-terdekat?
sumber
Anda harus ingat bahwa 1-Nearest Neighbor classifier sebenarnya adalah model tetangga terdekat yang paling kompleks . Yang paling rumit, maksud saya, itu memiliki batas keputusan yang paling bergerigi, dan kemungkinan besar akan overfit. Jika Anda menggunakan N-terdekat tetangga classifier (N = jumlah poin pelatihan), Anda akan mengklasifikasikan semuanya sebagai kelas mayoritas. Permutasi yang berbeda dari data akan memberi Anda jawaban yang sama, memberi Anda satu set model yang memiliki nol varians (mereka semua persis sama), tetapi bias tinggi (mereka semua secara konsisten salah). Mengurangi pengaturan K membuat Anda lebih dekat dan lebih dekat ke data pelatihan (bias rendah), tetapi model akan jauh lebih tergantung pada contoh pelatihan khusus yang dipilih (varian tinggi).
sumber
Berikut ini adalah posting blog yang sangat menarik tentang bias dan perbedaan. Bagian 3.1 membahas tentang algoritma knn dan menjelaskan mengapa k rendah menyebabkan variasi tinggi dan bias rendah.
Gambar 5 sangat menarik: Anda dapat melihat secara real time bagaimana model berubah saat k meningkat. Untuk k rendah, ada banyak overfitting (beberapa "pulau" terisolasi) yang mengarah ke bias rendah tetapi varians tinggi. Untuk k yang sangat tinggi, Anda memiliki model yang lebih halus dengan varian rendah tetapi bias tinggi. Dalam contoh ini, nilai k antara 10 dan 20 akan memberikan model keturunan yang cukup umum (varians yang relatif rendah) dan cukup akurat (bias yang relatif rendah).
sumber