VC-Dimensi k-tetangga terdekat

10

Berapa Dimensi VC dari algoritma tetangga k-terdekat jika k sama dengan jumlah poin pelatihan yang digunakan?


Konteks: Pertanyaan ini ditanyakan dalam kursus yang saya ambil dan jawaban yang diberikan adalah 0. Namun, saya tidak mengerti mengapa demikian. Intuisi saya adalah bahwa Dimensi-VC harus 1, karena harus dimungkinkan untuk memilih dua model (yaitu set poin pelatihan) sehingga setiap titik diberi label sebagai milik satu kelas sesuai dengan model pertama dan sebagai milik kelas lain menurut model kedua, dengan demikian dimungkinkan untuk menghancurkan satu titik. Di mana kesalahan dalam alasan saya?

Julius Maximilian Steen
sumber

Jawaban:

2

Anda mengatakan algoritmenya adalah: algoritma tetangga-k terdekat dengan k = jumlah titik pelatihan yang digunakan. Saya mendefinisikan ini sebagai jms-k-tetangga terdekat .

Karena dimensi VC adalah jumlah titik pelatihan terbesar yang dapat dihancurkan oleh algoritma dengan kesalahan kereta 0, dimensi VC dari jms-k-tetangga terdekat hanya bisa menjadi k atau 0.

1 instance pelatihan => k = 1: Selama pelatihan, jms-1-tetangga terdekat menyimpan instance ini. Selama aplikasi pada set pelatihan yang persis sama, satu instance adalah yang terdekat dengan instance pelatihan yang disimpan (karena mereka sama), sehingga kesalahan pelatihan adalah 0.

Jadi saya setuju, dimensi VC setidaknya 1.

2 instance pelatihan => k = 2: Hanya ada masalah jika labelnya berbeda. Dalam hal ini pertanyaannya adalah, bagaimana keputusan untuk label kelas dibuat. Suara mayoritas tidak mengarah pada hasil (VC = 0?), Jika kami menggunakan suara mayoritas yang berbobot berbanding terbalik dengan jarak, dimensi VC adalah 2 (dengan asumsi bahwa tidak diperbolehkan memiliki instance pelatihan yang sama dua kali dengan label yang berbeda, dalam hal itu huruf VC dimensi semua algoritma akan menjadi 0 (saya kira)).

Tidak ada standar k-tetangga terdekat algoritma, ini lebih merupakan keluarga dengan ide dasar yang sama tetapi rasa berbeda ketika datang ke detail implementasi.

Sumber yang digunakan: slide dimensi VC oleh Andrew Moore

steffen
sumber
Terima kasih, itu cukup membantu. Saya tidak tahu contoh Anda mengevaluasi model harus sama dengan yang digunakan untuk melatih parameternya. Saya harus memikirkan sedikit tentang jawaban Anda dan menerimanya nanti.
Julius Maximilian Steen