Saya memiliki beberapa pertanyaan tentang notasi yang digunakan dalam Bagian 9.2. Kurangnya Keunggulan Inheren dari Setiap Klasifikasi di Duda, Hart dan Stork's Pattern Classification . Pertama-tama izinkan saya mengutip beberapa teks yang relevan dari buku ini:
- Untuk kesederhanaan pertimbangkan masalah dua kategori, di mana set pelatihan terdiri dari pola x ^ i dan label kategori terkait y_i = ± 1 untuk i = 1, ..., n yang dihasilkan oleh fungsi target yang tidak diketahui untuk dipelajari, F ( x) , di mana y_i = F (x ^ i) .i = 1 , . . . , n F ( x ) y i = F ( x i )
- Biarkan menunjukkan set hipotesis (diskrit), atau set parameter yang mungkin untuk dipelajari. Hipotesis tertentu dapat digambarkan dengan bobot terkuantisasi dalam jaringan saraf, atau parameter 0 dalam model fungsional, atau set keputusan dalam pohon, dan seterusnya.
- Selanjutnya, adalah probabilitas sebelumnya bahwa algoritma akan menghasilkan hipotesis setelah pelatihan; perhatikan bahwa ini bukan probabilitas bahwa benar.
- Berikutnya, menunjukkan probabilitas bahwa algoritma akan menghasilkan hipotesis ketika dilatih pada data . Dalam algoritma pembelajaran deterministik seperti tetangga terdekat dan pohon keputusan, akan berada di mana-mana nol kecuali untuk hipotesis tunggal . Untuk metode stokastik (seperti jaringan saraf dilatih dari bobot awal acak), atau pembelajaran Boltzmann stokastik, dapat menjadi distribusi yang luas.
- Biarkan menjadi kesalahan untuk fungsi kehilangan nol-satu atau lainnya.
Kesalahan klasifikasi off-training-set yang diharapkan ketika fungsi sebenarnya adalah dan probabilitas untuk algoritma pembelajaran kandidat adalah diberikan oleh
Teorema 9.1. (Tanpa Makan Siang Gratis) Untuk dua algoritma pembelajaran apa pun dan , berikut ini adalah benar, independen dari distribusi sampel dan jumlah poin pelatihan:
Rata-rata seragam untuk semua fungsi target ,
Untuk setiap set pelatihan tetap , rata-rata seragam di atas ,
Bagian 1 sebenarnya mengatakan
Bagian 2 sebenarnya mengatakan
Pertanyaan saya adalah
- Dalam rumus , yaitu dapatkah saya mengganti dengan dan memindahkannya ke luar jumlah , karena ini adalah distribusi lebih dari diberikan untuk algoritma pembelajaran stokastik ?
- Mengingat bahwa algoritma pembelajaran kandidat ke- adalah metode stokastik, mengapa dalam rumus , tidak ada jumlah lebih dari , yaitu ?
Apa dan ? E i (E | F,n)
Apakah berarti tingkat kesalahan off-training yang diberikan pada set pelatihan ?D
Apakah berarti tingkat kesalahan di luar pelatihan, rata-rata di atas semua set pelatihan yang diberikan ukuran pelatihan ? Jika ya, mengapa bagian 1 dalam teorema NFL rata-rata lebih dari set pelatihan lagi dengan menulis , dan mengapa dalam rumus untuk , tidak ada rata-rata dari semua pelatihan yang diberikan ukuran pelatihan ?n E i (E | F,n) ∑ D E k (E | F,n)n
- Pada bagian 1 dari teorema NFL, apakah berarti menjumlahkan semua set pelatihan dengan ukuran pelatihan tetap ? n
- Jika lebih lanjut menjumlahkan semua nilai yang mungkin di dari ukuran pelatihan di bagian 1, hasilnya masih 0, kan? n
- Dalam rumus , jika saya mengubah menjadi , yaitu tidak harus dibatasi di luar set pelatihan, akankah kedua bagian dalam Teorema NFL masih benar? ∑ x ∉ D ∑ x x
- Jika hubungan sebenarnya antara dan tidak dianggap sebagai fungsi deterministik sebagai , tetapi sebaliknya distribusi kondisional , atau distribusi bersama yang setara dengan mengetahui dan (juga melihat pertanyaan saya yang lain ), maka saya dapat mengubah
menjadi (dengan aneh ditunjukkan dalam bagian 1 dan 2). Apakah kedua bagian dalam teorema NFL masih benar?y F y = F ( x ) P ( y | x ) P ( x , y ) P ( y | x ) P ( x ) E k ( E | F , n ) E k ( E | P ( x , y ) , n ) = E x , y [ 1P k ( h ( x ) | D )
Terima kasih dan salam!
Jawaban:
Saya akan menjawab pertanyaan yang saya pikir saya tahu jawabannya.
Tidak dapat mengomentari 6 dan 7.
sumber