Memahami tidak ada teorema makan siang gratis di Klasifikasi Pola Duda et al

12

Saya memiliki beberapa pertanyaan tentang notasi yang digunakan dalam Bagian 9.2. Kurangnya Keunggulan Inheren dari Setiap Klasifikasi di Duda, Hart dan Stork's Pattern Classification . Pertama-tama izinkan saya mengutip beberapa teks yang relevan dari buku ini:

  • Untuk kesederhanaan pertimbangkan masalah dua kategori, di mana set pelatihan terdiri dari pola x ^ i dan label kategori terkait y_i = ± 1 untuk i = 1, ..., n yang dihasilkan oleh fungsi target yang tidak diketahui untuk dipelajari, F ( x) , di mana y_i = F (x ^ i) .Dxii = 1 , . . . , n F ( x ) y i = F ( x i )yi=±1i=1,...,nF(x)yi=F(xi)
  • Biarkan H menunjukkan set hipotesis (diskrit), atau set parameter yang mungkin untuk dipelajari. Hipotesis tertentu h(x)H dapat digambarkan dengan bobot terkuantisasi dalam jaringan saraf, atau parameter 0 dalam model fungsional, atau set keputusan dalam pohon, dan seterusnya.
  • Selanjutnya, P(h) adalah probabilitas sebelumnya bahwa algoritma akan menghasilkan hipotesis h setelah pelatihan; perhatikan bahwa ini bukan probabilitas bahwa h benar.
  • Berikutnya, P(h|D) menunjukkan probabilitas bahwa algoritma akan menghasilkan hipotesis h ketika dilatih pada data D . Dalam algoritma pembelajaran deterministik seperti tetangga terdekat dan pohon keputusan, P(h|D) akan berada di mana-mana nol kecuali untuk hipotesis tunggal h . Untuk metode stokastik (seperti jaringan saraf dilatih dari bobot awal acak), atau pembelajaran Boltzmann stokastik, P(h|D) dapat menjadi distribusi yang luas.
  • Biarkan E menjadi kesalahan untuk fungsi kehilangan nol-satu atau lainnya.

Kesalahan klasifikasi off-training-set yang diharapkan ketika fungsi sebenarnya adalah F(x) dan probabilitas untuk algoritma pembelajaran kandidat k adalah Pk(h(x)|D) diberikan oleh

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Teorema 9.1. (Tanpa Makan Siang Gratis) Untuk dua algoritma pembelajaran apa pun P1(h|D) dan P2(h|D) , berikut ini adalah benar, independen dari distribusi sampel P(x) dan jumlah n poin pelatihan:

  1. Rata-rata seragam untuk semua fungsi target ,FE1(E|F,n)E2(E|F,n)=0

  2. Untuk setiap set pelatihan tetap , rata-rata seragam di atas , DFE1(E|F,D)E2(E|F,D)=0

Bagian 1 sebenarnya mengatakan

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

Bagian 2 sebenarnya mengatakan

F[E1(E|F,D)E2(E|F,D)]=0

Pertanyaan saya adalah

  1. Dalam rumus , yaitu dapatkah saya mengganti dengan dan memindahkannya ke luar jumlah , karena ini adalah distribusi lebih dari diberikan untuk algoritma pembelajaran stokastik ?Ek(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Mengingat bahwa algoritma pembelajaran kandidat ke- adalah metode stokastik, mengapa dalam rumus , tidak ada jumlah lebih dari , yaitu ?kEk(E|F,n)hhH
  3. Apa dan ? E i (E | F,n)Ei(E|F,D)Ei(E|F,n)

    Apakah berarti tingkat kesalahan off-training yang diberikan pada set pelatihan ?DEi(E|F,D)D

    Apakah berarti tingkat kesalahan di luar pelatihan, rata-rata di atas semua set pelatihan yang diberikan ukuran pelatihan ? Jika ya, mengapa bagian 1 dalam teorema NFL rata-rata lebih dari set pelatihan lagi dengan menulis , dan mengapa dalam rumus untuk , tidak ada rata-rata dari semua pelatihan yang diberikan ukuran pelatihan ?n E i (E | F,n)D E k (E | F,n)nEi(E|F,n)nEi(E|F,n)DEk(E|F,n)n

  4. Pada bagian 1 dari teorema NFL, apakah berarti menjumlahkan semua set pelatihan dengan ukuran pelatihan tetap ? nDn
  5. Jika lebih lanjut menjumlahkan semua nilai yang mungkin di dari ukuran pelatihan di bagian 1, hasilnya masih 0, kan? nNn
  6. Dalam rumus , jika saya mengubah menjadi , yaitu tidak harus dibatasi di luar set pelatihan, akankah kedua bagian dalam Teorema NFL masih benar?x Dx xEk(E|F,n)xDxx
  7. Jika hubungan sebenarnya antara dan tidak dianggap sebagai fungsi deterministik sebagai , tetapi sebaliknya distribusi kondisional , atau distribusi bersama yang setara dengan mengetahui dan (juga melihat pertanyaan saya yang lain ), maka saya dapat mengubah menjadi (dengan aneh ditunjukkan dalam bagian 1 dan 2). Apakah kedua bagian dalam teorema NFL masih benar?y F y = F ( x ) P ( y | x ) P ( x , y ) P ( y | x ) P ( x ) E k ( E | F , n ) E k ( E | P ( x , y ) , n ) = E x , y [ 1xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x)Ek(E|F,n)P k ( h ( x ) | D )
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    Pk(h(x)|D)

Terima kasih dan salam!

Tim
sumber
Apakah Dirac / Kronecker-delta? DalamE k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )δ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)
Apakah teorema No Lunch Gratis ini sama dengan masalah Menghentikan? Apakah mereka terhubung?

Jawaban:

6

Saya akan menjawab pertanyaan yang saya pikir saya tahu jawabannya.

  1. Jawaban ini tidak karena Anda memilih yang bukan bagian dari set dan jadi tergantung pada .D h xxDhx
  2. x H xh hanya dievaluasi pada nilai dalam set uji untuk mendapatkan tingkat kesalahan yang diharapkan sehingga tidak dievaluasi pada seluruh set tetapi hanya pada set diskrit di set tes.xHx
  3. FD E i (E | F,n)nxEi(E|F,D) adalah diharapkan untuk tarif kesalahan pelatihan himpunan fungsi dan pelatihan set . Tapi saya pikir berbeda karena Anda hanya mengkondisikan pada jumlah poin pelatihan dan bukan nilai sebenarnya . Tapi ini membingungkan mengingat pernyataan berikut.FDEi(E|F,n)nx
  4. n D n D DD adalah himpunan vektor pelatihan. Ada pelatihan vektor di . Jadi Anda menjumlahkan selama tetap vektor pelatihan di . Hanya ada satu set .nDnDD
  5. Saya pikir jawaban 5 adalah tidak. Notasi itu agak membingungkan.

Tidak dapat mengomentari 6 dan 7.

Michael R. Chernick
sumber
2
+1. Selamat datang di situs ini, saya penggemar berat ulasan Anda di Amazon. Maafkan anggapan saya dalam mengedit, notasi matematika sebagian besar dilakukan dengan meletakkan $ di kedua sisi sesuatu. Jika Anda mengklik pada lingkaran kuning-? di kanan atas saat menulis, Anda akan melihat tautan untuk "bantuan lanjutan" yang akan memberikan lebih banyak info; juga, Anda dapat mengklik kanan pada beberapa mathjax yang ada (seperti salah satu di atas) & pilih "Tampilkan Matematika Sebagai -> perintah TeX" untuk melihat bagaimana hal itu dilakukan.
gung - Reinstate Monica
2
Dengan kata lain, @gung mengatakan: Situs ini mendukung dalam (hampir) persis seperti yang Anda harapkan, termasuk tampilan matematika. Selamat datang di situs ini. LATEX
kardinal
@Michael Ijinkan saya untuk menambahkan sambutan saya kepada orang lain ini: Saya senang melihat Anda di sini. (Michael telah memberikan kontribusi yang sangat luas dalam daftar diskusi American Statistics Association.)
whuber