Adakah yang bisa memberi tahu saya apa yang dimaksud dengan ungkapan 'pelajar yang lemah'? Apakah ini seharusnya menjadi hipotesis yang lemah? Saya bingung tentang hubungan antara pelajar yang lemah dan pengklasifikasi yang lemah. Apakah keduanya sama atau ada perbedaan?
Dalam algoritma adaboost T=10
,. Apa yang dimaksud dengan itu? Mengapa kita memilih T=10
?
classification
svm
terminology
adaboost
pac-learning
vrushali
sumber
sumber
Jawaban:
Pelajar yang 'lemah' (pengklasifikasi, prediktor, dll) hanyalah salah satu yang kinerjanya relatif buruk - akurasinya di atas kebetulan, tetapi nyaris saja. Sering ada, tetapi tidak selalu, implikasi tambahan bahwa itu sederhana secara komputasi. Pelajar yang lemah juga menyarankan bahwa banyak contoh algoritma sedang dikumpulkan (melalui boosting, bagging, dll) bersama-sama untuk membuat classifier ensemble "kuat".
Itu disebutkan dalam makalah AdaBoost asli oleh Freund & Schapire:
tapi saya pikir frasa ini sebenarnya lebih tua dari itu - saya telah melihat orang mengutip makalah (?!) oleh Michael Kearns dari tahun 1980-an.
Contoh klasik dari Weak Learner adalah Decision Stump, pohon keputusan satu tingkat (1R atau OneR adalah pelajar lemah lain yang umum digunakan; itu cukup mirip). Akan agak aneh untuk menyebut SVM sebagai 'pembelajar yang lemah', bahkan dalam situasi di mana kinerjanya buruk, tetapi akan sangat masuk akal untuk menyebut keputusan tunggal yang menusuk pembelajar yang lemah bahkan ketika kinerjanya berjalan dengan baik dengan sendirinya.
Adaboost adalah algoritma iteratif dan biasanya menunjukkan jumlah iterasi atau "putaran". Algoritme dimulai dengan melatih / menguji pelajar yang lemah pada data, menimbang masing-masing contoh secara sama. Contoh-contoh yang salah diklasifikasikan mendapatkan bobotnya meningkat untuk putaran selanjutnya, sedangkan yang diklasifikasikan dengan benar mendapatkan bobotnya berkurang.
Saya tidak yakin ada sesuatu yang ajaib tentang . Dalam makalah 1995, diberikan sebagai parameter gratis (yaitu, Anda mengaturnya sendiri).TT= 10 T
sumber
Pelajar yang lemah adalah pelajar yang tidak peduli apa pun distribusi data pelatihan akan selalu lebih baik daripada peluang, ketika mencoba untuk memberi label data. Melakukan lebih baik daripada kebetulan berarti kita akan selalu memiliki tingkat kesalahan yang kurang dari 1/2.
Ini berarti bahwa algoritma pembelajar selalu akan mempelajari sesuatu, tidak selalu sepenuhnya akurat, yaitu lemah dan buruk dalam hal mempelajari hubungan antara (input) dan (target).YX Y
Tetapi kemudian muncul peningkatan , di mana kita mulai dengan melihat data pelatihan dan menghasilkan beberapa distribusi, kemudian menemukan sejumlah Pembelajar Lemah (pengklasifikasi) dengan kesalahan rendah, dan setiap pembelajar mengeluarkan beberapa hipotesis, . Ini menghasilkan beberapa (label kelas), dan pada akhirnya menggabungkan set hipotesis yang baik untuk menghasilkan hipotesis akhir. YHx Y
Ini pada akhirnya meningkatkan pembelajar yang lemah dan mengubahnya menjadi pembelajar yang kuat.
Untuk informasi lebih lanjut: https://youtu.be/zUXJb1hdU0k .
sumber
Pelajar yang lemah sama dengan classifier yang lemah, atau prediktor yang lemah. Idenya adalah Anda menggunakan classifier yang, yah ..., tidak terlalu bagus, tapi setidaknya lebih baik daripada acak. Keuntungannya adalah bahwa classifier akan kuat dalam overfitting. Tentu saja Anda tidak hanya menggunakan satu tetapi sejumlah besar, masing-masing sedikit lebih baik daripada acak. Cara tepat Anda memilih / menggabungkan mereka tergantung pada metodologi / algoritma, misalnya AdaBoost.
Dalam praktiknya sebagai penggolong lemah Anda menggunakan sesuatu seperti ambang batas sederhana pada fitur tunggal. Jika fitur di atas ambang maka Anda memperkirakan itu milik positif atau Anda memutuskan itu milik negatif. Tidak yakin tentang T = 10, karena tidak ada konteks, tapi saya bisa berasumsi itu adalah contoh pada thresholding beberapa fitur.
sumber