Jadi kami memiliki potensi untuk aplikasi pembelajaran mesin yang cocok dengan cukup rapi ke dalam domain masalah tradisional yang diselesaikan oleh pengklasifikasi, yaitu, kami memiliki seperangkat atribut yang menggambarkan item dan "ember" yang akhirnya dimasukkan. Namun, daripada membuat model probabilitas seperti di Naif Bayes atau pengklasifikasi serupa, kami ingin output kami menjadi seperangkat aturan yang dapat dibaca oleh manusia yang dapat ditinjau dan dimodifikasi oleh pengguna akhir.
Pembelajaran aturan asosiasi terlihat seperti kumpulan algoritme yang memecahkan masalah jenis ini, tetapi algoritme ini tampaknya berfokus pada pengidentifikasian kombinasi fitur yang umum dan tidak menyertakan konsep bucket akhir yang mungkin ditunjukkan oleh fitur-fitur tersebut. Misalnya, kumpulan data kami terlihat seperti ini:
Item A { 4-door, small, steel } => { sedan }
Item B { 2-door, big, steel } => { truck }
Item C { 2-door, small, steel } => { coupe }
Saya hanya ingin aturan yang mengatakan "jika besar dan 2 pintu, itu truk," bukan aturan yang mengatakan "jika itu 4 pintu juga kecil."
Salah satu solusi yang dapat saya pikirkan adalah dengan hanya menggunakan algoritma pembelajaran aturan asosiasi dan mengabaikan aturan yang tidak melibatkan end bucket, tapi itu agak sedikit membingungkan. Apakah saya melewatkan beberapa keluarga algoritma di luar sana? Atau mungkin saya mendekati masalah dengan salah untuk memulainya?
sumber
Ini sebenarnya lebih sederhana dari itu, dari apa yang Anda gambarkan --- Anda hanya mencari algoritma pohon klasifikasi dasar (jadi tidak perlu untuk varian yang sedikit lebih kompleks seperti C4.5 yang dioptimalkan untuk akurasi prediksi). Teks kanonik adalah:
http://www.amazon.com/Classification-Regression-Wadsworth-Statistics-Probability/dp/0412048418
Ini mudah diterapkan di R:
http://cran.r-project.org/web/packages/tree/tree.pdf
dan Python:
http://scikit-learn.org/stable/modules/tree.html
sumber
Anda bisa melihat pelajar aturan CN2 di Orange 2 http://orange.biolab.si/orange2/
sumber
Anda harus mencoba paket arules di R. Ini memungkinkan Anda untuk membuat tidak hanya aturan asosiasi tetapi juga untuk menentukan panjang setiap aturan, pentingnya setiap aturan dan juga Anda dapat memfilternya, yang merupakan apa yang Anda cari (coba rhs () perintah dari paket ini).
sumber