Apakah ada literatur yang menyebutkan karakteristik algoritma yang memungkinkan mereka untuk dijelaskan?
Satu-satunya literatur yang saya ketahui adalah makalah terbaru oleh Ribero, Singh, dan Guestrin. Pertama-tama mereka mendefinisikan keterjelasan dari satu prediksi:
Dengan "menjelaskan prediksi", kami bermaksud menghadirkan artefak teks atau visual yang memberikan pemahaman kualitatif tentang hubungan antara komponen instance (misalnya kata-kata dalam teks, tambalan dalam gambar) dan prediksi model.
Penulis selanjutnya menguraikan apa artinya ini untuk contoh yang lebih konkret, dan kemudian menggunakan gagasan ini untuk menentukan keterjelasan model. Tujuan mereka adalah untuk mencoba dan dengan demikian menambah kemampuan menjelaskan secara artifisial pada model yang tidak transparan, daripada membandingkan keterjelasan metode yang ada. Makalah ini mungkin membantu, karena mencoba untuk memperkenalkan terminologi yang lebih tepat di sekitar gagasan "dapat dijelaskan".
Apakah ada model pembelajaran mesin yang diterima secara umum sebagai mewakili pertukaran yang baik antara keduanya?
Saya setuju dengan @Winter bahwa elastic-net untuk regresi (tidak hanya logistik) dapat dilihat sebagai contoh untuk kompromi yang baik antara akurasi prediksi dan kemampuan menjelaskan.
Untuk jenis aplikasi yang berbeda (seri waktu), kelas metode lain juga memberikan kompromi yang baik: Pemodelan Seri Waktu Struktural Bayesian. Ini mewarisi penjelasan dari pemodelan time series struktural klasik, dan beberapa fleksibilitas dari pendekatan Bayesian. Mirip dengan regresi logistik, kemampuan menjelaskannya dibantu oleh persamaan regresi yang digunakan untuk pemodelan. Lihat makalah ini untuk aplikasi yang bagus dalam pemasaran dan referensi lebih lanjut.
Terkait dengan konteks Bayesian yang baru saja disebutkan, Anda mungkin juga ingin melihat model grafis probabilistik. Keterjelasan mereka tidak bergantung pada persamaan regresi, tetapi pada cara pemodelan grafis; lihat "Model Grafis Probabilistik: Prinsip dan Teknik" oleh Koller dan Friedman untuk ikhtisar yang hebat.
Saya tidak yakin apakah kita dapat merujuk pada metode Bayesian di atas sebagai "pertukaran baik yang diterima secara umum". Mereka mungkin tidak cukup terkenal untuk itu, terutama dibandingkan dengan contoh jaring elastis.
Saya berasumsi bahwa dengan menjadi pandai dalam prediksi Anda berarti dapat menyesuaikan nonlinier hadir dalam data sambil cukup kuat untuk overfitting. Pertukaran antara interpretabilitas dan kemampuan untuk memprediksi nonlinier itu tergantung pada data dan pertanyaan yang diajukan. Tidak ada makan siang gratis dalam sains data dan tidak ada algoritma tunggal yang dapat dianggap sebagai yang terbaik untuk setiap set data (dan hal yang sama berlaku untuk interpretabilitas).
Aturan umum seharusnya adalah semakin banyak algoritma yang Anda tahu semakin baik untuk Anda karena Anda dapat mengadopsi dengan kebutuhan spesifik Anda dengan lebih mudah.
Jika saya harus memilih favorit saya untuk tugas klasifikasi yang sering saya gunakan di lingkungan bisnis saya akan memilih elastis-bersih untuk regresi logistik . Meskipun ada asumsi kuat tentang proses yang menghasilkan data, ia dapat dengan mudah mengadopsi data berkat istilah regularisasi mempertahankan interpretasinya dari regresi logistik dasar.
Saya akan menyarankan Anda untuk memilih buku yang ditulis dengan baik yang menggambarkan algoritma pembelajaran mesin yang umum digunakan dan pro dan kontra mereka dalam skenario yang berbeda. Contoh dari buku tersebut adalah The Elements of Statistics Learning oleh T. Hastie, R. Tibshirani dan J. Friedman
sumber
Mungkin melihat jawaban saya mengenai efektivitas ansambel yang tidak masuk akal, dan pengorbanan pada penjelasan versus prediksi. Minimum Message Length (MML, Wallace 2005) memberikan definisi formal penjelasan dalam hal kompresi data, dan memotivasi harapan bahwa penjelasan pada umumnya sesuai tanpa overfitting, dan penjelasan yang baik menghasilkan prediksi yang baik dan dapat digeneralisasikan. Tetapi juga menyentuh pada teori formal mengapa ansambel akan memprediksi lebih baik - hasil kembali ke (Solomonoff 1964) pada prediksi optimal dan intrinsik untuk sepenuhnya pendekatan Bayesian: berintegrasi pada distribusi posterior, jangan hanya memilih mean, median, atau mode.
sumber