Kami sedang mempelajari pembelajaran mesin melalui Machine Learning: A Probabilistic Perspective (Kevin Murphy). Sementara teks menjelaskan landasan teoretis dari masing-masing algoritma, ia jarang mengatakan dalam kasus apa algoritma yang lebih baik, dan ketika itu, tidak mengatakan bagaimana mengatakan dalam kasus apa saya masuk.
Sebagai contoh, untuk pilihan kernel, saya telah diberitahu untuk melakukan analisis data eksplorasi untuk mengukur seberapa rumit data saya. Dalam data 2 dimensi yang sederhana, saya dapat memplot dan melihat apakah kernel linear atau radial sesuai. Tapi apa yang harus dilakukan di dimensi yang lebih tinggi?
Secara umum, apa yang orang maksudkan ketika mereka mengatakan "kenali data Anda" sebelum memilih suatu algoritma? Saat ini saya hanya dapat membedakan algoritma klasifikasi vs regresi, dan algoritma linear vs non-linear (yang tidak dapat saya periksa).
EDIT: Meskipun pertanyaan awal saya adalah tentang aturan praktis universal, saya diminta untuk memberikan lebih banyak informasi tentang masalah khusus saya.
Data: Panel dengan setiap baris menjadi bulan negara (~ total 30.000 baris, mencakup ~ 165 negara selama ~ 15 tahun).
Tanggapan: 5 variabel biner yang menarik (yaitu apakah protes / kudeta / krisis, dll. Terjadi di bulan itu).
Fitur: ~ 400 variabel (campuran kontinu, kategorikal, biner) yang merinci banyak karakteristik dari 2 bulan-negara sebelumnya (lag lebih lama dapat dibuat). Kami hanya menggunakan variabel lagged karena tujuannya adalah prediksi.
Contohnya termasuk, nilai tukar, pertumbuhan PDB (berkelanjutan), tingkat kebebasan pers (kategorikal), demokrasi, apakah tetangga memiliki konflik (biner). Perhatikan bahwa banyak dari 400 fitur ini adalah variabel yang tertinggal.
sumber
Ada beberapa hal yang bisa Anda periksa di data Anda.
Menurut poin-poin ini dan jenis informasi yang ingin Anda ekstrak dari data Anda, Anda dapat memutuskan algoritma apa yang digunakan.
sumber