Katakanlah saya punya masalah pembelajaran mesin sederhana seperti klasifikasi. Dengan beberapa tolok ukur dalam penglihatan atau pengenalan audio, saya, sebagai manusia, adalah penggolong yang sangat baik. Karena itu saya memiliki intuisi tentang seberapa bagus classifier bisa didapat.
Tetapi dengan banyak data, satu hal adalah saya tidak tahu seberapa bagus classifier yang saya latih bisa didapat. Ini adalah data di mana saya pribadi bukan penggolong yang sangat baik (katakanlah, golongkan suasana hati seseorang dari data EEG). Sangat tidak mungkin untuk mendapatkan intuisi tentang seberapa sulit masalah saya.
Sekarang, jika saya dihadapkan dengan masalah pembelajaran mesin, saya ingin mencari tahu seberapa baik yang bisa saya dapatkan. Apakah ada pendekatan berprinsip untuk ini? Bagaimana Anda melakukan ini?
Visualisasikan data? Mulai dengan model sederhana? Mulailah dengan model yang sangat kompleks dan lihat apakah saya bisa mengenakan pakaian yang sesuai? Apa yang Anda cari jika Anda ingin menjawab pertanyaan ini? Kapan kamu berhenti berusaha?
sumber
Jika ada beberapa cara bagi Anda untuk memvisualisasikan data Anda, itu adalah skenario terbaik namun tidak semua data dapat divisualisasikan dengan cara yang sama, jadi Anda mungkin perlu menemukan cara Anda sendiri untuk memproyeksikan data yang dapat membantu Anda memahami data Anda lebih baik.
Namun, secara umum, saya biasanya mengambil sampel kecil dari data, mengubahnya menjadi ARFF dan mencoba berbagai algoritma pengelompokan dari WEKA. Kemudian, saya hanya melihat algoritma mana yang memberi saya matriks kebingungan yang lebih baik. Ini memberi saya petunjuk tentang seberapa baik kelas-kelas dipisahkan dan memungkinkan saya untuk menyelidiki mengapa algoritma tertentu lebih baik untuk data ini. Saya juga mengubah jumlah cluster (yaitu saya tidak hanya menggunakan k = 2, saya menggunakan k = 3, 4 dll). Ini memberi saya ide apakah ada fragmentasi dalam data atau apakah satu kelas lebih terfragmentasi dari yang lain. Jika Anda mencampur poin pelatihan dan pengujian bersama untuk pengelompokan, Anda juga dapat mengukur kelompok mana yang diwakili oleh poin pelatihan Anda. Beberapa cluster mungkin terlalu terwakili dan beberapa mungkin kurang terwakili, keduanya dapat menyebabkan masalah yang mempelajari classifier.
Selalu periksa akurasi pelatihan Anda. Jika akurasi pelatihan Anda tidak terlihat bagus, maka poin pelatihan yang salah klasifikasi juga merupakan petunjuk besar.
sumber