Saya baru mengenal pembelajaran mesin dan mencari beberapa set data yang melaluinya saya dapat membandingkan dan membedakan perbedaan antara algoritma pembelajaran mesin yang berbeda (Decision Trees, Boosting, SVM, dan Neural Networks)
Di mana saya dapat menemukan kumpulan data tersebut? Apa yang harus saya cari saat mempertimbangkan dataset?
Akan lebih bagus jika Anda bisa menunjuk ke beberapa dataset yang baik dan juga memberi tahu saya apa yang membuat mereka dataset yang baik?
machine-learning
dataset
Kelinci
sumber
sumber
Jawaban:
Kumpulan data di situs berikut ini tersedia secara gratis. Set data ini telah digunakan untuk mengajarkan algoritma ML kepada siswa karena untuk sebagian besar ada deskripsi dengan set data. Juga, telah disebutkan jenis algoritma apa yang berlaku.
sumber
Kaggle memiliki sejumlah data yang dapat Anda gunakan untuk berlatih.
(Aku terkejut itu tidak disebutkan sejauh ini!)
Ada dua hal (di antara banyak hal lain) yang menjadikannya sumber daya yang sangat berharga:
sumber
Pertama, saya sarankan mulai dengan data sampel yang disediakan dengan perangkat lunak. Sebagian besar distribusi perangkat lunak menyertakan contoh data yang dapat Anda gunakan untuk membiasakan diri dengan algoritma tanpa berurusan dengan tipe data dan gulat data ke dalam format yang tepat untuk algoritma. Bahkan jika Anda sedang membangun algoritma dari awal, Anda dapat mulai dengan sampel dari implementasi yang sama dan membandingkan kinerjanya.
Kedua, saya akan merekomendasikan bereksperimen dengan set data sintetis untuk merasakan bagaimana kinerja algoritma ketika Anda tahu bagaimana data dihasilkan dan rasio sinyal terhadap noise.
Di R, Anda bisa mendaftar semua dataset dalam paket yang diinstal saat ini dengan perintah ini:
Paket R mlbench memiliki dataset nyata dan dapat menghasilkan dataset sintetis yang berguna untuk mempelajari kinerja algoritma.
Scikit-learn Python memiliki data sampel dan menghasilkan dataset sintetis / mainan juga.
SAS memiliki dataset pelatihan yang tersedia untuk diunduh dan data sampel SPSS diinstal dengan perangkat lunak di C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Sampel
Terakhir, saya akan melihat data di alam liar. Saya akan membandingkan kinerja berbagai algoritme dan parameter tuning pada set data nyata. Ini biasanya membutuhkan lebih banyak pekerjaan karena Anda jarang akan menemukan dataset dengan tipe data dan struktur yang dapat Anda masukkan langsung ke dalam algoritma Anda.
Untuk data di alam, saya akan merekomendasikan:
Arsip Data reddit
Daftar KDnugget
sumber
The Iris Data set tangan ke bawah. Ada di basis R juga.
sumber
Menurut pendapat saya, Anda bisa mulai dengan dataset kecil yang tidak memiliki terlalu banyak fitur.
Salah satu contoh akan menjadi dataset Iris (untuk klasifikasi). Ini memiliki 3 kelas, 50 sampel untuk setiap kelas dengan total 150 poin data. Satu sumber yang bagus untuk membantu Anda menjelajahi dataset ini adalah seri video ini oleh Data School.
Dataset lain untuk checkout adalah set data Kualitas Anggur dari repositori UCI -ML. Ini memiliki 4898 titik data dengan 12 atribut.
sumber