Di mana saya bisa menemukan dataset berguna untuk menguji implementasi Machine Learning saya sendiri? [Tutup]

Saat ini saya mencoba menerapkan beberapa algoritma Machine Learning sendiri. Banyak dari mereka memiliki sifat buruk karena sulit untuk di-debug, beberapa bug tidak menyebabkan program macet, tetapi lebih berfungsi tidak seperti yang dimaksudkan dan tampak sebagai algoritma hanya memberikan hasil yang lebih lemah.

Saya ingin memiliki beberapa cara untuk meningkatkan kepercayaan diri saya dalam implementasi, misalnya jika saya memiliki beberapa set data kecil, dengan informasi tambahan "Algoritma X bekerja untuk iterasi Y dan memiliki hasil Z pada dataset ini", itu akan sangat membantu. Adakah yang pernah mendengar tentang dataset tersebut?

dataset sjm.majewski
sumber

Penelitian apa yang telah Anda lakukan dalam menyelidiki pertanyaan ini? Pada blush on pertama, orang akan berpikir bahwa literatur yang Anda gunakan untuk menemukan algoritma ini akan penuh dengan dataset sampel.

whuber

Yah, saya tahu ML kebanyakan dari program Universitas, Coursea, video ceramah di internet dan beberapa makalah yang saya baca tentang topik-topik tertentu. Saya tahu ada banyak kumpulan data sampel di mana-mana, tetapi saya mencari beberapa informasi yang menunjukkan perbedaan algoritme ML, sehingga saya dapat memvalidasi implementasi saya sendiri.

sjm.majewski

Ada tulisan bagus di ICML baru-baru ini tentang masalah dengan dataset standar - yang menghentikan Anda dari berpikir terlalu keras tentang masalah dunia nyata dan kekacauan yang melibatkan masalah dunia nyata. Secara pribadi ketika saya mulai menggunakan data dunia nyata, keterampilan saya sebagai seorang praktisi berkembang. Jadi, sementara saya tidak akan menganjurkan Anda untuk menggunakan hal-hal seperti UCI sebagai batu loncatan atau pengujian, perhatikan hadiahnya!

Patrick Caldon

Anda harus menentukan jenis pembelajaran mesin apa yang Anda lakukan. Set data klasifikasi biner berbeda dari set data aproksimasi fungsi (regresi).

Douglas Zare

stackoverflow.com/questions/3272806/…

Abhishek Gupta

Jawaban:

Dari Repositori Pembelajaran Mesin UC Irvine :

Kami saat ini memelihara 223 set data sebagai layanan untuk komunitas pembelajaran mesin. Anda dapat melihat semua kumpulan data melalui antarmuka yang dapat ditelusuri. Situs web lama kami masih tersedia, bagi mereka yang lebih suka format lama. ... Jika Anda ingin menyumbangkan kumpulan data, silakan baca kebijakan donasi kami. ... Kami juga telah menyiapkan situs mirror untuk Repositori.

Juga, dataset MIAS berikut telah banyak digunakan dan dipelajari:

Ketika membuat tolok ukur suatu algoritma, disarankan untuk menggunakan database uji standar (kumpulan data) agar para peneliti dapat membandingkan langsung hasilnya. Sebagian besar basis data mamografi tidak tersedia untuk umum. Basis data yang paling mudah diakses dan karena itu basis data yang paling umum digunakan adalah basis data Mammographic Image Analysis Society (MIAS) dan Digital Database for Screening Mammography (DDSM). Selain itu, saat ini ada beberapa proyek yang mengembangkan basis data gambar mamografi baru serta beberapa proyek lama.

deepML
sumber

+1 Jika Anda terus menemukan lebih banyak sumber, silakan menambah jawaban ini.

Whuber

Repositori UCI yang disebutkan oleh Bashar mungkin adalah yang terbesar, namun saya ingin menambahkan beberapa koleksi kecil yang saya temui:

Kumpulan data dari perpustakaan Mulan Java
Kumpulan data dari lab Auton dari Sekolah Ilmu Komputer Universitas Carnegie Mellon
Kumpulan data yang digunakan dalam Elemen Buku Pembelajaran Statistik
Beberapa dataset dari kompetisi Piala KDD
Kumpulan data di Departemen Statistik , Universitas Munich

rumput laut
sumber