Apa set data yang tersedia secara bebas untuk klasifikasi dengan lebih dari 1000 fitur (atau titik sampel jika mengandung kurva)?
Sudah ada wiki komunitas tentang kumpulan data gratis: Menemukan sampel data yang tersedia secara bebas
Tapi di sini, akan menyenangkan untuk memiliki daftar yang lebih fokus yang dapat digunakan dengan lebih nyaman , juga saya mengusulkan aturan berikut:
- Satu pos per dataset
- Tidak ada tautan ke set dataset
setiap kumpulan data harus dikaitkan dengan
sebuah nama (untuk mencari tahu apa itu tentang) dan link ke dataset (dataset R dapat diberi nama dengan nama paket)
jumlah fitur (katakanlah itu p ) ukuran dataset (katakanlah itu n ) dan jumlah label / kelas (katakanlah itu k )
tingkat kesalahan tipikal dari pengalaman Anda (sebutkan algoritma yang digunakan untuk kata-kata) atau dari literatur (dalam hal ini menghubungkan kertas)
sumber
Jawaban:
Dorothea
n = 1950
p = 100000 (0,1M, setengahnya adalah noise yang ditambahkan secara buatan)
k = 2 (~ 10x tidak seimbang)
Dari NIPS2003 .
sumber
Gisette
n = 13500
p = 5000 (setengahnya adalah noise yang ditambahkan secara artifisial)
k = 2 (seimbang)
Dari NIPS2003 .
sumber
Dexter
n = 2600
p = 20000 (10k + 53 adalah noise buatan)
k = 2 (seimbang)
Dari NIPS2003 .
sumber
Arcene
n = 900
p = 10000 (3k adalah noise yang ditambahkan secara artifisial)
k = 2 (~ seimbang)
Dari NIPS2003 .
sumber
Prostat (susunan ekspresi gen)
Tersedia melalui (antara lain) Paket R spls nama dataset: prostate
tingkat kesalahan = 3/102 (lihat di sini ) juga saya pikir ada kertas yang menunjukkan tingkat kesalahan 1/102. Saya akan mengatakan ini adalah ujian mudah.
sumber