Kumpulan data gratis untuk klasifikasi dimensi sangat tinggi [ditutup]

35

Apa set data yang tersedia secara bebas untuk klasifikasi dengan lebih dari 1000 fitur (atau titik sampel jika mengandung kurva)?

Sudah ada wiki komunitas tentang kumpulan data gratis: Menemukan sampel data yang tersedia secara bebas

Tapi di sini, akan menyenangkan untuk memiliki daftar yang lebih fokus yang dapat digunakan dengan lebih nyaman , juga saya mengusulkan aturan berikut:

Satu pos per dataset
Tidak ada tautan ke set dataset
setiap kumpulan data harus dikaitkan dengan
- sebuah nama (untuk mencari tahu apa itu tentang) dan link ke dataset (dataset R dapat diberi nama dengan nama paket)
- jumlah fitur (katakanlah itu p ) ukuran dataset (katakanlah itu n ) dan jumlah label / kelas (katakanlah itu k )
- tingkat kesalahan tipikal dari pengalaman Anda (sebutkan algoritma yang digunakan untuk kata-kata) atau dari literatur (dalam hal ini menghubungkan kertas)

machine-learning classification dataset large-data robin girard
sumber

+1, tetapi yang dari NIPS2003 hanya memiliki train.labels - makalah NIPS2003 mengatakan dengan jelas "validasi dan label test set ditahan".

denis

Terima kasih. Komentar tentang NIPS adalah untuk jawaban dari @mbq.

robin girard

Adakah yang punya dataset dimensional tinggi dengan lebih dari dua label kelas?

hlin117

3

Dorothea
n = 1950
p = 100000 (0,1M, setengahnya adalah noise yang ditambahkan secara buatan)
k = 2 (~ 10x tidak seimbang)
Dari NIPS2003 .

user88
sumber

Bisakah Anda jelaskan bagaimana ini 100000 fitur? Saya melihat data pelatihan dan setiap baris mungkin memiliki 2500 bilangan bulat per baris.

JeremyKun

Ini adalah array yang jarang, integer N berarti atribut nilai N adalah 1.

3

Gisette
n = 13500
p = 5000 (setengahnya adalah noise yang ditambahkan secara artifisial)
k = 2 (seimbang)
Dari NIPS2003 .

pengguna88
sumber

3

Dexter
n = 2600
p = 20000 (10k + 53 adalah noise buatan)
k = 2 (seimbang)
Dari NIPS2003 .

user88
sumber

Saya tidak mengerti ... satu set per orang?

@robin & @mbq Saya sarankan untuk menyimpannya satu dataset per posting. Ini sehingga orang dapat menunjukkan dengan suara yang mana dari yang disarankan di sana juga menyarankan / mendukung

Peter Smit

@ Peter, OK, saya mengikuti ide Anda, saya telah mengubah pertanyaan sesuai.

robin girard

3

Arcene
n = 900
p = 10000 (3k adalah noise yang ditambahkan secara artifisial)
k = 2 (~ seimbang)
Dari NIPS2003 .

pengguna88
sumber

2

Prostat (susunan ekspresi gen)

k = 2
n = 48 + 52
p = 6033

Tersedia melalui (antara lain) Paket R spls nama dataset: prostate

tingkat kesalahan = 3/102 (lihat di sini ) juga saya pikir ada kertas yang menunjukkan tingkat kesalahan 1/102. Saya akan mengatakan ini adalah ujian mudah.

robin girard
sumber

Kumpulan data gratis untuk klasifikasi dimensi sangat tinggi [ditutup]

Jawaban: