Kumpulan data gratis untuk klasifikasi dimensi sangat tinggi [ditutup]

35

Apa set data yang tersedia secara bebas untuk klasifikasi dengan lebih dari 1000 fitur (atau titik sampel jika mengandung kurva)?

Sudah ada wiki komunitas tentang kumpulan data gratis: Menemukan sampel data yang tersedia secara bebas

Tapi di sini, akan menyenangkan untuk memiliki daftar yang lebih fokus yang dapat digunakan dengan lebih nyaman , juga saya mengusulkan aturan berikut:

  1. Satu pos per dataset
  2. Tidak ada tautan ke set dataset
  3. setiap kumpulan data harus dikaitkan dengan

    • sebuah nama (untuk mencari tahu apa itu tentang) dan link ke dataset (dataset R dapat diberi nama dengan nama paket)

    • jumlah fitur (katakanlah itu p ) ukuran dataset (katakanlah itu n ) dan jumlah label / kelas (katakanlah itu k )

    • tingkat kesalahan tipikal dari pengalaman Anda (sebutkan algoritma yang digunakan untuk kata-kata) atau dari literatur (dalam hal ini menghubungkan kertas)

robin girard
sumber
+1, tetapi yang dari NIPS2003 hanya memiliki train.labels - makalah NIPS2003 mengatakan dengan jelas "validasi dan label test set ditahan".
denis
Terima kasih. Komentar tentang NIPS adalah untuk jawaban dari @mbq.
robin girard
Adakah yang punya dataset dimensional tinggi dengan lebih dari dua label kelas?
hlin117

Jawaban:

3

Dorothea
n = 1950
p = 100000 (0,1M, setengahnya adalah noise yang ditambahkan secara buatan)
k = 2 (~ 10x tidak seimbang)
Dari NIPS2003 .

user88
sumber
Bisakah Anda jelaskan bagaimana ini 100000 fitur? Saya melihat data pelatihan dan setiap baris mungkin memiliki 2500 bilangan bulat per baris.
JeremyKun
Ini adalah array yang jarang, integer N berarti atribut nilai N adalah 1.
3

Gisette
n = 13500
p = 5000 (setengahnya adalah noise yang ditambahkan secara artifisial)
k = 2 (seimbang)
Dari NIPS2003 .

pengguna88
sumber
3

Dexter
n = 2600
p = 20000 (10k + 53 adalah noise buatan)
k = 2 (seimbang)
Dari NIPS2003 .

user88
sumber
Saya tidak mengerti ... satu set per orang?
@robin & @mbq Saya sarankan untuk menyimpannya satu dataset per posting. Ini sehingga orang dapat menunjukkan dengan suara yang mana dari yang disarankan di sana juga menyarankan / mendukung
Peter Smit
@ Peter, OK, saya mengikuti ide Anda, saya telah mengubah pertanyaan sesuai.
robin girard
3

Arcene
n = 900
p = 10000 (3k adalah noise yang ditambahkan secara artifisial)
k = 2 (~ seimbang)
Dari NIPS2003 .

pengguna88
sumber
2

Prostat (susunan ekspresi gen)

  • k = 2
  • n = 48 + 52
  • p = 6033

Tersedia melalui (antara lain) Paket R spls nama dataset: prostate

tingkat kesalahan = 3/102 (lihat di sini ) juga saya pikir ada kertas yang menunjukkan tingkat kesalahan 1/102. Saya akan mengatakan ini adalah ujian mudah.

robin girard
sumber