Di mana orang bisa mendapatkan set data yang baik / masalah pengujian untuk algoritma / rutinitas pengujian?

41

Dalam mengevaluasi kualitas perangkat lunak yang akan Anda gunakan (apakah itu sesuatu yang Anda tulis atau paket kalengan) dalam pekerjaan komputasi, seringkali merupakan ide yang baik untuk melihat seberapa baik kerjanya pada set data standar atau masalah. Di mana orang bisa mendapatkan tes ini untuk memverifikasi rutinitas komputasi?

(Tolong, satu situs web / buku per jawaban.)

JM
sumber
Saya bermaksud ini menjadi posting Wiki Komunitas, dan dengan demikian telah menandainya untuk konversi.
JM
3
bukankah pertanyaan ini terlalu luas, yaitu tergantung pada algoritme / sifat masalah yang digunakan untuk diselesaikan oleh perangkat lunak ini?
Andre Holzner
Saya benar-benar ingin pertanyaan ini menjadi komunitas wiki , @Andre (sebagai "daftar besar" sumber daya); Saya telah menandai untuk konversi, tetapi saya tidak tahu mengapa itu tidak dikonversi.
JM
@ JM Saya sudah mengkonversinya.
David Ketcheson

Jawaban:

13

Metode solusi yang diproduksi adalah standar untuk menguji PDE dan pemecah lainnya. Sebagian besar sistem aljabar simbolis memiliki fasilitas untuk menghasilkan kode, ini berguna untuk membuat solusi buatan. SymPy dan Maple memiliki kode fungsi, antara lain untuk tujuan ini.

aterrel
sumber
10

Satu set tes untuk IVP (Masalah Nilai Awal untuk pemecah ODE) saat ini dikelola oleh orang-orang dari University of Bari, Italia, yang mengambil alih dari CWI Amsterdam.

Jitse Niesen
sumber
1
Beberapa set tes tambahan untuk IVP diberikan dalam jawaban ini dari JM pada Math.StackExchange: math.stackexchange.com/a/59398
David Ketcheson
8

Dalam komputasi elektromagnetisme, ada yang terkenal (atau terkenal karena kesulitan dalam beberapa) masalah tes: Pengujian Metode Analisis Elektromagnetik (TIM) .

Beberapa dari mereka benar-benar membutuhkan teknik numerik canggih untuk mendapatkan hasil simulasi yang benar selaras dengan data eksperimen. Misalnya, masalah konduktor-koil .

Seperangkat masalah pengujian untuk persamaan Maxwell dikompilasi oleh Dauge: Komputasi benchmark untuk persamaan Maxwell untuk perkiraan solusi yang sangat tunggal . Yang ada di kubus Fichera yang terkenal (atau terkenal):

fichera

ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).
Shuhao Cao
sumber
7

Jika Anda tertarik pada algoritma pembandingan yang terkait dengan struktur molekul, basis data pubchem memiliki banyak koleksi sebagian besar molekul organik. Ini mungkin berguna untuk membandingkan prediksi sifat molekuler yang diperoleh dengan model / program yang berbeda. Situs ini memiliki beberapa opsi untuk mengunduh sejumlah besar molekul yang memenuhi beberapa kriteria yang telah ditentukan (misalnya komposisi kimia).

Toon Verstraelen
sumber
7

Situs web CUTEr memperbarui set uji CUTE yang disebutkan di situs web Arnold Neumaier dengan beberapa masalah tambahan untuk pengoptimalan dan pemecah linear. Selain itu, ia menyediakan alat perangkat lunak untuk pengujian dan pembaruan aljabar linier dan pemecah optimasi.

Geoff Oxberry
sumber
7

Tes Athena jika Anda menyelesaikan hukum konservasi hiperbolik.

Andreas Klöckner
sumber
6

Untuk menguji algoritma statistik, ada A Handbook of Small Data Set oleh DJ Hand, F. Daly, K. McConway, D. Lunn, dan E. Ostrowski. Beberapa set data tersebut dapat diunduh dari sini .

JM
sumber
4

Untuk menguji analisis statistik multivariat dan algoritma pembelajaran mesin, ada repositori dataset UCI di http://www.ics.uci.edu/~mlearn/

Sam Roberts
sumber
3

Alan Genz mengusulkan serangkaian fungsi dalam makalah Pengujian rutinitas integrasi multidimensi . Saya tidak dapat menemukan versi online makalah ini, tetapi referensi untuknya dapat ditemukan di makalah tentang perpustakaan CUBA .

dl
sumber
3

Ada koleksi referensi masalah optimisasi terbatas-PDE yang dikelola oleh Roland Herzog di TU-Chemnitz di sini .

Andrew T. Barker
sumber
2

Perangkat lunak yang baik harus telah diuji, dan harus mengatakan bagaimana penulis telah menguji dan menyediakan set data uji sendiri (misalnya dalam bentuk tes regresi) atau setidaknya memberikan tautan ke data yang diuji dengan itu.

Wolfgang Bangerth
sumber
Dengar dengar; lihat Reproducibilitas ff. dan Reproducible-research-and-IPython-notebooks .
denis
2

Jika Anda mencari grafik besar atau data jaringan untuk diuji. The Analisis Stanford Jaringan Project (SNAP) memiliki banyak dataset grafik besar biasanya dalam bentuk daftar adjacency anonim. Beberapa opsi mereka termasuk:

Data

Properti Data

  • Jumlah ujung: di mana saja dari ~ 10 hingga ~ 400 juta
  • Jumlah node: di mana saja dari ~ 10 hingga ~ 100 juta
  • Jenis tepi: diarahkan, tidak diarahkan, tertimbang, tidak berbobot, ditandatangani, dan tidak ditandatangani.
  • Jenis jaringan: terarah, tidak terarah, bipartit, multigraf, temporal, berlabel.

Statistik kebenaran dasar tersedia di dataset:

Alat

ryan
sumber
@ JM tidak masalah! Saya menggunakan beberapa set data jejaring sosial mereka beberapa waktu yang lalu untuk sebuah proyek dan kemudian menemukan tumpukan pertukaran ini dan berpikir mungkin akan membantu di sini.
ryan
-3

Data mudah; API untuk mendapatkannya bisa jadi sulit. Saya merekomendasikan Quandl . Situs ini memiliki lebih dari 10 juta set data yang tersedia untuk umum yang dapat diakses melalui satu API yang mudah, REST-ful. Semua data dikembalikan dalam CSV atau JSON. Atau, jika pemrograman tidak sesuai dengan keinginan Anda, ada cara mudah untuk memasukkan data ke Excel. Pemrogram R, Python, dan Ruby akan langsung di rumah dengan pustaka asli.

Brian Risk
sumber
1
Selamat datang di Scicomp! Saya tidak berpikir ini adalah jenis data pertanyaannya; untuk menguji algoritma, Anda tidak hanya membutuhkan kumpulan data, tetapi juga hasil yang diketahui (tergantung pada masalah / algoritma) untuk membandingkan hasil Anda.
Christian Clason
Terima kasih, @ChristianClason. Saya mengerti apa yang kamu maksud. Misalnya jika perangkat lunak untuk regresi linier, penulis tertarik pada set data serta set hasil analisis yang diperiksa untuk menguji apakah paket regresi linier berkinerja dengan benar.
Brian Risk