Opsi hosting untuk data yang tersedia untuk umum

12

Jadi Anda telah memutuskan untuk mendukung gagasan penelitian yang dapat direproduksi dan ingin membuat data Anda tersedia secara online untuk dilihat dan digunakan orang. Pertanyaannya adalah, di mana Anda menyimpannya?

Kecenderungan pertama saya tentu saja adalah ruang web pribadi yang saya miliki di server universitas, tetapi hal-hal ini sebenarnya tidak terlalu persisten - jika saya pergi, direktori tetap membuka periode waktu yang sangat singkat sebelum menghilang. Pengaturan yang sulit untuk menjaga data tersedia bagi orang untuk digunakan dan bekerja dengan di masa depan.

Apakah Anda menggunakan sesuatu seperti GitHub atau SourceForge? Atau layanan lain?

Data yang dimaksud adalah output dari beberapa simulasi dengan minat yang sangat sempit - jadi saya tidak perlu berpikir di suatu tempat seperti InfoChimps atau salah satu dari repositori data publik adalah rumah yang tepat untuk itu. Ini kurang "Anda dapat mempelajari berbagai hal dengan kode ini!" dan banyak lagi "Anda dapat mereplikasi Gambar 3 di tulisan ini".

Fomite
sumber
1
Relevan, mungkin rangkap: stats.stackexchange.com/questions/10045/…
Matt Parker
1
Sangat relevan - menambahkan beberapa detail yang menunjukkan mengapa saya tidak menganggapnya sebagai duplikat.
Fomite
@EpiGrad: Tanggal seperti apa yang Anda pikirkan? Jika itu adalah kode sumber yang terkait dengan proyek penelitian Anda, Anda dapat melampirkannya pada pracetak arXiv Anda .
Piotr Migdal
@PiotrMigdal Idealnya, saya ingin data dapat hang out selama beberapa tahun, cukup lama untuk propagasi kutipan kertas biasa dll. Saya akan melampirkannya ke preprint arXiv jika hanya bidang saya yang menggunakannya;)
Fomite
@EpiGrad Maka mungkin tempat yang baik untuk mencari adalah Open Data sebagai aspek dari Open Science - michaelnielsen.org/blog/open-science .
Piotr Migdal

Jawaban:

4

Salah satu opsi sederhana adalah github .

Saya menggunakannya sedikit untuk berbagi data dan kode analisis data. Beberapa contoh baik dari orang lain yang membagikan kode dan data di situs tercantum pada pertanyaan ini .

Manfaat github

  • Mudah diunggah setelah Anda terbiasa dengan git, dan mengapa tidak menggunakan git untuk kebutuhan kontrol versi Anda.
  • Anda dapat menggunakan inti untuk file tunggal sederhana
  • Sangat mudah bagi orang lain untuk mengunduh file tunggal atau banyak sebagai arsip
  • Ini memiliki jumlah penyimpanan gratis yang bagus
  • kode sumber dapat diakses di internet
  • dan banyak lagi ...

Tentu saja, github tidak sempurna untuk data. Saya dapat melihat manfaat menggunakan repositori institusional yang lebih permanen atau alat khusus lainnya untuk pengarsipan yang lebih serius.

Jeromy Anglim
sumber
1
Ini sebenarnya solusi yang saya gunakan. Bagian dari masalah dengan repositori institusional adalah bahwa di institusi mana saya berada dalam fluks, dan data tidak benar-benar cukup penting untuk salah satu gudang big data.
Fomite
4

Pilihan lain tampaknya Dataverse , yang tersedia sebagai layanan dan perangkat lunak sumber terbuka. Tapi saya tidak mencobanya.

Karsten W.
sumber
2

Satu kemungkinan bagi mereka yang berada dalam akademis adalah penggunaan repositori digital kampus yang sering diselenggarakan oleh perpustakaan kampus (bagi saya lokus logis untuk kumpulan data yang menyertai publikasi).

Repositori digital (gratis) yang populer adalah DSpace yang, menurut pemahaman saya, dapat meng-host set data. Tetapi ini adalah layanan yang harus dihosting seseorang di institusi Anda.

MannyG
sumber