Lengkapi contoh substantif penelitian yang dapat direproduksi menggunakan R

71

Pertanyaannya: Apakah ada contoh bagus dari penelitian yang dapat direproduksi menggunakan R yang tersedia secara online secara gratis?

Contoh Ideal: Khususnya, contoh ideal akan memberikan:

  • Data mentah (dan idealnya meta data yang menjelaskan data),
  • Semua kode R termasuk impor data, pemrosesan, analisis, dan pembuatan keluaran,
  • Sweave atau pendekatan lain untuk menghubungkan hasil akhir ke dokumen akhir,
  • Semua dalam format yang mudah diunduh dan dikompilasi di komputer pembaca.

Idealnya, contohnya adalah artikel jurnal atau tesis di mana penekanannya adalah pada topik terapan yang sebenarnya sebagai lawan dari contoh pengajaran statistik.

Alasan yang menarik: Saya sangat tertarik dengan topik yang diterapkan dalam artikel jurnal dan tesis, karena dalam situasi ini, beberapa masalah tambahan muncul:

  • Masalah muncul terkait dengan pembersihan dan pemrosesan data,
  • Masalah muncul terkait dengan mengelola metadata,
  • Jurnal dan tesis sering memiliki harapan panduan gaya mengenai penampilan dan format tabel dan gambar,
  • Banyak jurnal dan tesis sering memiliki berbagai analisis yang menimbulkan masalah tentang alur kerja (yaitu, bagaimana mengurutkan analisis) dan waktu pemrosesan (misalnya, masalah analisis caching, dll.).

Melihat contoh-contoh kerja yang lengkap dapat memberikan materi pengajaran yang baik bagi para peneliti yang memulai dengan penelitian yang dapat direproduksi.

Jeromy Anglim
sumber

Jawaban:

14

Frank Harrell telah memukul drum pada penelitian dan laporan yang dapat direproduksi selama bertahun-tahun. Anda bisa mulai di halaman wiki ini yang mencantumkan banyak sumber daya lain, termasuk penelitian yang dipublikasikan dan juga mencakup halaman Charles Geyer.

Dirk Eddelbuettel
sumber
11

Jurnal Biostatistics memiliki Associate Editor for Reproducibility, dan semua artikelnya ditandai:

Penelitian Reproduksi

Kebijakan penelitian kami yang dapat direproduksi adalah agar makalah dalam jurnal diberi tanda layang-layang D jika data yang menjadi dasarnya tersedia secara bebas, C jika kode penulis tersedia secara bebas, dan R jika data dan kode tersedia, dan kami Associate Editor for Reproducibility dapat menggunakan ini untuk mereproduksi hasil di koran. Data dan kode diterbitkan secara elektronik di situs web jurnal sebagai Bahan Tambahan.

http://biostatistics.oxfordjournals.org/

Seberapa bagus ide itu?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract hadir dengan paket R dalam suplemen yang melakukan analisis - belum mencobanya sendiri. Juga, tidak dapat mengetahui di mana peringkat keterbukaan ditentukan. Saya mengirim email kepada editor rekanan dengan beberapa pertanyaan ...

[sunting]

Roger Peng, associate editor mengatakan kepada saya bahwa mungkin tidak ada cara untuk menemukan kertas yang dapat direproduksi tanpa mendapatkan PDF. Dia menunjuk saya pada yang memiliki 'R' bagus di atasnya (yang tidak berarti R-rated seperti film) untuk reproduksibilitas:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

Tentu saja jurnal itu sendiri tidak gratis ... # Gagal

Barry

Spacedman
sumber
1
itu bagus untuk melihat jurnal yang memprioritaskan reproduksibilitas. Pernahkah Anda melihat contoh artikel bertanda R yang bagus?
Jeromy Anglim
1
Mereka tidak memprioritaskan untuk publikasi, saya pikir mereka hanya ingin menyorotnya. Saya akan mengedit jawaban saya dengan sebuah contoh.
Spacedman
10

Irreproducibilitas NCI60 Prediktor Kemoterapi

Ini adalah analisis yang dapat direproduksi yang menunjukkan kurangnya reproduktifitas makalah yang telah dimuat dalam berita. Sebuah uji klinis berdasarkan kesimpulan palsu dari kertas yang tidak dapat diproduksi kembali ditangguhkan, dipasang kembali, ditangguhkan lagi, ... Ini adalah contoh yang baik dari analisis yang dapat diproduksi ulang dalam berita.

John D. Cook
sumber
10

Saya punya beberapa contoh di halaman makalah penelitian saya . (Saya tidak diizinkan memposting lebih dari satu hyperlink sebagai anggota baru. Jadi saya hanya akan menjelaskan makalah di situs itu.)

(1) "Mewujudkan Efek dalam Eksperimen Acak" menggunakan sistem sketsa R.

(2) "Mengaitkan Efek pada Kampanye Get-Out-The-Vote Acak Cluster" adalah makalah yang lebih kompleks yang melibatkan beberapa simulasi yang memakan waktu. Kami menggunakan sistem berbasis Makefile dan mempostingnya ke Dataverse

(3) "EDA untuk HLM" adalah upaya saya yang paling awal. Di sini saya hanya meletakkan data dan file Sweave terkait dalam tarball.

Satu masalah yang kami temukan saat membuat arsip JASA kami adalah bahwa versi dan standar paket CRAN berubah. Jadi, dalam arsip itu, kami juga menyertakan versi paket yang kami gunakan. Sistem berbasis sketsa mungkin akan rusak ketika orang mengubah paket mereka (tidak yakin bagaimana memasukkan paket tambahan dalam paket yang merupakan Kompendium).

Akhirnya, saya bertanya-tanya tentang apa yang harus dilakukan ketika R itu sendiri berubah. Adakah cara untuk menghasilkan, katakanlah, mesin virtual yang mereproduksi seluruh lingkungan komputasi yang digunakan untuk kertas sehingga mesin virtual itu tidak besar?

Bagaimanapun, saya berharap contoh-contoh ini membantu. Setidaknya mereka menunjukkan beberapa eksperimen saya sendiri di bidang ini.

(Berikut adalah beberapa hyperlink teks biasa.)

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376
Jake
sumber
Anda mengajukan beberapa pertanyaan menarik. Saya telah memposting pertanyaan terpisah mengutip Anda: stats.stackexchange.com/questions/4466/…
Jeromy Anglim
9

Koenker dan Zeileis menyediakan halaman web dengan contoh yang relatif lengkap. Mereka berbagi:

  • Rnw (kode Sweave)
  • Kode analisis R
  • PDF final
  • Diskusi masalah kontrol versi
Jeromy Anglim
sumber
8

Kami menulis makalah yang menjelaskan cara menggunakan R / Bioconductor ketika menganalisis data microarray. Makalah ini ditulis dalam Sweave dan semua kode yang digunakan untuk menghasilkan grafik termasuk sebagai bahan pelengkap.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. Menganalisis data microarray saja waktu ragi menggunakan BioConductor: studi kasus menggunakan yeast2 array Affymetrix , Catatan Riset BMC, 3:81.

csgillespie
sumber
7

Halaman Charles Geyer tentang Sweave memiliki contoh dari tesis, yang memenuhi beberapa persyaratan Anda (data mentah hanya dari paket R, tetapi kode R / sweave dan PDF akhir tersedia):

Sebuah makalah tentang teori dalam tesis Yun Ju Sung, Monte Carlo Likelihood Inference for Missing Data Models (pracetak) berisi contoh-contoh komputasi. Setiap angka di koran dan setiap plot diambil (dengan cara memotong dan menempel, saya harus akui) dari dokumen "bahan pelengkap" yang dilakukan di Sweave.

(File sumber ditautkan di bawah bagian "Bahan Pelengkap untuk Kertas".)

Saya tahu saya telah menemukan setidaknya satu contoh R menelusuri halaman materi ReproducibleResearch.net sebelumnya, tetapi sayangnya tidak membookmarknya.

ars
sumber
5

Simon Jackman memiliki contoh yang sangat berguna untuk menganalisis hasil survei: "Amerika dan Australia 10 tahun setelah 9/11". Ini memiliki beberapa contoh mengintegrasikan tabel dan angka.

Dia telah membuat dokumen Sweave dan laporan PDF melalui posting blog ini .

Walaupun data mentah tidak diberikan (sejauh yang saya tahu), jadi tidak mungkin untuk menjalankan contoh-contoh Sweave yang sebenarnya, saya pikir sedikit yang adil dapat dipelajari dari mempelajari kode Sweave.

Jeromy Anglim
sumber
5

Neil Saunders menganalisis interaksi online yang terkait dengan konferensi. Beberapa properti yang menjadikannya contoh Sweave yang berguna meliputi:

  • File rnw disediakan
  • Grafik dihasilkan menggunakan ggplot
  • Ukuran yang baik dan domain yang mudah dipahami

Bahan tersedia di sini:

Jeromy Anglim
sumber
4

Lihat juga Jurnal Perangkat Lunak Statistik ; mereka mendorong pembuatan makalah di Sweave.

pengguna88
sumber
Tidak, tidak secara formal - pengajuan LaTeX sangat dianjurkan tetapi jika Anda melihat halaman instruksi itu tidak mengandung kata Sweave. Penulis memang menggunakannya dan / atau mengirimkan kode R dengan kertas, tetapi bagi saya ini menggema poin Shane tentang sketsa paket.
Dirk Eddelbuettel
Ok, masih sebagian besar submitter menggunakannya (juga gaya jurnal termasuk Swave.sty); masalah utama adalah bahwa tidak ada Rnw yang diterbitkan, masih banyak makalah yang dibuat oleh Sweave datang dengan output Stangle.
4

Saya telah menemukan yang bagus di masa lalu dan akan memposting setelah saya menggali, tetapi beberapa saran umum cepat:

  1. Anda mungkin dapat menemukan beberapa contoh menarik dengan mencari google dengan kata kunci dan ext: rnw (yang akan mencari file dengan ekstensi sweave). Inilah contoh pencarian . Ini adalah hasil ketiga dari pencarian saya: http://www.ne.su.se/paper/araietal_source.Rnw . Berikut contoh lain dari pencarian saya: http://www.stat.umn.edu/geyer/gdor/ .
  2. Banyak paket R memiliki sketsa yang menarik yang pada dasarnya sama dengan hal yang sama. Contoh: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw
Shane
sumber
4

Robert Gentleman menulis sebuah makalah berjudul "Penelitian yang Dapat Diproduksi: Studi Kasus Bioinformatika"

Ini mengimplementasikan serangkaian analisis singkat sebagai Paket R dan menggunakan Sweave. Ini juga membahas penggunaan Sweave secara lebih umum.

Lihat bagian "File Terkait" pada halaman artikel untuk file arsip semua file dan folder yang digunakan.

Referensi:

  • Gentleman, Robert (2005) "Penelitian Reproduksi: Studi Kasus Bioinformatika," Aplikasi Statistik dalam Genetika dan Biologi Molekuler: Vol. 4: Masalah. 1, Pasal 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Tersedia di: http://www.bepress.com/sagmb/vol4/iss1/art2
Jeromy Anglim
sumber
4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Sebuah makalah yang bagus, oleh teman lab saya. PI kami cukup senang ketika sesuatu yang menyerupai surat penggemar masuk untuk ini. Sekarang semua publikasi dari grup memiliki metode tambahan yang diatur dalam LaTeX / Sweave. Beberapa surat kabar juga (tidak dapat memutuskan apakah akan menyimpan milik saya di LyX / Sweave atau lipat dan lakukan saja suplemen di Sweave).

Tim
sumber
3

Mencari contoh dan praktik adalah cara yang baik untuk belajar, tetapi saya hanya ingin menyebutkan bahwa reproduktifitas tidak hanya memiliki sisi teknis / skrip jalankan kembali, tetapi juga gaya kode dan aspek penataan, meminimalkan efek samping dalam fungsi inti dll. Saya pribadi menemukan bahwa Buku Chambers untuk Analisis Data memungkinkan Anda memahami teknik yang lebih mendalam yang membantu menghindari masalah keandalan dan reproduktifitas pada tingkat kode R.

zzr
sumber
2

jika Anda masih memerlukan contoh yang bagus dari analisis yang sepenuhnya DIREPRODUKSI plus PAPER, gunakan repo ini .

@ Jscamac melakukan pekerjaan yang baik dengan membuat analisisnya rproducible dan saya pribadi memvalidasinya.

Anda dapat mempelajari cara menggunakan fungsi spesifik R seperti paket remakeuntuk memastikan reproduktifitas.

Hati-hati / perhitungannya membutuhkan waktu sekitar satu jam untuk diselesaikan.

Ini semua ditulis dan menghasilkan kertas LaTeX pada akhirnya dengan angka.

WojciechF
sumber