Pertanyaannya: Apakah ada contoh bagus dari penelitian yang dapat direproduksi menggunakan R yang tersedia secara online secara gratis?
Contoh Ideal: Khususnya, contoh ideal akan memberikan:
- Data mentah (dan idealnya meta data yang menjelaskan data),
- Semua kode R termasuk impor data, pemrosesan, analisis, dan pembuatan keluaran,
- Sweave atau pendekatan lain untuk menghubungkan hasil akhir ke dokumen akhir,
- Semua dalam format yang mudah diunduh dan dikompilasi di komputer pembaca.
Idealnya, contohnya adalah artikel jurnal atau tesis di mana penekanannya adalah pada topik terapan yang sebenarnya sebagai lawan dari contoh pengajaran statistik.
Alasan yang menarik: Saya sangat tertarik dengan topik yang diterapkan dalam artikel jurnal dan tesis, karena dalam situasi ini, beberapa masalah tambahan muncul:
- Masalah muncul terkait dengan pembersihan dan pemrosesan data,
- Masalah muncul terkait dengan mengelola metadata,
- Jurnal dan tesis sering memiliki harapan panduan gaya mengenai penampilan dan format tabel dan gambar,
- Banyak jurnal dan tesis sering memiliki berbagai analisis yang menimbulkan masalah tentang alur kerja (yaitu, bagaimana mengurutkan analisis) dan waktu pemrosesan (misalnya, masalah analisis caching, dll.).
Melihat contoh-contoh kerja yang lengkap dapat memberikan materi pengajaran yang baik bagi para peneliti yang memulai dengan penelitian yang dapat direproduksi.
sumber
Irreproducibilitas NCI60 Prediktor Kemoterapi
Ini adalah analisis yang dapat direproduksi yang menunjukkan kurangnya reproduktifitas makalah yang telah dimuat dalam berita. Sebuah uji klinis berdasarkan kesimpulan palsu dari kertas yang tidak dapat diproduksi kembali ditangguhkan, dipasang kembali, ditangguhkan lagi, ... Ini adalah contoh yang baik dari analisis yang dapat diproduksi ulang dalam berita.
sumber
Saya punya beberapa contoh di halaman makalah penelitian saya . (Saya tidak diizinkan memposting lebih dari satu hyperlink sebagai anggota baru. Jadi saya hanya akan menjelaskan makalah di situs itu.)
(1) "Mewujudkan Efek dalam Eksperimen Acak" menggunakan sistem sketsa R.
(2) "Mengaitkan Efek pada Kampanye Get-Out-The-Vote Acak Cluster" adalah makalah yang lebih kompleks yang melibatkan beberapa simulasi yang memakan waktu. Kami menggunakan sistem berbasis Makefile dan mempostingnya ke Dataverse
(3) "EDA untuk HLM" adalah upaya saya yang paling awal. Di sini saya hanya meletakkan data dan file Sweave terkait dalam tarball.
Satu masalah yang kami temukan saat membuat arsip JASA kami adalah bahwa versi dan standar paket CRAN berubah. Jadi, dalam arsip itu, kami juga menyertakan versi paket yang kami gunakan. Sistem berbasis sketsa mungkin akan rusak ketika orang mengubah paket mereka (tidak yakin bagaimana memasukkan paket tambahan dalam paket yang merupakan Kompendium).
Akhirnya, saya bertanya-tanya tentang apa yang harus dilakukan ketika R itu sendiri berubah. Adakah cara untuk menghasilkan, katakanlah, mesin virtual yang mereproduksi seluruh lingkungan komputasi yang digunakan untuk kertas sehingga mesin virtual itu tidak besar?
Bagaimanapun, saya berharap contoh-contoh ini membantu. Setidaknya mereka menunjukkan beberapa eksperimen saya sendiri di bidang ini.
(Berikut adalah beberapa hyperlink teks biasa.)
sumber
Koenker dan Zeileis menyediakan halaman web dengan contoh yang relatif lengkap. Mereka berbagi:
sumber
Kami menulis makalah yang menjelaskan cara menggunakan R / Bioconductor ketika menganalisis data microarray. Makalah ini ditulis dalam Sweave dan semua kode yang digunakan untuk menghasilkan grafik termasuk sebagai bahan pelengkap.
Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. Menganalisis data microarray saja waktu ragi menggunakan BioConductor: studi kasus menggunakan yeast2 array Affymetrix , Catatan Riset BMC, 3:81.
sumber
Halaman Charles Geyer tentang Sweave memiliki contoh dari tesis, yang memenuhi beberapa persyaratan Anda (data mentah hanya dari paket R, tetapi kode R / sweave dan PDF akhir tersedia):
(File sumber ditautkan di bawah bagian "Bahan Pelengkap untuk Kertas".)
Saya tahu saya telah menemukan setidaknya satu contoh R menelusuri halaman materi ReproducibleResearch.net sebelumnya, tetapi sayangnya tidak membookmarknya.
sumber
Simon Jackman memiliki contoh yang sangat berguna untuk menganalisis hasil survei: "Amerika dan Australia 10 tahun setelah 9/11". Ini memiliki beberapa contoh mengintegrasikan tabel dan angka.
Dia telah membuat dokumen Sweave dan laporan PDF melalui posting blog ini .
Walaupun data mentah tidak diberikan (sejauh yang saya tahu), jadi tidak mungkin untuk menjalankan contoh-contoh Sweave yang sebenarnya, saya pikir sedikit yang adil dapat dipelajari dari mempelajari kode Sweave.
sumber
Neil Saunders menganalisis interaksi online yang terkait dengan konferensi. Beberapa properti yang menjadikannya contoh Sweave yang berguna meliputi:
ggplot
Bahan tersedia di sini:
sumber
Lihat juga Jurnal Perangkat Lunak Statistik ; mereka mendorong pembuatan makalah di Sweave.
sumber
Saya telah menemukan yang bagus di masa lalu dan akan memposting setelah saya menggali, tetapi beberapa saran umum cepat:
sumber
Robert Gentleman menulis sebuah makalah berjudul "Penelitian yang Dapat Diproduksi: Studi Kasus Bioinformatika"
Ini mengimplementasikan serangkaian analisis singkat sebagai Paket R dan menggunakan Sweave. Ini juga membahas penggunaan Sweave secara lebih umum.
Lihat bagian "File Terkait" pada halaman artikel untuk file arsip semua file dan folder yang digunakan.
Referensi:
sumber
http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1
Sebuah makalah yang bagus, oleh teman lab saya. PI kami cukup senang ketika sesuatu yang menyerupai surat penggemar masuk untuk ini. Sekarang semua publikasi dari grup memiliki metode tambahan yang diatur dalam LaTeX / Sweave. Beberapa surat kabar juga (tidak dapat memutuskan apakah akan menyimpan milik saya di LyX / Sweave atau lipat dan lakukan saja suplemen di Sweave).
sumber
Mencari contoh dan praktik adalah cara yang baik untuk belajar, tetapi saya hanya ingin menyebutkan bahwa reproduktifitas tidak hanya memiliki sisi teknis / skrip jalankan kembali, tetapi juga gaya kode dan aspek penataan, meminimalkan efek samping dalam fungsi inti dll. Saya pribadi menemukan bahwa Buku Chambers untuk Analisis Data memungkinkan Anda memahami teknik yang lebih mendalam yang membantu menghindari masalah keandalan dan reproduktifitas pada tingkat kode R.
sumber
jika Anda masih memerlukan contoh yang bagus dari analisis yang sepenuhnya DIREPRODUKSI plus PAPER, gunakan repo ini .
@ Jscamac melakukan pekerjaan yang baik dengan membuat analisisnya rproducible dan saya pribadi memvalidasinya.
Anda dapat mempelajari cara menggunakan fungsi spesifik R seperti paket
remake
untuk memastikan reproduktifitas.Hati-hati / perhitungannya membutuhkan waktu sekitar satu jam untuk diselesaikan.
Ini semua ditulis dan menghasilkan kertas LaTeX pada akhirnya dengan angka.
sumber