Kita sering mendengar tentang manajemen proyek dan pola desain dalam ilmu komputer, tetapi lebih jarang dalam analisis statistik. Namun, tampaknya langkah yang menentukan untuk merancang proyek statistik yang efektif dan tahan lama adalah menjaga semuanya tetap teratur.
Saya sering menganjurkan penggunaan R dan organisasi file yang konsisten dalam folder terpisah (file data mentah, file data yang diubah, skrip R, angka, catatan, dll.). Alasan utama untuk pendekatan ini adalah bahwa mungkin lebih mudah untuk menjalankan analisis Anda nanti (ketika Anda lupa bagaimana Anda menghasilkan plot yang diberikan, misalnya).
Apa praktik terbaik untuk manajemen proyek statistik , atau rekomendasi yang ingin Anda berikan dari pengalaman Anda sendiri? Tentu saja, ini berlaku untuk semua perangkat lunak statistik. ( satu jawaban per posting, silakan )
Jawaban:
Saya menyusun serangkaian panduan cepat yang saya temukan di SO (seperti yang disarankan oleh @Shane), Biostar (selanjutnya, BS), dan SE ini. Saya mencoba yang terbaik untuk mengakui kepemilikan untuk setiap item, dan untuk memilih jawaban pertama atau sangat tervvotasikan. Saya juga menambahkan barang-barang saya sendiri, dan item yang ditandai yang spesifik untuk lingkungan [R].
Manajemen data
Coding
Analisis
Versi
Pengeditan / Pelaporan
Sebagai catatan tambahan, Hadley Wickham menawarkan tinjauan komprehensif manajemen proyek R , termasuk contoh yang dapat direproduksi dan filosofi data yang terpadu .
Akhirnya, dalam Alur Kerja yang berorientasi analisis data statistik, Oliver Kirchkamp menawarkan tinjauan yang sangat terperinci tentang mengapa mengadopsi dan mematuhi alur kerja tertentu akan membantu ahli statistik berkolaborasi satu sama lain, sambil memastikan integritas data dan reproduktifitas hasil. Ini juga mencakup beberapa diskusi tentang penggunaan sistem kontrol versi tenun dan versi. Pengguna Stata mungkin menganggap J. Scott Long sebagai Alur Kerja Analisis Data Menggunakan Stata juga bermanfaat.
sumber
Ini tidak secara khusus memberikan jawaban, tetapi Anda mungkin ingin melihat pertanyaan stackoverflow terkait ini:
Anda mungkin juga tertarik dengan proyek terbaru John Myles White untuk membuat templat proyek statistik.
sumber
Ini tumpang tindih dengan jawaban Shane, tetapi dalam pandangan saya ada dua dermaga utama:
sumber
van Belle adalah yang sumber untuk aturan proyek statistik sukses.
sumber
Hanya 2 sen saya. Saya menemukan Notepad ++ bermanfaat untuk ini. Saya dapat mempertahankan skrip terpisah (kontrol program, pemformatan data, dll.) Dan file .pad untuk setiap proyek. Panggilan file .pad adalah semua skrip yang terkait dengan proyek itu.
sumber
Sementara jawaban lainnya bagus, saya akan menambahkan sentimen lain: Hindari menggunakan SPSS. Saya menggunakan SPSS untuk tesis master saya dan sekarang pada pekerjaan reguler saya dalam riset pasar.
Saat bekerja dengan SPSS, sangat sulit untuk mengembangkan kode statistik terorganisir, karena fakta bahwa SPSS buruk dalam menangani beberapa file (tentu saja, Anda dapat menangani banyak file, tetapi tidak semudah R), karena Anda tidak dapat menyimpan kumpulan data ke variabel - Anda harus menggunakan "dataset activate x" - kode, yang bisa sangat menyakitkan. Juga, sintaksnya kikuk dan mendorong singkatan, yang membuat kode lebih tak terbaca.
sumber
Jupyter Notebooks, yang bekerja dengan R / Python / Matlab / etc, menghilangkan kerumitan mengingat skrip yang menghasilkan angka tertentu. Posting ini menjelaskan cara rapi menjaga kode dan gambar tepat di samping satu sama lain. Menyimpan semua angka untuk makalah atau bab tesis dalam satu buku catatan membuat kode terafiliasi sangat mudah ditemukan.
Bahkan lebih baik, karena Anda dapat menggulir, katakanlah, selusin angka untuk menemukan yang Anda inginkan. Kode ini disembunyikan sampai dibutuhkan.
sumber