Apakah beberapa dari Anda menggunakan spreadsheet Google Documents untuk melakukan dan berbagi pekerjaan statistik Anda dengan orang lain?

15

Saya tahu sebagian besar dari Anda mungkin merasa bahwa Google Documents masih merupakan alat primitif. Ini bukan Matlab atau R dan bahkan bukan Excel. Namun, saya bingung dengan kekuatan perangkat lunak berbasis web ini yang hanya menggunakan kemampuan operasi browser (dan kompatibel dengan banyak browser yang bekerja sangat berbeda).

Mike Lawrence, yang aktif di forum ini, telah berbagi spreadsheet dengan kami menggunakan Google Documents yang melakukan hal-hal yang cukup mewah dengannya. Saya pribadi telah mereplikasi kerangka pengujian hipotesis yang cukup menyeluruh (termasuk berbagai tes parametrik dan nonparametrik) yang awalnya dilakukan di Excel di Google Documents.

Saya tertarik jika ada di antara Anda yang mencoba Google Documents dan mendorongnya hingga batasnya dalam aplikasi yang menarik. Saya juga tertarik untuk mendengar tentang bug atau kekurangan yang Anda temui dengan Google Documents

Saya menunjuk pertanyaan ini "untuk komunitas wiki" yang menunjukkan bahwa tidak ada jawaban terbaik untuk ini. Ini lebih dari survei daripada apa pun.

Gaetan Lion
sumber
Bisakah Anda menautkan ke spreadsheet yang disediakan oleh Mike Lawrence?
Andy W
Berikut adalah URL spreadsheets.google.com/... Itu terkait dengan stats.stackexchange.com/questions/2956/…
Sympa
1
Google docs, ketika diuji secara formal, berkinerja buruk pada sebagian besar perhitungan statistik (ketika itu bisa melakukannya sama sekali). Lihat Kellie B. Keeling dan Robert J. Pavur (2011): Akurasi Statistik Perangkat Lunak Spreadsheet, The American Statistician, 65: 4, 265-273
whuber

Jawaban:

12

Penggunaan utama saya untuk spreadsheet google adalah dengan formulir google, untuk mengumpulkan data, dan kemudian dengan mudah mengimpornya ke R. Berikut adalah posting yang saya tulis setengah tahun yang lalu:

Google spreadsheet + formulir google + R = Mudah mengumpulkan dan mengimpor data untuk analisis

Juga, Jika Anda tertarik pada kolaborasi, alat pilihan saya adalah DropBox. Saya menulis posting tentang hal itu beberapa bulan yang lalu:

Menyinkronkan file di seluruh komputer menggunakan DropBox

Saya sekarang telah menggunakannya selama sekitar setengah tahun pada proyek dengan 5 penulis bersama, dan itu sangat berharga (menyinkronkan file data dari 3 kontributor, semua orang dapat melihat versi terbaru dari output yang saya hasilkan, dan semua orang mencari pada file .docx yang sama untuk artikel).

Kedua pos menawarkan tutorial video dan instruksi lisan.

Tal Galili
sumber
terima kasih atas tanggapan anda. Ini adalah jenis komentar yang tepat yang saya minati. Anda benar-benar memanfaatkan komponen berbagi dan impor dokumen Google. Bagus untukmu. Saya akan membaca materi Anda untuk mempelajari lebih lanjut tentang itu.
Sympa
Dear Gaetan, saya senang dengan tanggapan Anda - terima kasih atas kata-kata yang baik. Terbaik, Tal.
Tal Galili
19

Sebagai pengguna antusias R, bash, Python, asciidoc, (La) TeX, sofwtare open source atau alat un * x lainnya, saya tidak dapat memberikan jawaban yang objektif. Selain itu, karena saya sering berdebat menentang penggunaan MS Excel atau spreadsheet dalam bentuk apa pun (well, Anda melihat data Anda, atau bagian dari itu, tetapi apa lagi?), Saya tidak akan berkontribusi secara positif pada debat. Saya bukan satu-satunya, misalnya

Seorang kolega saya kehilangan semua makro karena kurangnya kompatibilitas ke belakang, dll. Kolega lain mencoba untuk mengimpor data genetika (sekitar 700 subjek di-genotipe pada 800.000 spidol, 120 Mo), hanya untuk "melihat mereka". Excel gagal, Notepad menyerah juga ... Saya dapat "melihat mereka" dengan vi, dan dengan cepat memformat ulang data dengan beberapa skrip sed / awk atau perl. Jadi saya pikir ada beberapa level yang perlu dipertimbangkan ketika membahas tentang kegunaan spreadsheet. Entah Anda bekerja pada set data kecil, dan hanya ingin menerapkan hal-hal statistik dasar dan mungkin baik-baik saja. Kemudian, terserah Anda untuk mempercayai hasil, atau Anda selalu dapat meminta kode sumber, tetapi mungkin akan lebih mudah untuk melakukan tes cepat dari semua prosedur sebaris dengan tolok ukur NIST. Saya tidak berpikir itu sesuai dengan cara yang baik untuk melakukan statistik hanya karena ini bukan perangkat lunak statistik yang benar (IMHO), meskipun sebagai pembaruan dari daftar yang disebutkan di atas, versi yang lebih baru dari MS Excel tampaknya telah menunjukkan peningkatan dalam akurasi untuk analisis statistik, lihat Keeling dan Pavur, Studi perbandingan keandalan sembilan paket perangkat lunak statistik ( CSDA 2007 51: 3811).

Namun, sekitar satu kertas dari 10 atau 20 (dalam biomedis, psikologi, psikiatri) termasuk grafik yang dibuat dengan Excel, kadang-kadang tanpa menghilangkan latar belakang abu-abu, garis hitam horizontal atau legenda otomatis (Andrew Gelman dan Hadley Wickham tentu saja sama bahagianya dengan saya ketika melihatnya). Tetapi lebih umum, itu cenderung menjadi "perangkat lunak" yang paling banyak digunakan menurut jajak pendapat baru - baru ini di FlowingData, yang mengingatkan saya pada pembicaraan lama Brian Ripley (yang ikut menulis paket MASS R, dan menulis buku yang bagus tentang pengenalan pola , diantara yang lain):

Jangan menipu diri sendiri: perangkat lunak yang paling banyak digunakan untuk statistik adalah Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/ ~ ripley/RSS2002.pdf

Sekarang, jika Anda merasa itu memberi Anda cara cepat dan mudah untuk menyelesaikan statistik Anda, mengapa tidak? Masalahnya adalah masih ada hal-hal yang tidak dapat dilakukan (atau setidaknya, ini agak rumit) di lingkungan seperti itu. Saya memikirkan bootstrap, permutasi, analisis data eksplorasi multivarian, untuk beberapa nama. Kecuali Anda sangat mahir dalam VBA (yang bukan scripting atau bahasa pemrograman), saya cenderung berpikir bahwa bahkan operasi kecil pada data lebih baik ditangani di bawah R (atau Matlab, atau Python, memberikan Anda mendapatkan alat yang tepat untuk menangani dengan misalnya yang disebut data.frame). Di atas semua itu, saya pikir Excel tidak mempromosikan praktik yang sangat baik untuk analis data (tetapi juga berlaku untuk "cliquodrome" apa pun, lihat diskusi tentang Medstats tentang perlunya memelihara catatan pemrosesan data,Mendokumentasikan analisis dan pengeditan data ), dan saya menemukan posting ini tentang Statistik Praktis yang relatif menggambarkan beberapa perangkap Excel. Namun, ini berlaku untuk Excel, saya tidak tahu bagaimana ini diterjemahkan ke GDocs.

Tentang berbagi pekerjaan Anda, saya cenderung berpikir bahwa Github (atau Gist untuk kode sumber) atau Dropbox (meskipun EULA mungkin membuat beberapa orang enggan) adalah pilihan yang sangat baik (revisi riwayat, manajemen hibah jika diperlukan, dll.). Saya tidak bisa mendorong penggunaan perangkat lunak yang pada dasarnya menyimpan data Anda dalam format biner. Saya tahu itu dapat diimpor dalam R, Matlab, Stata, SPSS, tetapi menurut saya:

  • data secara definitif harus dalam format teks, yang dapat dibaca oleh perangkat lunak statistik lain;
  • analisis harus dapat direproduksi, artinya Anda harus menyediakan naskah lengkap untuk analisis Anda dan harus dijalankan (kami mendekati kasus ideal di dekat sini ...) pada sistem operasi lain kapan saja;
  • perangkat lunak statistik Anda sendiri harus menerapkan algoritma yang diakui dan harus ada cara mudah untuk memperbaruinya untuk mencerminkan praktik terbaik saat ini dalam pemodelan statistik;
  • sistem berbagi yang Anda pilih harus mencakup versi dan fasilitas kolaboratif.

Itu dia.

chl
sumber
@ Gaetan Selain dari tanggapan saya, saya memberi +1 saya untuk pertanyaan itu karena saya pikir ini sangat relevan untuk berdebat tentang praktik statistik dan manajemen proyek.
chl
Sebuah komentar untuk downvote akan sangat dihargai.
chl
@ chl: walaupun saya tidak menyuarakan jawaban ini, saya pikir saya mengerti mengapa orang akan menurunkannya. Informasi yang Anda berikan adalah benar, sangat penting dan membangkitkan semangat. NAMUN, sebagian besar (kecuali untuk dua paragraf terakhir) tidak menjawab pertanyaan. Idealnya, seseorang akan menulis penafian besar ini di tempat lain dan memberikan tautannya.
Boris Gorelik
@chl: terlepas dari apa yang saya katakan dalam komentar saya, saya suka jawaban Anda dan pilih itu
Boris Gorelik
@ bbg Terima kasih atas komentar Anda. Mungkin saya tidak menjawab pertanyaan CW. Namun, saya tidak pernah bermaksud memberikan jawaban yang murni provokatif. OP bertanya tentang potensi "bug dan cacat" di GDocs: Saya memberikan ilustrasi tentang apa yang saya ketahui dari Excel, mengakui fakta bahwa saya tidak tahu bagaimana itu akan diterjemahkan ke GDocs. Saya juga memahami bagian dari pertanyaan sebagai "apa manfaat menggunakan GDocs untuk analisis data", dan saya hanya memberikan beberapa argumen yang menentang penggunaan spreadsheet untuk proyek skala besar, atau analisis di tepi pendarahan (masih, saya akui di mulai bahwa ini akan menjadi bias).
chl
10

"Saya juga tertarik untuk mendengar tentang bug atau kekurangan yang Anda temui dengan Google Documents."

Saya hanya akan menjawab bagian dari pertanyaan awal saja. Penjelajahan saya dengan Google Docs Spreadsheets (GSheets) berkaitan dengan fungsi matematika dan statistik. Pada akhirnya penilaian saya adalah bahwa Google Spreadsheets dalam hal itu jauh lebih rendah pada 2012 dari Excel 1997 yang difitnah.

Saksi: Google Sheets tampaknya mengevaluasi erfc (x) menggunakan erfc (x) = 1-erf (x) untuk argumen yang erf (x) dekat dengan 1. Mereka mengevaluasi standar deviasi atau varian melalui rata-rata kuadrat dikurangi kuadrat dari rata-rata; ini adalah praktik angka yang buruk. Fungsi kombinatorial dan probabilitas terpisah seperti poisson (n, x) = pow (x, n) * exp (-x) / n! dievaluasi faktor demi faktor, menyebabkan luapan yang tidak perlu. Faktorial dievaluasi menggunakan pendekatan faktor-demi-faktor Stirling, yang menyebabkan luapan yang tidak perlu. Distribusi Poisson kumulatif dievaluasi dengan hanya melakukan jumlah yang terbatas, sehingga properti normalisasi hilang dalam pembulatan; hal yang sama berlaku untuk distribusi binomial kumulatif. Distribusi normal kumulatif benar-benar kacau; itu berada di luar kisaran [0,1]. Ada kehilangan umum akurasi relatif terhadap implementasi fungsi yang sama dalam paket lain. Deskripsi fungsi-fungsi dasar seperti pembulatan seringkali kacau dan tidak dapat dipahami; interpretasi adalah permainan menebak.

Saya telah mendokumentasikan masalah ini dalam dua set posting di forum produk Google Documents:

(2011-11-13 dan lebih baru) normdist melempar nilai negatif masih https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 dan yang lebih baru) Kesalahan dan masalah lainnya dengan fungsi statistik dan matematika di GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

Bas Braams
sumber
1
(+1) Dengan kata lain, tampak jelas bahwa ( banyak! ) Ahli statistik di Google sama sekali tidak terlibat dalam proyek ini.
kardinal
Satu-satunya bagian dari Google Documents yang saya gunakan adalah editor, yang sangat berguna ketika mengedit secara kolaboratif secara realtime . Saya tidak berpikir git dan teman-teman menyelesaikan masalah itu!
kjetil b halvorsen