Tampaknya banyak orang (termasuk saya) suka melakukan analisis data eksplorasi di Excel. Beberapa batasan, seperti jumlah baris yang dibolehkan dalam spreadsheet, menyebalkan tetapi dalam kebanyakan kasus tidak membuatnya tidak mungkin menggunakan Excel untuk bermain-main dengan data.
Namun, sebuah makalah oleh McCullough dan Heiser , secara praktis berteriak bahwa Anda akan mendapatkan hasil yang salah - dan mungkin terbakar di neraka juga - jika Anda mencoba menggunakan Excel.
Apakah makalah ini benar atau bias? Para penulis terdengar seperti mereka membenci Microsoft.
software
computational-statistics
excel
Carlos Accioly
sumber
sumber
R
atau SAS).Jawaban:
Gunakan alat yang tepat untuk pekerjaan yang tepat dan manfaatkan kekuatan alat yang Anda kenal.
Dalam kasus Excel ada beberapa masalah yang menonjol:
Harap jangan gunakan spreadsheet untuk mengelola data, bahkan jika data Anda akan cocok menjadi satu. Anda hanya meminta masalah, masalah besar. Hampir tidak ada perlindungan terhadap kesalahan ketik, grosir pencampuran data, pemotongan nilai data, dll., Dll.
Banyak fungsi statistik memang rusak. Distribusi t adalah salah satunya.
Grafik default jelek.
Tidak ada beberapa grafik statistik mendasar, terutama boxplots dan histogram.
Generator angka acak adalah lelucon (tetapi meskipun itu masih efektif untuk tujuan pendidikan).
Hindari fungsi tingkat tinggi dan sebagian besar peralatan tambahan; mereka c ** p. Tapi ini hanya prinsip umum komputasi aman: jika Anda tidak yakin apa fungsi lakukan, jangan menggunakannya. Tetap pada yang tingkat rendah (yang meliputi fungsi aritmatika, peringkat, exp, ln, fungsi trigonometri, dan - dalam batas - fungsi distribusi normal). Jangan pernah menggunakan add-in yang menghasilkan grafik: itu akan mengerikan. (NB: Sangat mudah untuk membuat plot probabilitas Anda sendiri dari awal. Mereka akan benar dan sangat dapat disesuaikan.)
Namun, yang menguntungkannya adalah sebagai berikut:
Perhitungan numerik dasarnya sama akuratnya dengan mengapung presisi ganda. Mereka termasuk beberapa yang bermanfaat, seperti log gamma.
Sangat mudah untuk membungkus kontrol di sekitar kotak input dalam spreadsheet, sehingga memungkinkan untuk membuat simulasi dinamis dengan mudah.
Jika Anda perlu berbagi perhitungan dengan orang-orang non-statistik, sebagian besar akan merasa nyaman dengan spreadsheet dan tidak ada sama sekali dengan perangkat lunak statistik, tidak peduli betapa murahnya itu.
Sangat mudah untuk menulis makro numerik yang efektif, termasuk porting kode Fortran lama, yang cukup dekat dengan VBA. Apalagi eksekusi VBA terbilang cepat. (Misalnya, saya memiliki kode yang secara akurat menghitung distribusi t non-sentral dari awal dan tiga implementasi Fast Fourier Transforms yang berbeda.)
Ini mendukung beberapa simulasi yang efektif dan add-on Monte-Carlo seperti Crystal Ball dan @Risk. (Mereka menggunakan RNG mereka sendiri, omong-omong - saya memeriksa.)
Kedekatan berinteraksi langsung dengan (satu set kecil) data tidak tertandingi: itu lebih baik daripada paket statistik, Mathematica, dll. Ketika digunakan sebagai kalkulator raksasa dengan banyak penyimpanan, spreadsheet benar-benar menjadi miliknya.
EDA yang baik , menggunakan metode yang kuat dan tahan, tidak mudah, tetapi setelah Anda melakukannya sekali, Anda dapat mengaturnya kembali dengan cepat. Dengan Excel Anda dapat mereproduksi semua perhitungan secara efektif (meskipun hanya beberapa plot) dalam buku EDA Tukey, termasuk median tabel n-arah (meskipun agak rumit).
Dalam jawaban langsung ke pertanyaan awal, ada bias dalam makalah itu: ia berfokus pada materi yang paling lemah di Excel dan bahwa seorang ahli statistik yang kompeten cenderung menggunakan. Itu bukan kritik terhadap koran, karena peringatan seperti ini perlu disiarkan.
sumber
=TINV(2*p,df)
untuk nilai p yang bervariasi dari 0,01 turun hampir menjadi 0 dan membandingkannya dengan nilai yang benar. (Saya memeriksa dengan df mulai dari 2 hingga 32.) Kesalahan dimulai pada angka signifikan keenam dan kemudian meledak setelah p berada di sekitar 1.E-5 atau lebih rendah. Meskipun nilai-nilai p ini kecil, mereka adalah nilai realistis untuk diuji karena mereka sangat penting untuk pengujian perbandingan ganda dan untuk menghitung nilai-nilai yang terkait dengan distribusi t, seperti t non-sentral.Makalah yang menarik tentang menggunakan Excel dalam pengaturan Bioinformatika adalah:
Makalah singkat ini menjelaskan masalah konversi tipe otomatis di Excel (dalam konversi tanggal dan titik mengambang tertentu). Misalnya, nama gen Sept2 diubah menjadi 2-September. Anda benar-benar dapat menemukan kesalahan ini di database online .
Menggunakan Excel untuk mengelola data dalam jumlah sedang hingga besar adalah berbahaya. Kesalahan dapat dengan mudah masuk tanpa disadari pengguna.
sumber
Nah, pertanyaan apakah makalah itu benar atau bias seharusnya mudah: Anda bisa meniru beberapa analisis mereka dan melihat apakah Anda mendapatkan jawaban yang sama.
McCullough telah mengambil versi yang berbeda dari MS Excel selama beberapa tahun sekarang, dan tampaknya MS belum terlihat cocok untuk memperbaiki kesalahan yang dia tunjukkan beberapa tahun yang lalu di versi sebelumnya.
Saya tidak melihat masalah dengan bermain-main dengan data di Excel. Tapi jujur saja, saya tidak akan melakukan analisis "serius" saya di Excel. Masalah utama saya bukanlah ketidakakuratan (yang saya kira hanya akan sangat jarang menjadi masalah) tetapi ketidakmungkinan untuk melacak dan mereplikasi analisis saya setahun kemudian ketika pengulas atau bos saya bertanya mengapa saya tidak melakukan X - Anda dapat menyimpan bekerja dan jalan buntu Anda dalam kode R yang dikomentari, tetapi tidak dengan cara yang bermakna di Excel.
sumber
Kebetulan, pertanyaan seputar penggunaan spreadsheet Google menimbulkan pendapat yang berbeda (karenanya, menarik) tentang itu, Apakah beberapa dari Anda menggunakan spreadsheet Google Documents untuk melakukan dan berbagi pekerjaan statistik Anda dengan orang lain?
Saya berpikir sebuah makalah yang lebih tua yang tampaknya tidak terlalu pesimis, tetapi hanya sedikit dikutip dalam makalah yang Anda sebutkan: Keeling dan Pavur, Sebuah studi perbandingan keandalan sembilan paket perangkat lunak statistik (CSDA 2007 51: 3811). Tapi sekarang, saya menemukan milik Anda di hard drive saya. Ada juga masalah khusus pada 2008, lihat bagian Khusus pada Microsoft Excel 2007 , dan yang lebih baru dalam Journal of Statistical Software: On the Numerical Accuracy of Spreadsheets .
Saya pikir ini adalah perdebatan lama, dan Anda akan menemukan berbagai makalah / pendapat tentang keandalan Excel untuk komputasi statistik. Saya pikir ada berbagai tingkat diskusi (analisis seperti apa yang Anda rencanakan untuk dilakukan, apakah Anda mengandalkan pemecah internal, apakah ada istilah non-linear yang memasukkan model tertentu, dll.), Dan sumber ketidakakuratan numerik mungkin muncul sebagai hasil dari kesalahan komputasi yang tepat atau masalah pilihan desain ; ini dirangkum dalam
Sekarang, untuk analisis data eksplorasi, ada berbagai alternatif yang memberikan kemampuan visualisasi yang ditingkatkan, grafik multivarian dan dinamis, misalnya GGobi - tetapi lihat utas terkait di wiki ini.
Tapi, jelas poin pertama yang Anda buat membahas masalah lain (IMO), yaitu menggunakan spreadsheet untuk menangani kumpulan data besar: sama sekali tidak mungkin untuk mengimpor file csv besar ke Excel (Saya sedang memikirkan data genomik, tetapi ini berlaku untuk jenis data dimensi tinggi lainnya). Itu belum dibangun untuk tujuan itu.
sumber
Makalah dan peserta lain menunjukkan kelemahan teknis. Whuber melakukan pekerjaan yang baik untuk menguraikan setidaknya beberapa kekuatannya. Saya pribadi melakukan pekerjaan statistik yang luas di Excel (pengujian hipotesis, regresi linier dan berganda) dan menyukainya. Saya menggunakan Excel 2003 dengan kapasitas 256 kolom dan 65.000 baris yang dapat menangani hanya sekitar 100% dari set data yang saya gunakan. Saya mengerti Excel 2007 telah memperluas kapasitas itu dengan jumlah yang sangat besar (baris dalam jutaan).
Seperti yang Whuber sebutkan, Excel juga berfungsi sebagai platform awal untuk banyak perangkat lunak tambahan yang luar biasa yang semuanya sangat kuat dan mudah digunakan. Saya sedang memikirkan Crystal Ball dan @Risk for Monte Carlo Simulation; XLStat untuk seluruh statistik dan analisis data yang kuat; Apa yang Terbaik untuk optimasi. Dan, daftarnya terus berlanjut. Ini seperti Excel setara dengan IPod atau iPad dengan jutaan Aplikasi yang luar biasa. Memang Aplikasi Excel tidak murah. Tapi, untuk apa yang mampu mereka lakukan, mereka biasanya sangat murah.
Sejauh menyangkut dokumentasi model, sangat mudah untuk memasukkan kotak teks di mana Anda benar-benar dapat menulis buku tentang metodologi Anda, sumber Anda, dll ... Anda juga dapat memasukkan komentar di sel mana pun. Jadi, jika ada, Excel sangat bagus untuk memfasilitasi dokumentasi yang disematkan.
sumber
Excel tidak baik untuk statistik, tetapi bisa sangat bagus untuk analisis data eksplorasi. Lihatlah video ini untuk beberapa teknik yang sangat menarik. Kemampuan Excel untuk secara kondisional mewarnai data Anda dan menambahkan bagan batang dalam sel dapat memberikan wawasan yang hebat tentang struktur data mentah Anda.
sumber
Sumber referensi bagus lainnya untuk alasan mengapa Anda mungkin tidak ingin menggunakan excel adalah:
Kecanduan spreadsheet
Jika Anda menemukan diri Anda dalam situasi di mana Anda benar-benar perlu menggunakan excel (beberapa departemen akreditasi bersikeras), maka saya sarankan menggunakan plugin Rexcel . Ini memungkinkan Anda antarmuka menggunakan Excel, tetapi menggunakan program R sebagai mesin komputasi. Anda tidak perlu tahu R untuk menggunakannya, Anda bisa menggunakan menu drop-down dan dialog, tetapi Anda bisa melakukan lebih banyak lagi jika melakukannya. Karena R sedang melakukan perhitungan, mereka jauh lebih dapat dipercaya daripada Excel dan Anda memiliki grafik dan plot kotak yang jauh lebih baik dan grafik lain yang hilang dari excel. Ia bahkan bekerja dengan pembaruan sel otomatis di excel (walaupun itu dapat membuat segalanya sangat lambat jika Anda memiliki banyak analisis kompleks untuk dihitung ulang setiap waktu). Itu tidak memperbaiki semua masalah dari halaman kecanduan spreadsheet, tetapi ini merupakan peningkatan besar dibandingkan menggunakan straight excel.
sumber
Excel bisa bagus untuk analisis data eksplorasi dan analisis regresi linier dengan plugin yang tepat. Ada sejumlah produk komersial, meskipun sebagian besar dari mereka meninggalkan sesuatu yang diinginkan dalam hal kualitas output yang mereka hasilkan (mereka tidak mengambil keuntungan penuh dari opsi charting Excel atau kemampuan untuk terhubung dengan aplikasi Office lainnya) dan secara umum mereka tidak sebagus untuk visualisasi dan presentasi data. Mereka juga cenderung tidak mendukung pendekatan pemodelan yang disiplin di mana (antara lain) Anda menyimpan jejak audit yang terdokumentasi dengan baik untuk pekerjaan Anda. Berikut ini adalah plugin GRATIS, "RegressIt", yang membahas banyak masalah ini: http://regressit.com. Ini memberikan dukungan yang sangat baik untuk analisis eksplorasi (termasuk kemampuan untuk menghasilkan plot time series paralel dan matriks sebar hingga 50 variabel), membuatnya mudah untuk menerapkan transformasi data seperti lagging, logging, dan differencing (yang sering tidak diterapkan) secara tepat oleh pengguna regresi yang naif), ia menyediakan tabel dan bagan keluaran yang sangat rinci yang mendukung praktik terbaik analisis data, dan mempertahankan lembar kerja jejak-audit yang memfasilitasi perbandingan model sisi-ke-sisi serta menyimpan catatan model apa dipasang dalam urutan apa. Itu membuat pelengkap yang baik untuk apa pun yang Anda gunakan, jika Anda berurusan dengan data multivarian dan setidaknya beberapa pekerjaan Anda sedang dilakukan di lingkungan Excel.
sumber