Unggul sebagai meja kerja statistik

52

Tampaknya banyak orang (termasuk saya) suka melakukan analisis data eksplorasi di Excel. Beberapa batasan, seperti jumlah baris yang dibolehkan dalam spreadsheet, menyebalkan tetapi dalam kebanyakan kasus tidak membuatnya tidak mungkin menggunakan Excel untuk bermain-main dengan data.

Namun, sebuah makalah oleh McCullough dan Heiser , secara praktis berteriak bahwa Anda akan mendapatkan hasil yang salah - dan mungkin terbakar di neraka juga - jika Anda mencoba menggunakan Excel.

Apakah makalah ini benar atau bias? Para penulis terdengar seperti mereka membenci Microsoft.

Carlos Accioly
sumber
5
Analisis terbaru dari keakuratan perangkat lunak lembar kerja untuk perhitungan statistik muncul dalam [Kellie B. Keeling dan Robert J. Pavur (2011): Akurasi Statistik Perangkat Lunak Lembar Kerja, The American Statistician, 65: 4, 265-273] (saat ini dapat diunduh gratis di amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076 ). Hasilnya beragam dan mungkin sedikit mengejutkan. Yang perlu diperhatikan adalah peningkatan besar dalam perhitungan distribusi antara Excel 2007 dan Excel 2010 (yang tampaknya lebih akurat daripada Ratau SAS).
Whuber

Jawaban:

45

Gunakan alat yang tepat untuk pekerjaan yang tepat dan manfaatkan kekuatan alat yang Anda kenal.

Dalam kasus Excel ada beberapa masalah yang menonjol:

  • Harap jangan gunakan spreadsheet untuk mengelola data, bahkan jika data Anda akan cocok menjadi satu. Anda hanya meminta masalah, masalah besar. Hampir tidak ada perlindungan terhadap kesalahan ketik, grosir pencampuran data, pemotongan nilai data, dll., Dll.

  • Banyak fungsi statistik memang rusak. Distribusi t adalah salah satunya.

  • Grafik default jelek.

  • Tidak ada beberapa grafik statistik mendasar, terutama boxplots dan histogram.

  • Generator angka acak adalah lelucon (tetapi meskipun itu masih efektif untuk tujuan pendidikan).

  • Hindari fungsi tingkat tinggi dan sebagian besar peralatan tambahan; mereka c ** p. Tapi ini hanya prinsip umum komputasi aman: jika Anda tidak yakin apa fungsi lakukan, jangan menggunakannya. Tetap pada yang tingkat rendah (yang meliputi fungsi aritmatika, peringkat, exp, ln, fungsi trigonometri, dan - dalam batas - fungsi distribusi normal). Jangan pernah menggunakan add-in yang menghasilkan grafik: itu akan mengerikan. (NB: Sangat mudah untuk membuat plot probabilitas Anda sendiri dari awal. Mereka akan benar dan sangat dapat disesuaikan.)

Namun, yang menguntungkannya adalah sebagai berikut:

  • Perhitungan numerik dasarnya sama akuratnya dengan mengapung presisi ganda. Mereka termasuk beberapa yang bermanfaat, seperti log gamma.

  • Sangat mudah untuk membungkus kontrol di sekitar kotak input dalam spreadsheet, sehingga memungkinkan untuk membuat simulasi dinamis dengan mudah.

  • Jika Anda perlu berbagi perhitungan dengan orang-orang non-statistik, sebagian besar akan merasa nyaman dengan spreadsheet dan tidak ada sama sekali dengan perangkat lunak statistik, tidak peduli betapa murahnya itu.

  • Sangat mudah untuk menulis makro numerik yang efektif, termasuk porting kode Fortran lama, yang cukup dekat dengan VBA. Apalagi eksekusi VBA terbilang cepat. (Misalnya, saya memiliki kode yang secara akurat menghitung distribusi t non-sentral dari awal dan tiga implementasi Fast Fourier Transforms yang berbeda.)

  • Ini mendukung beberapa simulasi yang efektif dan add-on Monte-Carlo seperti Crystal Ball dan @Risk. (Mereka menggunakan RNG mereka sendiri, omong-omong - saya memeriksa.)

  • Kedekatan berinteraksi langsung dengan (satu set kecil) data tidak tertandingi: itu lebih baik daripada paket statistik, Mathematica, dll. Ketika digunakan sebagai kalkulator raksasa dengan banyak penyimpanan, spreadsheet benar-benar menjadi miliknya.

  • EDA yang baik , menggunakan metode yang kuat dan tahan, tidak mudah, tetapi setelah Anda melakukannya sekali, Anda dapat mengaturnya kembali dengan cepat. Dengan Excel Anda dapat mereproduksi semua perhitungan secara efektif (meskipun hanya beberapa plot) dalam buku EDA Tukey, termasuk median tabel n-arah (meskipun agak rumit).

Dalam jawaban langsung ke pertanyaan awal, ada bias dalam makalah itu: ia berfokus pada materi yang paling lemah di Excel dan bahwa seorang ahli statistik yang kompeten cenderung menggunakan. Itu bukan kritik terhadap koran, karena peringatan seperti ini perlu disiarkan.

whuber
sumber
7
@whuber Gambaran bagus dan praktis dari pro dan kontra!
chl
4
+1 bagus dan seimbang. Saya terutama menyukai poin tentang "kedekatan berinteraksi langsung" yang saya pikir adalah titik penjualan terbesar Excel (atau sebenarnya, spreadsheet). Pemrograman deklaratif untuk massa - yang menjelaskan mengapa beberapa orang berpikir bahwa 80% dari logika bisnis dunia ditulis dalam Excel (layak menunjukkan kepada programmer dan ahli statistik yang berdebat tentang R v SAS atau Java v C ++, dll).
ars
2
Saya mendengar bahwa Microsoft mempekerjakan beberapa analis numerik beberapa tahun yang lalu untuk memperbaiki fungsi yang rusak di Excel. Apakah Anda tahu apakah masalah dengan Excel masih ada di versi 2007 atau 2010?
John D. Cook
2
@ Zach Misalnya, menggunakan Excel 2002, hitung =TINV(2*p,df)untuk nilai p yang bervariasi dari 0,01 turun hampir menjadi 0 dan membandingkannya dengan nilai yang benar. (Saya memeriksa dengan df mulai dari 2 hingga 32.) Kesalahan dimulai pada angka signifikan keenam dan kemudian meledak setelah p berada di sekitar 1.E-5 atau lebih rendah. Meskipun nilai-nilai p ini kecil, mereka adalah nilai realistis untuk diuji karena mereka sangat penting untuk pengujian perbandingan ganda dan untuk menghitung nilai-nilai yang terkait dengan distribusi t, seperti t non-sentral.
whuber
2
Saya pikir titik peluru pertama Anda perlu memiliki bintang dan panah memanggilnya. Spreadsheet tidak memberikan jejak audit, yang sangat penting jika Anda bermaksud melakukan pekerjaan yang benar-benar diandalkan oleh seseorang. Sebaliknya, R tidak secara langsung menyediakan jejak audit, tetapi karena ia menerima perintah dan Anda dapat menyimpan perintah untuk mengimpor, preprocess, proses, grafik, dll, dalam file terpisah Anda dapat memiliki jejak apa yang Anda lakukan untuk dapatkan Grafik # 1, dan Anda dapat membuatnya kembali dari awal, kalau-kalau Anda tiba-tiba punya alasan untuk mempertanyakannya.
Wayne
18

Makalah yang menarik tentang menggunakan Excel dalam pengaturan Bioinformatika adalah:

Pengidentifikasi Keliru: Kesalahan nama gen dapat diperkenalkan secara tidak sengaja ketika menggunakan Excel dalam bioinformatika, BMC Bioinformatika, 2004 ( tautan ).

Makalah singkat ini menjelaskan masalah konversi tipe otomatis di Excel (dalam konversi tanggal dan titik mengambang tertentu). Misalnya, nama gen Sept2 diubah menjadi 2-September. Anda benar-benar dapat menemukan kesalahan ini di database online .

Menggunakan Excel untuk mengelola data dalam jumlah sedang hingga besar adalah berbahaya. Kesalahan dapat dengan mudah masuk tanpa disadari pengguna.

csgillespie
sumber
6
Ini adalah aspek Excel yang paling membuat saya marah. Penyimpanan data membutuhkan tipe data eksplisit, bukan format.
Matt Parker
3
Sebenarnya, ini adalah sesuatu tentang perangkat lunak MS secara umum yang mengganggu saya: itu mengubah input Anda menjadi apa yang ia yakini maksud Anda sebenarnya, dan Anda biasanya bahkan tidak melihatnya terjadi.
Carlos Accioly
@csgillespie (+1) Senang mendengar Excel dari perspektif ini!
chl
6
Kesalahan favorit saya terjadi ketika Excel digunakan untuk secara diam-diam memotong bidang selama ekspor ke format lain. Dalam file konsentrasi pestisida di tanah, itu mengkonversi nilai 1.000.050 (sangat beracun) menjadi 50 (hampir tidak penting) dengan memotong angka awal!
whuber
@Matt itu hanya menyebalkan jika Anda "menyimpan" data di Excel. Ini adalah fitur hebat ketika menggunakan Excel murni sebagai ujung depan untuk pelaporan dan pembuatan bagan.
Jenis Anonim
11

Nah, pertanyaan apakah makalah itu benar atau bias seharusnya mudah: Anda bisa meniru beberapa analisis mereka dan melihat apakah Anda mendapatkan jawaban yang sama.

McCullough telah mengambil versi yang berbeda dari MS Excel selama beberapa tahun sekarang, dan tampaknya MS belum terlihat cocok untuk memperbaiki kesalahan yang dia tunjukkan beberapa tahun yang lalu di versi sebelumnya.

Saya tidak melihat masalah dengan bermain-main dengan data di Excel. Tapi jujur ​​saja, saya tidak akan melakukan analisis "serius" saya di Excel. Masalah utama saya bukanlah ketidakakuratan (yang saya kira hanya akan sangat jarang menjadi masalah) tetapi ketidakmungkinan untuk melacak dan mereplikasi analisis saya setahun kemudian ketika pengulas atau bos saya bertanya mengapa saya tidak melakukan X - Anda dapat menyimpan bekerja dan jalan buntu Anda dalam kode R yang dikomentari, tetapi tidak dengan cara yang bermakna di Excel.

S. Kolassa - Reinstate Monica
sumber
2
(+1) Anda menggemakan diskusi tentang Medstats tentang perlunya menyimpan data edit dan analisis data ( j.mp/dAyGGY )! Terima kasih.
chl
Menyimpan "work and blind lorong" Anda tidak lebih sulit untuk dilakukan dengan Excel daripada dengan R. Ini hanya masalah benar-benar melakukannya. Masalah utama dengan Excel terkait dengan kekuatannya: terlalu mudah untuk mengubah sesuatu secara tidak sengaja. Tetapi untuk EDA - fokus OP - kita jarang menyimpan semua yang kita lakukan. EDA, bagaimanapun, seharusnya bersifat interaktif.
whuber
1
dimungkinkan untuk menyimpan catatan metode Anda yang dapat direproduksi jika Anda melakukannya di VB, tetapi fokus GUI Excel tidak mendorong perilaku itu.
James
7

Kebetulan, pertanyaan seputar penggunaan spreadsheet Google menimbulkan pendapat yang berbeda (karenanya, menarik) tentang itu, Apakah beberapa dari Anda menggunakan spreadsheet Google Documents untuk melakukan dan berbagi pekerjaan statistik Anda dengan orang lain?

Saya berpikir sebuah makalah yang lebih tua yang tampaknya tidak terlalu pesimis, tetapi hanya sedikit dikutip dalam makalah yang Anda sebutkan: Keeling dan Pavur, Sebuah studi perbandingan keandalan sembilan paket perangkat lunak statistik (CSDA 2007 51: 3811). Tapi sekarang, saya menemukan milik Anda di hard drive saya. Ada juga masalah khusus pada 2008, lihat bagian Khusus pada Microsoft Excel 2007 , dan yang lebih baru dalam Journal of Statistical Software: On the Numerical Accuracy of Spreadsheets .

Saya pikir ini adalah perdebatan lama, dan Anda akan menemukan berbagai makalah / pendapat tentang keandalan Excel untuk komputasi statistik. Saya pikir ada berbagai tingkat diskusi (analisis seperti apa yang Anda rencanakan untuk dilakukan, apakah Anda mengandalkan pemecah internal, apakah ada istilah non-linear yang memasukkan model tertentu, dll.), Dan sumber ketidakakuratan numerik mungkin muncul sebagai hasil dari kesalahan komputasi yang tepat atau masalah pilihan desain ; ini dirangkum dalam

M. Altman, J. Gill & MP McDonald, Masalah Numerik dalam Komputasi Statistik untuk Ilmuwan Sosial , Wiley, 2004.

Sekarang, untuk analisis data eksplorasi, ada berbagai alternatif yang memberikan kemampuan visualisasi yang ditingkatkan, grafik multivarian dan dinamis, misalnya GGobi - tetapi lihat utas terkait di wiki ini.

Tapi, jelas poin pertama yang Anda buat membahas masalah lain (IMO), yaitu menggunakan spreadsheet untuk menangani kumpulan data besar: sama sekali tidak mungkin untuk mengimpor file csv besar ke Excel (Saya sedang memikirkan data genomik, tetapi ini berlaku untuk jenis data dimensi tinggi lainnya). Itu belum dibangun untuk tujuan itu.

chl
sumber
Saya suka nuansa tentang "berbagai tingkat diskusi."
whuber
7

Makalah dan peserta lain menunjukkan kelemahan teknis. Whuber melakukan pekerjaan yang baik untuk menguraikan setidaknya beberapa kekuatannya. Saya pribadi melakukan pekerjaan statistik yang luas di Excel (pengujian hipotesis, regresi linier dan berganda) dan menyukainya. Saya menggunakan Excel 2003 dengan kapasitas 256 kolom dan 65.000 baris yang dapat menangani hanya sekitar 100% dari set data yang saya gunakan. Saya mengerti Excel 2007 telah memperluas kapasitas itu dengan jumlah yang sangat besar (baris dalam jutaan).

Seperti yang Whuber sebutkan, Excel juga berfungsi sebagai platform awal untuk banyak perangkat lunak tambahan yang luar biasa yang semuanya sangat kuat dan mudah digunakan. Saya sedang memikirkan Crystal Ball dan @Risk for Monte Carlo Simulation; XLStat untuk seluruh statistik dan analisis data yang kuat; Apa yang Terbaik untuk optimasi. Dan, daftarnya terus berlanjut. Ini seperti Excel setara dengan IPod atau iPad dengan jutaan Aplikasi yang luar biasa. Memang Aplikasi Excel tidak murah. Tapi, untuk apa yang mampu mereka lakukan, mereka biasanya sangat murah.

Sejauh menyangkut dokumentasi model, sangat mudah untuk memasukkan kotak teks di mana Anda benar-benar dapat menulis buku tentang metodologi Anda, sumber Anda, dll ... Anda juga dapat memasukkan komentar di sel mana pun. Jadi, jika ada, Excel sangat bagus untuk memfasilitasi dokumentasi yang disematkan.

Sympa
sumber
1
Terima kasih atas poin tambahan dan untuk membagikan perspektif Anda.
whuber
poin bagus, senang mendengar seseorang menggunakannya dengan cara yang benar, dan bermanfaat.
Jenis Anonim
6

Excel tidak baik untuk statistik, tetapi bisa sangat bagus untuk analisis data eksplorasi. Lihatlah video ini untuk beberapa teknik yang sangat menarik. Kemampuan Excel untuk secara kondisional mewarnai data Anda dan menambahkan bagan batang dalam sel dapat memberikan wawasan yang hebat tentang struktur data mentah Anda.

Zach
sumber
6

Sumber referensi bagus lainnya untuk alasan mengapa Anda mungkin tidak ingin menggunakan excel adalah:

Kecanduan spreadsheet

Jika Anda menemukan diri Anda dalam situasi di mana Anda benar-benar perlu menggunakan excel (beberapa departemen akreditasi bersikeras), maka saya sarankan menggunakan plugin Rexcel . Ini memungkinkan Anda antarmuka menggunakan Excel, tetapi menggunakan program R sebagai mesin komputasi. Anda tidak perlu tahu R untuk menggunakannya, Anda bisa menggunakan menu drop-down dan dialog, tetapi Anda bisa melakukan lebih banyak lagi jika melakukannya. Karena R sedang melakukan perhitungan, mereka jauh lebih dapat dipercaya daripada Excel dan Anda memiliki grafik dan plot kotak yang jauh lebih baik dan grafik lain yang hilang dari excel. Ia bahkan bekerja dengan pembaruan sel otomatis di excel (walaupun itu dapat membuat segalanya sangat lambat jika Anda memiliki banyak analisis kompleks untuk dihitung ulang setiap waktu). Itu tidak memperbaiki semua masalah dari halaman kecanduan spreadsheet, tetapi ini merupakan peningkatan besar dibandingkan menggunakan straight excel.

Greg Snow
sumber
1

Excel bisa bagus untuk analisis data eksplorasi dan analisis regresi linier dengan plugin yang tepat. Ada sejumlah produk komersial, meskipun sebagian besar dari mereka meninggalkan sesuatu yang diinginkan dalam hal kualitas output yang mereka hasilkan (mereka tidak mengambil keuntungan penuh dari opsi charting Excel atau kemampuan untuk terhubung dengan aplikasi Office lainnya) dan secara umum mereka tidak sebagus untuk visualisasi dan presentasi data. Mereka juga cenderung tidak mendukung pendekatan pemodelan yang disiplin di mana (antara lain) Anda menyimpan jejak audit yang terdokumentasi dengan baik untuk pekerjaan Anda. Berikut ini adalah plugin GRATIS, "RegressIt", yang membahas banyak masalah ini: http://regressit.com. Ini memberikan dukungan yang sangat baik untuk analisis eksplorasi (termasuk kemampuan untuk menghasilkan plot time series paralel dan matriks sebar hingga 50 variabel), membuatnya mudah untuk menerapkan transformasi data seperti lagging, logging, dan differencing (yang sering tidak diterapkan) secara tepat oleh pengguna regresi yang naif), ia menyediakan tabel dan bagan keluaran yang sangat rinci yang mendukung praktik terbaik analisis data, dan mempertahankan lembar kerja jejak-audit yang memfasilitasi perbandingan model sisi-ke-sisi serta menyimpan catatan model apa dipasang dalam urutan apa. Itu membuat pelengkap yang baik untuk apa pun yang Anda gunakan, jika Anda berurusan dengan data multivarian dan setidaknya beberapa pekerjaan Anda sedang dilakukan di lingkungan Excel.

Bob Nau
sumber