Penerus modern untuk Analisis Data Eksplorasi oleh Tukey?

52

Saya telah membaca buku Tukey "Analisis Data Eksplorasi". Ditulis pada tahun 1977, buku ini menekankan metode kertas / pensil. Apakah ada penerus yang lebih 'modern' yang memperhitungkan bahwa kita sekarang dapat langsung memplot set data besar?

biofreezer
sumber
haruskah ini wiki komunitas?
richiemorrisroe
Tidak jelas bagi saya apakah ini seharusnya CW. Mungkin tidak ada jawaban yang baik; mungkin ada satu jawaban luar biasa yang jelas; kami mungkin menghasilkan daftar panjang jawaban yang efektif. Mari lihat apa yang terjadi.
whuber
4
Ini pertanyaan yang bagus, biofreezer. Saya hanya ingin berkomentar bahwa ada analogi yang dekat dengan metode kerja lain. Favorit saya adalah, pena & kertas EDA adalah statistik modern seperti alat-alat tangan untuk pengerjaan kayu modern. ("Modern" woodworking mempekerjakan banyak alat-alat listrik seperti gergaji mesin dan router yang memungkinkan bahkan pemula untuk menghasilkan hasil yang dapat diterima dalam waktu yang jauh lebih sedikit. Namun, alat-alat ini juga mencakup ribuan digit dan anggota badan yang hilang setiap tahun. Orang-orang yang belajar menggunakan alat-alat tangan) umumnya belajar untuk bekerja lebih baik dan lebih efisien bahkan ketika mereka menggunakan alat-alat listrik.)
whuber
4
Ya, pertukangan kayu adalah analogi yang bagus (angka hilang, angka hilang). Lihat juga software-carpentry.org .
denis

Jawaban:

19

Yang paling dekat adalah Data Visualisasi Cleveland . Ini tentang Analisis Data Eksplorasi, ini tentang visualisasi yang dihasilkan komputer, ini mendalam, ini klasik.

Carlos Accioly
sumber
2
Hal yang sama juga berlaku untuk buku The Elements of Graphing Data oleh penulis yang sama. Beli keduanya; keduanya sangat baik.
Karl Ove Hufthammer
7

Grafik Interaktif untuk Analisis Data: Prinsip dan Contoh adalah yang saya sukai; deskripsi buku mengatakan itu "membahas analisis data eksplorasi (EDA) dan bagaimana metode grafis interaktif dapat membantu mendapatkan wawasan serta menghasilkan pertanyaan dan hipotesis baru dari dataset."

Aaron - Pasang kembali Monica
sumber
5

Buku ggplot2 Hadley Wickham menarik karena mengajarkan baik Grammar of Graphics dan cara menggunakan perangkat lunak ggplot2.

Jack Tanner
sumber
4

Data Eksplorasi Ronald Pearson di bidang Teknik, Ilmu, dan Kedokteran layak disebutkan di sini. Target pembaca utamanya adalah para ilmuwan yang tidak takut pada matematika kecil yang berharap mereka tahu lebih banyak statistik. Itu adalah kelompok yang cukup besar, dan satu diwakili dengan baik di sini. Agak aneh dan tidak biasa, tetapi mencakup banyak hal dan termasuk banyak saran yang masuk akal. Bukan Tukey yang ditinjau kembali dalam arti menawarkan banyak ide baru, tetapi bisa bermanfaat untuk belajar, bahkan ketika Anda berpikir itu sedikit salah kaprah.

Buku ini tampaknya telah menarik perhatian sangat sedikit, sangat mungkin karena sangat mahal, tidak jelas cocok sebagai teks saja, dan sampai sekarang hanya tersedia dalam bentuk bersampul tebal. Tapi itu cerdas dan mudah dibaca dan bebas dari sampah buku pelajaran pengantar modern (halaman dan halaman latihan dasar, ikon konyol, foto serampangan orang muda yang bahagia, tata letak rewel dengan kotak, apa pun, dll).

Nick Cox
sumber
0

Sepasang buku bagus lainnya untuk dibaca adalah Visualisasi Cantik dan Data Cantik. Ini adalah buku yang diedit, ada contoh luar biasa yang baik untuk mengeksplorasi data dengan plot, dan beberapa bab yang benar-benar mengerikan.

Buku lain yang memiliki beberapa contoh bagus menggunakan ggplot2 adalah yang baru oleh Winston Chang

Dianne Cook
sumber
1
Saya hanya ingin mengecek, Di, kalau-kalau ada kesalahan ketik merayap masuk: apakah Anda mungkin bermaksud menulis "menarik" alih-alih "mengerikan"? Meskipun keduanya masuk akal dalam konteks ini, penampilan yang terakhir - tanpa penjelasan lebih lanjut - agak mengejutkan!
whuber
2
mengerikan benar - itu adalah tas campuran - volume yang diedit sering
Dianne Cook
Saya terkejut dengan rekomendasi ini. Saya menemukan kedua buku itu sebagian besar mengecewakan (panjang tentang guff, kekurangan grafis). Sayangnya O'Reilly, yang pertama kali saya temui sebagai penerbit buku-buku Unix yang sangat bagus, tampaknya memiliki kontrol kualitas yang sangat tidak merata untuk buku-buku tentang apa pun yang bahkan bersifat statistik.
Nick Cox
Saya suka kedua buku itu, dan benar-benar merasa itu adalah kontribusi yang besar. Winston Chang's memiliki banyak detail dasar tentang merencanakan dengan ggplot2. Ini adalah referensi pemula yang baik. Ini tidak memberi tahu Anda banyak tentang mengapa Anda membuat plot ini, tetapi sebagian besar masuk akal untuk tujuan itu, dari potongan-potongan yang telah saya baca. Beautiful Visualization memiliki beberapa bab yang sangat mengesankan, menangani masalah sulit seperti memvisualisasikan wikipedia, data besar, banyak kerumitan, dan melewati proses pemikiran / keputusan yang diambil untuk membuat plot.
Dianne Cook
Kalau-kalau komentar saya ambigu: saya merujuk ke buku-buku "Cantik". Buku Winston Chang bagus dan bermanfaat.
Nick Cox
0

Saya memikirkan Memahami analisis yang kuat dan eksplorasi oleh Hoaglin, Mosteller dan Tukey dan volume pendamping pada Menjelajahi tabel dan bentuk data sebagai tindak lanjut teknis untuk EDA. Saya juga melihat analisis data dan regresi, kursus kedua dalam statistik oleh Mosteller dan Tukey sebagai tindak lanjut EDA. Berbagai buku Cleveland yang disebutkan di atas adalah harta karun.

SJC
sumber