Hadley Wickham menulis artikel bintang yang disebut "Tidy Data" ( tautan ) di JSS tahun lalu tentang manipulasi data dan memasukkan data ke dalam kondisi "optimal" untuk melakukan analisis. Namun, saya bertanya-tanya apa praktik terbaik dalam hal menyajikan data tabular dalam pengaturan kerja? Katakanlah rekan kerja Anda meminta Anda untuk memberinya beberapa data. Apa beberapa aturan umum yang Anda gunakan saat menyusun data itu? Apakah pedoman dalam "Data Rapi" sama berlaku dalam kasus di mana Anda berbagi data dengan profesional non-data? Jelas, ini sangat spesifik konteks tapi saya bertanya tentang 'praktik terbaik' tingkat tinggi.
12
Jawaban:
Seperti yang dapat diharapkan dari Hadley, artikelnya berisi definisi data rapi yang bagus dan saya setuju dengan hampir semua yang ada di artikelnya dan percaya itu tidak hanya berlaku untuk "profesional data". Namun, beberapa poin yang ia buat relatif mudah untuk diperbaiki (misalnya, dengan paket yang ia tulis) jika beberapa masalah yang lebih mendasar dihindari. Sebagian besar masalah ini adalah hasil dari penggunaan Excel secara luas. Excel adalah alat yang berharga dan memiliki kelebihan, tetapi beberapa fasilitasnya menimbulkan masalah bagi analis data.
Beberapa poin (dari pengalaman saya):
Mungkin ada beberapa poin tambahan yang tidak terlintas di pikiran saya.
sumber
Pertama, saya biasanya orang yang mendapatkan data. Jadi ini dapat dibaca sebagai daftar keinginan saya.
Karena itu poin saya yang paling penting adalah: berbicara dengan orang yang akan menganalisis data.
Saya melihat sekilas di atas kertas: banyak yang ditulis Hadley dapat diringkas dengan 'menormalkan basis data relasional Anda'.
Tetapi dia juga menyebutkan bahwa tergantung pada apa yang sebenarnya terjadi, masuk akal untuk memiliki variabel yang sama baik dalam bentuk panjang atau lebar.
Namun, ada beberapa keuntungan praktis untuk tampilan / distribusi data yang tidak dinormalkan:
Mungkin lebih mudah untuk memeriksa apakah data sudah lengkap .
Tabel yang terhubung seperti dalam basis data relasional yang dinormalisasi adalah OK jika data sebenarnya dalam basis data (dalam arti perangkat lunak). Di sana, Anda dapat menempatkan kendala yang memastikan kelengkapan. Jika data dipertukarkan dalam bentuk beberapa tabel, dalam praktiknya tautannya akan berantakan.
Normalisasi basis data menghilangkan redudansi. Dalam kehidupan lab nyata, redudansi digunakan untuk memeriksa integritas.
Dengan demikian informasi yang berlebihan tidak boleh dihapus terlalu dini.
Memori / ukuran disk tampaknya kurang menjadi masalah saat ini. Tetapi juga jumlah data yang dihasilkan instrumen kita meningkat.
Saya bekerja dengan instrumen yang dapat dengan mudah menghasilkan 250 GB data berkualitas tinggi dalam beberapa jam. 250 GB itu dalam format array. Memperluas ini ke bentuk panjang akan meledakkannya dengan faktor setidaknya 4: masing-masing dimensi array (lateral x dan y, dan panjang gelombang λ) akan menjadi kolom, ditambah satu kolom untuk intensitas). Selain itu, langkah pertama saya selama analisis data biasanya adalah untuk memasukkan data bentuk panjang yang dinormalisasi kembali ke bentuk spektra.
Pekerjaan merapikan yang ditangani oleh poin-poin normalisasi ini membosankan dan bukan pekerjaan yang baik. Namun, dalam praktiknya saya biasanya menghabiskan lebih banyak waktu pada aspek lain dari kerapian
Memastikan integritas dan kelengkapan data dalam praktik adalah bagian besar dari pekerjaan data saya yang merapikan.
Data tidak berada dalam format yang mudah dibaca / beralih di antara format yang sedikit berbeda:
Saya mendapatkan banyak data dalam bentuk banyak file, dan biasanya beberapa informasi disimpan dalam nama file dan / atau path: perangkat lunak instrumen dan / atau format file yang dihasilkan tidak memungkinkan untuk menambahkan informasi secara konsisten, jadi kami baik memiliki tabel tambahan (seperti dalam basis data relasional) yang menautkan informasi meta ke nama file atau nama file menyandikan informasi penting.
Kesalahan ketik atau sedikit perubahan pada pola nama file menyebabkan banyak masalah di sini.
sumber