Saya seorang asisten peneliti untuk laboratorium (sukarelawan). Saya dan kelompok kecil telah ditugaskan untuk analisis data untuk satu set data yang ditarik dari sebuah penelitian besar. Sayangnya, data dikumpulkan dengan semacam aplikasi online, dan tidak diprogram untuk menampilkan data dalam bentuk yang paling dapat digunakan.
Gambar-gambar di bawah menggambarkan masalah dasar. Saya diberitahu bahwa ini disebut "Membentuk Kembali" atau "Restruktur".
Pertanyaan: Apa proses terbaik untuk beralih dari Gambar 1 ke Gambar 2 dengan kumpulan data besar dengan lebih dari 10k entri?
r
excel
data-cleaning
Wilkoe
sumber
sumber
data.table
,dplyr
,plyr
, danreshape2
- saya sarankan menghindari Excel dan tabel pivot jika memungkinkan.Jawaban:
Seperti yang saya catat dalam komentar saya , tidak ada cukup detail dalam pertanyaan untuk jawaban nyata untuk dirumuskan. Karena Anda perlu bantuan bahkan menemukan istilah yang tepat dan merumuskan pertanyaan Anda, saya dapat berbicara secara singkat secara umum.
Istilah yang Anda cari adalah pembersihan data . Ini adalah proses mengambil data mentah, tidak diformat (kotor) dan menjadikannya untuk dianalisis. Mengubah dan mengatur format ("dua" ) dan mengatur ulang baris dan kolom adalah tugas pembersihan data yang umum.→ 2
Dalam beberapa hal, pembersihan data dapat dilakukan dalam perangkat lunak apa pun dan dapat dilakukan dengan Excel atau dengan R. Akan ada pro dan kontra untuk kedua pilihan:
R: R akan membutuhkan kurva belajar yang curam. Jika Anda tidak terlalu terbiasa dengan R atau pemrograman, hal-hal yang dapat dilakukan dengan cukup cepat dan mudah di Excel akan membuat Anda frustrasi untuk mencoba di R. Di sisi lain, jika Anda harus melakukan ini lagi, pembelajaran itu akan menjadi menghabiskan waktu dengan baik. Selain itu, kemampuan untuk menulis dan menyimpan kode Anda untuk membersihkan data dalam R akan meringankan kontra yang tercantum di atas. Berikut ini adalah beberapa tautan yang akan membantu Anda memulai tugas-tugas ini di R:
Anda bisa mendapatkan banyak informasi bagus tentang Stack Overflow :
Quick-R juga merupakan sumber daya yang berharga:
Memasukkan angka ke mode numerik:
Sumber lain yang tak ternilai untuk belajar tentang R adalah situs web bantuan statistik UCLA :
Terakhir, Anda selalu dapat menemukan banyak informasi dengan Google lama yang baik:
Pembaruan: Ini adalah masalah umum mengenai struktur dataset Anda ketika Anda memiliki beberapa pengukuran per 'unit studi' (dalam kasus Anda, seseorang). Jika Anda memiliki satu baris untuk setiap orang, data Anda dikatakan dalam bentuk 'lebar', tetapi Anda tentu akan memiliki beberapa kolom untuk variabel respons Anda, misalnya. Di sisi lain, Anda dapat memiliki hanya satu kolom untuk variabel respons Anda (tetapi sebagai hasilnya, memiliki beberapa baris per orang), dalam hal ini data Anda dikatakan dalam bentuk 'panjang'. Bergerak di antara dua format ini sering disebut 'membentuk kembali' data Anda, terutama di dunia R.
reshape()
situs bantuan statistik UCLA.reshape
sulit untuk diajak bekerja sama. Hadley Wickham telah menyumbang paket yang disebut reshape2 , yang dimaksudkan untuk menyederhanakan proses. Situs web pribadi Hadley untuk reshape2 ada di sini , ikhtisar Quick-R di sini , dan ada tutorial yang terlihat bagus di sini .sumber
Coba ikuti menggunakan R:
sumber
Dalam scala ini disebut operasi "meledak" dan dapat dilakukan pada dataFrame. Jika data Anda adalah rdd, Anda terlebih dahulu mengonversi ke dataFrame melalui
toDF
perintah dan kemudian menggunakan.explode
metode ini.sumber