Pengenalan aktivitas manusia menggunakan masalah kumpulan data ponsel cerdas

9

Saya baru di komunitas ini dan semoga pertanyaan saya cocok di sini. Sebagai bagian dari kursus analisis data sarjana saya, saya telah memilih untuk melakukan proyek pengenalan aktivitas manusia menggunakan set data ponsel cerdas. Sejauh yang saya ketahui, topik ini berkaitan dengan Pembelajaran Mesin dan Dukungan Mesin Vektor. Saya belum terbiasa dengan teknologi ini, jadi saya akan membutuhkan bantuan.

Saya telah memutuskan untuk mengikuti ide proyek ini http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (proyek pertama di atas) Tujuan proyek adalah menentukan kegiatan apa yang dilakukan seseorang. terlibat dalam (misalnya, WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LAYING) dari data yang direkam oleh telepon pintar (Samsung Galaxy S II) di pinggang subjek. Dengan menggunakan accelerometer dan giroskop yang tertanam, data mencakup akselerasi linear 3-aksial dan kecepatan sudut 3-aksial pada kecepatan konstan 50Hz.

Semua kumpulan data diberikan dalam satu folder dengan beberapa deskripsi dan label fitur. Data dibagi untuk file 'test' dan 'train' di mana data direpresentasikan dalam format ini:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

Dan itu hanya sampel yang sangat kecil dari isi file tersebut.

Saya tidak benar-benar tahu apa yang diwakili oleh data ini dan bagaimana bisa ditafsirkan. Juga untuk menganalisis, klasifikasi, dan pengelompokan data, alat apa yang harus saya gunakan? Apakah ada cara saya bisa memasukkan data ini ke excel dengan label yang disertakan dan misalnya menggunakan R atau python untuk mengekstrak data sampel dan bekerja pada ini?

Petunjuk / tips akan sangat dihargai.

Jakubee
sumber

Jawaban:

8

Definisi kumpulan data ada di halaman di sini:

Informasi Atribut di bagian bawah

atau Anda dapat melihat di dalam folder ZIP file bernama activity_labels, yang memiliki judul kolom di dalamnya, pastikan Anda membaca README dengan hati-hati, ia memiliki beberapa info bagus di dalamnya. Anda dapat dengan mudah membawa .csvfile dalam R menggunakan read.csvperintah.

Misalnya jika Anda memberi nama file, samsungdataAnda dapat membuka R dan menjalankan perintah ini:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Atau jika Anda sudah berada di dalam direktori kerja di R Anda bisa menjalankan yang berikut ini

data <- read.csv("samsungdata.csv", header = TRUE)

Di mana nama datadapat diubah menjadi apa pun yang Anda ingin memanggil kumpulan data Anda.

MCP_infiltrator
sumber
Saya melihat. Saya memang mempelajari file README, namun saya masih belum bisa mengetahui bagaimana data itu sendiri dapat dibaca. Sebagai contoh, train / X_train.txt'file mewakili set pelatihan (data sampel yang saya tunjukkan di pos berasal dari file ini).
Jakubee
Sepertinya saya bahwa kumpulan data agak luas, ada 561 variabel per baris yang terdaftar di dalam file features.txt. Saya percaya itulah yang Anda maksudkan.
MCP_infiltrator
Jadi masing-masing variabel dari file 'fitur' sesuai dengan setiap kolom dalam file misalnya 'x-test.txt', atau Apakah saya salah?
Jakubee
Begitulah cara saya mengambilnya. Dari apa yang saya dapat kumpulkan dari README itulah yang berisi file tersebut.
MCP_infiltrator
@ Yakubee Ya. Ada 561 baris / nama variabel dalam features.txtfile, dan 561 kolom dalam X_train.txtfile, satu untuk setiap variabel.
Marco13
5

Sepertinya ini (atau kumpulan data yang sangat mirip) digunakan untuk kursus Coursera. Membersihkan dataset ini adalah tugas untuk Mendapatkan dan Membersihkan Data , tetapi juga digunakan untuk studi kasus untuk analisis Data Eksplorasi . Video dari studi kasus ini tersedia dalam video untuk minggu ke-4 kursus-EDA. Mungkin membantu Anda memulai dengan data ini.

Damian Melniczuk
sumber