Langkah awal apa yang harus saya gunakan untuk memahami kumpulan data besar, dan alat apa yang harus saya gunakan?

10

Peringatan: Saya seorang pemula yang lengkap dalam hal pembelajaran mesin, tetapi ingin sekali belajar.

Saya memiliki dataset besar dan saya mencoba menemukan pola di dalamnya. Mungkin ada / mungkin tidak ada korelasi di seluruh data, baik dengan variabel yang diketahui, atau variabel yang terkandung dalam data tetapi yang belum saya sadari sebenarnya adalah variabel / relevan.

Saya menduga ini akan menjadi masalah yang biasa di dunia analisis data, jadi saya punya beberapa pertanyaan:

  1. 'Peluru perak' adalah untuk membuang semua data ini ke dalam statistik / program analisis data dan untuk mengolah data mencari pola yang diketahui / tidak diketahui yang berusaha menemukan hubungan. Apakah SPSS cocok, atau ada aplikasi lain yang mungkin lebih cocok.

  2. Haruskah saya belajar bahasa seperti R, dan mencari tahu cara memproses data secara manual. Tidakkah ini mengkompromikan hubungan temuan karena saya harus secara manual menentukan apa dan bagaimana menganalisis data?

  3. Bagaimana penambang data profesional mendekati masalah ini dan langkah apa yang akan diambilnya?

pengguna3791372
sumber

Jawaban:

11

Saya akan mencoba menjawab pertanyaan Anda, tetapi sebelum saya ingin mencatat bahwa menggunakan istilah "dataset besar" menyesatkan, karena "besar" adalah konsep relatif . Anda harus memberikan perincian lebih lanjut. Jika Anda berurusan dengan data tawaran , maka fakta ini kemungkinan besar akan memengaruhi pemilihan alat , pendekatan , dan algoritme yang disukai untuk analisis data Anda . Saya harap pemikiran saya berikut tentang analisis data menjawab sub-pertanyaan Anda. Harap perhatikan bahwa penomoran poin saya tidak cocok dengan penomoran sub-pertanyaan Anda. Namun, saya percaya bahwa itu lebih baik mencerminkan alur kerja analisis data umum , setidaknya, bagaimana saya memahaminya.

1) Pertama, saya pikir Anda harus memiliki setidaknya beberapa jenis model konseptual dalam pikiran (atau, lebih baik, di atas kertas). Model ini harus memandu Anda dalam analisis data eksplorasi Anda (EDA) . Kehadiran variabel dependen (DV) dalam model berarti bahwa dalam fase pembelajaran mesin Anda (ML) nanti dalam analisis Anda akan berurusan dengan yang disebut ML terawasi, sebagai lawan dari ML tanpa pengawasan tanpa adanya DV yang diidentifikasi.

2) Kedua, EDA adalah bagian yang sangat penting. IMHO, EDA harus mencakup beberapa iterasi untuk menghasilkan statistik deskriptif dan visualisasi data , saat Anda memperbaiki pemahaman Anda tentang data. Tidak hanya fase ini akan memberi Anda wawasan berharga tentang dataset Anda, tetapi juga akan memberi makan fase penting Anda selanjutnya - pembersihan dan transformasi data . Hanya membuang data mentah Anda ke dalam paket perangkat lunak statistik tidak akan memberikan banyak - untuk analisis statistik yang valid , data harus bersih, benar, dan konsisten . Ini seringkali merupakan bagian yang paling memakan waktu dan tenaga, tetapi sangat penting. Untuk detail lebih lanjut tentang topik ini, baca makalah bagus ini:http://vita.had.co.nz/papers/tidy-data.pdf (oleh Hadley Wickham) dan http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (oleh Edwin de Jonge dan Mark van der Loo).

3) Sekarang, seperti yang Anda harapkan dilakukan dengan EDA serta pembersihan dan transformasi data, Anda siap untuk memulai beberapa fase yang lebih terlibat secara statistik. Salah satu fase tersebut adalah exploratory factor analysis (EFA) , yang akan memungkinkan Anda untuk mengekstrak struktur yang mendasari data Anda. Untuk dataset dengan sejumlah besar variabel, efek samping positif dari EFA adalah pengurangan dimensionalitas . Dan, sementara dalam arti itu EFA mirip dengan analisis komponen utama (PCA)dan pendekatan pengurangan dimensi lain, saya pikir EFA lebih penting karena memungkinkan untuk memperbaiki model konseptual Anda dari fenomena yang data Anda "jelaskan", sehingga masuk akal dari dataset Anda. Tentu saja, selain EFA, Anda dapat / harus melakukan analisis regresi serta menerapkan teknik pembelajaran mesin , berdasarkan temuan Anda di fase sebelumnya.

Akhirnya, catatan tentang perangkat lunak . Menurut pendapat saya, keadaan saat ini dari paket perangkat lunak statistik pada titik sedemikian sehingga hampir semua paket perangkat lunak utama memiliki penawaran fitur yang sebanding. Jika Anda belajar atau bekerja di organisasi yang memiliki kebijakan dan preferensi tertentu dalam hal perangkat lunak, maka Anda dibatasi olehnya. Namun, jika itu tidak terjadi, saya sungguh-sungguh akan merekomendasikan perangkat lunak statistik open source , berdasarkan kenyamanan Anda dengan bahasa pemrograman yang spesifik , kurva belajar dan perspektif karir Anda . Platform pilihan saya saat ini adalah Proyek R, yang menawarkan perangkat lunak statistik yang matang, kuat, fleksibel, luas, dan terbuka, bersama dengan ekosistem paket, pakar, dan penggemar yang luar biasa. Pilihan bagus lainnya termasuk Python , Julia dan perangkat lunak open source khusus untuk memproses data besar , seperti Hadoop , Spark , database NoSQL , WEKA . Untuk lebih banyak contoh perangkat lunak sumber terbuka untuk penggalian data , yang mencakup statistik umum dan spesifik dan perangkat lunak ML, lihat bagian ini dari halaman Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .

UPDATE: Lupa menyebutkan Rattle ( http://rattle.togaware.com ), yang juga merupakan perangkat lunak GUI berorientasi-sumber terbuka yang sangat populer untuk penambangan data.

Aleksandr Blekh
sumber
1
Setelah kembali ke pertanyaan ini lebih dari setahun kemudian, saya pasti bisa menggemakan bahwa mengetahui data Anda adalah kunci dan Anda harus mengingat apa itu data "baik" dan data "buruk". Saya mencoba menggunakan solusi ajaib seperti jaringan saraf dll, tetapi proses pembersihan data tidak mudah. (Model markov tersembunyi tampaknya merespons yang terbaik untuk input kotor dan mampu memprediksi output terbaik). Itu hanya menuangkan data selama berminggu-minggu setelah ML gagal dan setelah membuat banyak grafik (representasi visual dari data sangat penting) bahwa saya dapat menemukan solusi untuk masalah saya!
user3791372
@ user3791372 Senang mendengar dari Anda! Tampaknya tahun itu produktif bagi Anda dalam memperoleh pemahaman yang jauh lebih baik tentang berbagai aspek ilmu data. Saya berharap memiliki lebih banyak kesempatan untuk belajar lebih banyak, tetapi, di sisi lain, saya tidak bisa mengeluh karena saya belajar cukup banyak juga (tidak selalu terkait dengan ilmu data, tetapi, mungkin, bahkan lebih baik). Teruskan!
Aleksandr Blekh
3
  1. SPSS adalah alat yang hebat, tetapi Anda dapat mencapai banyak hal dengan sumber daya yang sudah Anda miliki di komputer Anda, seperti Excel, atau yang gratis, seperti proyek-R. Meskipun alat ini sangat kuat, dan dapat membantu Anda mengidentifikasi pola, Anda harus memiliki pemahaman yang kuat tentang data Anda sebelum menjalankan analisis (saya akan merekomendasikan menjalankan statistik deskriptif pada data Anda, dan menjelajahi data dengan grafik untuk memastikan semuanya terlihat normal). Dengan kata lain, alat yang Anda gunakan tidak akan menawarkan "peluru perak", karena output hanya akan sama berharganya dengan input (Anda tahu pepatah ... "sampah masuk, sampah keluar"). Banyak dari apa yang saya katakan telah dinyatakan dalam balasan oleh Aleksandr - tepat.

  2. R dapat menjadi tantangan bagi kita yang tidak paham pengkodean, tetapi sumber daya gratis yang terkait dengan R dan paketnya berlimpah. Jika Anda berlatih mempelajari program, Anda akan dengan cepat mendapatkan daya tarik. Sekali lagi, Anda harus terbiasa dengan data Anda dan analisis yang ingin Anda jalankan, dan fakta itu tetap terlepas dari alat statistik yang Anda gunakan.

  3. Saya akan mulai dengan menjadi sangat akrab dengan data saya (ikuti langkah-langkah yang diuraikan dalam balasan dari Aleksandr, sebagai permulaan). Anda mungkin mempertimbangkan untuk mengambil buku John Foreman yang disebut Data Smart. Ini adalah buku praktis, karena John memberikan kumpulan data dan Anda mengikuti contohnya (menggunakan Excel) untuk mempelajari berbagai cara menavigasi dan menjelajahi data. Untuk pemula, ini adalah sumber yang bagus.

Kegembiraan
sumber
2

Aleksandr telah memberikan penjelasan yang sangat menyeluruh, tetapi secara singkat, ini adalah langkah-langkah yang diikuti:

Mengekstrak data

Membersihkan data

Ekstraksi fitur

Model bangunan

Menyimpulkan hasil

Hasil penerbitan

Ulangi langkah 3,4,5 dalam lingkaran sampai Anda mendapatkan akurasi yang tepat.

Ram
sumber
0

R memiliki dialog GUI pnc seperti SPSS. Mereka mencetak kode R sehingga Anda dapat mempelajari dan menggabungkan upaya mereka. Saya akan merekomendasikan BlueSky untuk dialog untuk semuanya dan rattle. Walaupun perangkat lunak ini sangat bagus untuk EDA, statistik dan visualisasi, pembelajaran mesin mereka tidak melakukannya dengan baik.

ran8
sumber