Data Sains berorientasi dataset / pertanyaan penelitian untuk tesis MSc Statistik

11

Saya ingin menjelajahi 'ilmu data'. Istilah ini agak samar bagi saya, tetapi saya berharap ini membutuhkan:

  1. pembelajaran mesin (bukan statistik tradisional);
  2. dataset yang cukup besar sehingga Anda harus menjalankan analisis pada cluster.

Apa saja dataset dan masalah yang baik, yang dapat diakses oleh ahli statistik dengan latar belakang pemrograman, yang dapat saya gunakan untuk menjelajahi bidang ilmu data?

Untuk menjaga ini sesempit mungkin, idealnya saya ingin tautan untuk membuka, dataset yang digunakan dengan baik dan contoh masalah.

pengguna3279453
sumber

Jawaban:

5

The Sunlight Foundation adalah organisasi yang berfokus untuk membuka dan mendorong analisis data pemerintah yang tidak berpihak.

Ada banyak analisis di luar sana di alam liar yang dapat digunakan untuk perbandingan, dan berbagai macam topik.

Mereka menyediakan alat dan apis untuk mengakses data, dan telah membantu mendorong agar data tersedia di tempat-tempat seperti data.gov .

Salah satu proyek yang menarik adalah Influence Explorer . Anda dapat memperoleh data sumber di sini juga akses ke data waktu nyata.

Anda mungkin juga ingin melihat salah satu pertanyaan kami yang lebih populer:

Kumpulan data yang tersedia untuk umum .

Steve Kallestad
sumber
5

Apakah Master Anda dalam Ilmu Komputer? Statistik?

Apakah 'ilmu data' akan menjadi pusat tesis Anda? Atau topik sampingan?

Saya akan menganggap Anda dalam Statistik dan bahwa Anda ingin memfokuskan tesis Anda pada masalah 'ilmu data'. Jika demikian, maka saya akan menentang butir dan menyarankan agar Anda tidak memulai dengan kumpulan data atau metode ML. Sebaliknya, Anda harus mencari masalah penelitian menarik yang kurang dipahami atau di mana metode ML belum terbukti berhasil, atau di mana ada banyak metode ML yang bersaing tetapi tidak ada yang tampak lebih baik daripada yang lain.

Pertimbangkan sumber data ini: Stanford Large Network Dataset Collection . Meskipun Anda dapat memilih salah satu dari kumpulan data ini, membuat pernyataan masalah, dan kemudian menjalankan beberapa metode ML, pendekatan itu benar-benar tidak memberi tahu Anda banyak tentang apa itu ilmu data , dan menurut saya tidak mengarah pada tesis Masters yang sangat baik.

Sebagai gantinya, Anda dapat melakukan ini: cari semua makalah penelitian yang menggunakan ML pada beberapa kategori tertentu - mis. Jaringan kolaborasi (alias co-authorhip). Saat Anda membaca setiap makalah, cobalah mencari tahu apa yang dapat mereka capai dengan masing-masing metode ML dan apa yang tidak dapat mereka atasi. Terutama mencari saran mereka untuk "penelitian masa depan".

Mungkin mereka semua menggunakan metode yang sama, tetapi tidak pernah mencoba metode ML yang bersaing. Atau mungkin mereka tidak cukup memvalidasi hasil mereka, atau mungkin ada set data yang kecil, atau mungkin pertanyaan penelitian dan hipotesis mereka sederhana atau terbatas.

Paling penting: coba cari tahu ke mana arah penelitian ini. Mengapa mereka repot-repot melakukan ini? Apa yang penting dari itu? Di mana dan mengapa mereka menghadapi kesulitan?

MrMeritology
sumber
Ini ide yang bagus. Master dalam Statistik.
user3279453