Saya mencari beberapa makalah / situs panjang / menengah / panjang tentang penambangan data, khususnya di mana satu dataset dieksplorasi secara mendalam dari persiapan data hingga model akhir. Saya sangat tertarik dalam diskusi tentang penerapan algo pembelajaran mesin dan juga pemodelan data dasar. Contohnya adalah buku Luis Torgo 'Data Mining with R'. Setiap saran akan dihargai.
r
data-mining
screechOwl
sumber
sumber
Jawaban:
Check out blog Kaggle.com , di mana pemenang mendiskusikan pendekatan mereka untuk memecahkan kompetisi data mining. Anda kemudian dapat kembali ke situs web kaggle.com untuk mendapatkan deskripsi dan data dan mencobanya sendiri.
sumber
Inilah tempat yang bagus untuk memulai:
10 Algoritma Teratas dalam Penambangan Data
Tidak banyak dalam hal persiapan data di sana, tetapi banyak pada aplikasi. Dan banyak tautan bagus ke makalah yang relevan untuk dibaca.
sumber
Saya merekomendasikan Anda artikel dari Journal of Statistical Software gratis.
Anda dapat menemukan ada berbagai aplikasi penambangan data / pembelajaran mesin bersama-sama dengan analisis contoh data nyata. Sebagian besar artikel adalah tentang paket R sehingga Anda juga dapat secara bersamaan melakukan analisis dalam R. Artikel dalam jurnal juga menyertakan kode R dan paket dalam R termasuk data.
Semua data dianalisis secara mendalam di sana sehingga merupakan sumber yang sangat layak bagi saya.
sumber
Paket caret R memiliki seperangkat empat sketsa yang berjalan melalui penerapan berbagai tugas persiapan data, algoritma pembelajaran yang diawasi, pemilihan fitur, dan visualisasi data mulai dari beberapa dataset contoh mentah.
Meskipun fokusnya adalah pada bagaimana melakukan hal-hal ini menggunakan fungsionalitas yang disediakan oleh caret sendiri, itu masih berlaku dan bacaan yang cukup bagus untuk proyek-proyek dunia nyata.
Berikut ini tautan langsung ke empat sketsa PDF:
sumber
Inilah beberapa yang menurut saya bermanfaat:
Piala KDD 2008 dan Lokakarya tentang Penambangan Data Medis
sumber