Buku tentang "Sains" dalam Ilmu Data? [Tutup]

26

Apa saja buku tentang sains dan matematika di balik sains data? Rasanya seperti begitu banyak buku "ilmu data" adalah tutorial pemrograman dan tidak menyentuh hal-hal seperti proses menghasilkan data dan inferensi statistik. Saya sudah bisa kode, apa yang saya lemah adalah matematika / statistik / teori di balik apa yang saya lakukan.

Jika saya siap untuk membakar $ 1000 pada buku-buku (jadi sekitar 10 buku ... mendesah), apa yang bisa saya beli?

Contoh: Analisis Data Kategorikal Agresti , Model Campuran Linier untuk Data Longitudinal , dll ... dll ...

Anton
sumber
Bertanya tentang buku-buku "baik" akan menarik jawaban berdasarkan opini dan jadi ini di luar topik. Dipanji.
Spacedman
3
Saya sudah mengubahnya jadi saya hanya mencari buku. Tidak ada yang berdasarkan opini.
Anton
Ini dieja Statistik :) Tetap dengan sesuatu yang pragmatis yang berfokus pada prediksi daripada kesimpulan. Kedua Elemen Pembelajaran Statistik dan Pengantar Pembelajaran Statistik ada di daftar kebanyakan orang.
Dirk Eddelbuettel
Saya belum dapat menambahkan komentar, tetapi hanya FYI ESL tersedia gratis secara online sebagai pdf
idclark
1
Saya pikir pertanyaan ini harus ditandai sebagai komunitas wiki.
Shagun Sodhani

Jawaban:

21

Pendahuluan:

Menggali lebih dalam:

Beberapa contoh minat khusus:

Referensi yang lebih luas bekerja pada pembelajaran mesin (tidak benar-benar apa yang Anda minta, tetapi untuk kelengkapan):

Kertas bonus:

Def_Os
sumber
2
+1 untuk kertas bonus. Hebat dibaca
Santiago Cepas
13

Jika saya hanya bisa merekomendasikan satu kepada Anda, itu akan menjadi: Elemen Pembelajaran Statistik dan Prediksi oleh Hastie, Tibshirani dan Friedman. Ini memberikan matematika / statistik di balik banyak teknik yang biasa digunakan dalam ilmu data.

Untuk Teknik Bayesian, Analisis Data Bayesian oleh Gelman, Carlin, Stern, Dunson, Vehtari dan Rubin sangat baik.

Inferensi Statistik oleh Casella dan Berger adalah buku teks tingkat pascasarjana yang baik tentang landasan teori statistik. Buku ini memang membutuhkan tingkat kenyamanan matematika yang cukup tinggi (teori probabilitas didasarkan pada teori ukuran, yang tidak sepele untuk dipahami).

Sehubungan dengan proses menghasilkan data, saya tidak memiliki rekomendasi untuk buku. Apa yang dapat saya katakan adalah bahwa pemahaman yang baik tentang asumsi teknik yang digunakan dan memastikan bahwa data dikumpulkan atau dihasilkan dengan cara yang tidak melanggar asumsi-asumsi tersebut akan sangat membantu dalam analisis yang baik.

Christopher Louden
sumber
7

Jawaban lain merekomendasikan satu set buku yang bagus tentang matematika di balik ilmu data. Tetapi seperti yang Anda sebutkan, itu bukan hanya matematika dan kegiatan seperti pengumpulan data dan kesimpulan dari data memiliki aturan dan teori sendiri, bahkan jika tidak seketat latar belakang matematika (belum).

Untuk bagian tesis ini, saya menyarankan buku Beautiful Data: The Stories Behind Elegant Data Solutions yang berisi dua puluh studi kasus seperti bab yang ditulis oleh orang-orang yang benar-benar terlibat dengan masalah analisis data dunia nyata. Ini tidak mengandung matematika, tetapi mengeksplorasi bidang-bidang seperti mengumpulkan data, menemukan cara-cara praktis menggunakan data dalam analisis, penskalaan dan memilih solusi terbaik dengan sangat baik.

Buku lain yang sangat menarik adalah Berpikir dengan Data: Cara Mengubah Informasi menjadi Wawasan , yang juga tidak teknis (= tutorial pemrograman), tetapi mencakup topik-topik penting tentang cara benar-benar menggunakan kekuatan ilmu data dalam pengambilan keputusan dan masalah-masalah dunia nyata.

Amir Ali Akbari
sumber
7

Saya menyukai saran Amir Ali Akbari, dan saya akan menambahkan beberapa saran saya sendiri, dengan fokus pada topik dan keterampilan yang tidak tercakup dalam sebagian besar buku pembelajaran mesin dan analisis data yang berfokus pada matematika dan / atau pemrograman.

Pembersihan Data:

Analisis Data Bayesian (alternatif untuk Pengujian Signifikansi Hipotesis Null gaya Fisher):

Kesimpulan dalam menghadapi ketidakpastian, ketidaklengkapan, kontradiksi, ambiguitas, ketidaktepatan, ketidaktahuan, dll .:

Eksperimen:

Simulasi:

Elisitasi pakar, estimasi probabilistik:

MrMeritology
sumber