Permintaan referensi: Statistik klasik untuk para ilmuwan data yang bekerja

10

Saya seorang ilmuwan data yang bekerja dengan pengalaman yang solid dalam regresi, algoritma tipe pembelajaran mesin lainnya, dan pemrograman (baik untuk analisis data dan pengembangan perangkat lunak umum). Sebagian besar kehidupan kerja saya difokuskan pada pembuatan model untuk akurasi prediktif (bekerja di bawah berbagai kendala bisnis), dan membangun jaringan pipa data untuk mendukung pekerjaan saya sendiri (dan yang lain).

Saya tidak memiliki pelatihan formal dalam statistik, pendidikan universitas saya berfokus pada matematika murni. Karena itu telah ketinggalan belajar banyak topik klasik, terutama berbagai tes hipotesis populer dan teknik inferensial.

Adakah referensi untuk topik ini yang sesuai untuk seseorang dengan latar belakang dan tingkat pengalaman saya? Saya dapat menangani (dan menghargai) ketelitian matematika, dan juga menikmati perspektif algoritmik. Saya cenderung menyukai referensi yang menawarkan latihan yang dipandu pembaca, dengan kedua (atau salah satu) fokus pemrograman matematika dan (atau).

Matthew Drury
sumber
2
Sebagai Matt lain dari latar belakang matematika, dengan pengetahuan statistik yang penuh kekurangan, saya bisa mengaitkannya! Apakah ada bidang / aplikasi tertentu yang Anda minati? Satu hal yang harus diperhatikan dengan statistik klasik adalah asumsi apa yang digunakan.
GeoMatt22
5
Ada beberapa referensi bagus di sini: mathoverflow.net/questions/31655/statistics-for-mathematicians
Alex R.

Jawaban:

3

Larry Wasserman's All of Statistics adalah buku yang bagus untuk mendapatkan tur statistik angin puyuh. Itu adalah buku pertama tentang statistik matematika yang saya gunakan sendiri. Ini termasuk klasik seperti pengujian hipotesis dan estimasi kemungkinan maksimum, tetapi juga memiliki banyak cakupan topik yang lebih baru dikembangkan tetapi sama pentingnya seperti bootstrap. Wasserman selalu memiliki satu kaki dalam statistik dan kaki lainnya dalam pembelajaran mesin, yang saya pikir semua analis data kontemporer harus lakukan; jika Anda hanya terbiasa dengan satu bidang dari keduanya, Anda akan kehilangan banyak hal. Juga, buku ini memiliki banyak latihan yang bagus.

Jika Anda memiliki latar belakang dalam analisis nyata dan Anda menginginkan hal-hal yang mentah dan tidak dipotong, yang saya maksudkan sebagai perlakuan teori-ukur dari probabilitas dan statistik, coba Teori Teori Statistik Mark J. Schervish . Schervish adalah setengah dari DeGroot dan Schervish, yang bukunya yang kurang teknis Probabilitas dan Statistik mungkin adalah buku paling populer tentang statistik matematika saat ini. Teori Statistik adalah buku yang sangat membantu untuk topik yang biasanya diperuntukkan bagi mahasiswa pascasarjana yang seharusnya melakukan semua pekerjaan sendiri. Sejujurnya, saya menemukan buku ini sangat sulit (walaupun tidak sesulit Statistik Matematika Jun Shao) dan akhirnya merasakan upaya besar yang diperlukan untuk menguasainya bukan penggunaan waktu saya sebagai analis data terapan. Tetapi saya masih belajar banyak dan pergi dengan pemahaman yang baik tentang apa itu teori ukuran dan bagaimana teori itu dapat digunakan untuk membersihkan kesulitan teoretis berbulu yang muncul dalam pendekatan tradisional yang lebih naif terhadap teori probabilitas. Saya juga lebih menghargai persamaan dan perbedaan pertukaran dan independensi.

Kodiologis
sumber
2

Selain saran Kodiologist yang sangat baik (+1) saya juga akan merekomendasikan melihat subjek penelitian observasional . Saya pikir ini adalah bidang yang sangat tidak dihargai antara para ilmuwan data meskipun fakta bahwa dalam banyak kasus data yang dianalisis bersifat observasional. Saya pikir ini karena sebagian besar bibliografi (terutama dalam Biostatistik) mengasumsikan setidaknya beberapa desain kuasi-eksperimental sudah ada. Buku-buku Paul Rosenbaum Studi Observasional dan Desain Studi Observasional adalah beberapa referensi yang paling umum digunakan.

usεr11852
sumber