Di mana harus memulai dengan statistik untuk pengembang yang berpengalaman

47

Selama paruh pertama 2015 saya melakukan kursus coursera Machine Learning (oleh Andrew Ng, GREAT course). Dan mempelajari dasar-dasar pembelajaran mesin (regresi linier, regresi logistik, SVM, Jaringan Neuronal ...)

Saya juga telah menjadi pengembang selama 10 tahun, jadi belajar bahasa pemrograman baru tidak akan menjadi masalah.

Akhir-akhir ini, saya sudah mulai belajar R untuk mengimplementasikan algoritma pembelajaran mesin.

Namun saya menyadari bahwa jika saya ingin terus belajar saya akan memerlukan pengetahuan statistik yang lebih formal, saat ini saya memiliki pengetahuan non-formal tentang itu, tetapi sangat terbatas sehingga, misalnya, saya tidak dapat menentukan dengan tepat mana dari beberapa model linier akan lebih baik (biasanya saya cenderung menggunakan R-square untuk itu, tetapi tampaknya itu bukan ide yang sangat bagus).

Jadi bagi saya kelihatannya cukup jelas bahwa saya perlu mempelajari dasar-dasar statistik (saya mempelajarinya secara uni tetapi lupa sebagian besar), di mana saya harus belajar, perlu diketahui bahwa saya tidak benar-benar membutuhkan kursus yang sepenuhnya komprehensif, hanya sesuatu bahwa dalam sebulan memungkinkan saya cukup tahu sehingga saya bisa bersemangat dan belajar lebih banyak :).

Sejauh ini saya telah membaca tentang " Statistik tanpa air mata ", ada saran lain?

Juan Antonio Gomez Moriano
sumber
2
Untuk Statistik: Casella, G. dan RL Berger (2002): Statistik Inferensi, Duxbury. Untuk Ekonometrika: Hayashi, F. (2000): Ekonometrik, Princeton University Press. Untuk sudut pandang lain: stats.stackexchange.com/questions/91863/…
Guilherme Salomé
Saya menambahkan referencestag. Anda mungkin ingin untuk memindai melalui halaman pertama hit pada topik itu.
Glen_b
3
Saya tidak melihat ini harus ditutup. Saya melihat argumen untuk membuatnya CW.
gung - Reinstate Monica
2
Dari sudut pandang saya, pengetahuan akan menjadi bias jika Anda mulai belajar statistik tanpa mengenal teori probabilitas sebelumnya.
Metariat
2
Saya ingin menambahkan satu kata peringatan. Saya yakin Anda sudah memahami hal ini sampai tingkat tertentu, tetapi saya hanya ingin mengatakannya. Saya seorang mahasiswa MD / PhD. Dengan gelar MD saya, saya berencana untuk melakukan praktik penyakit dalam. Untuk PhD saya, saya sedang belajar biostatistik. Saya ingin Anda tahu bahwa Anda tidak bisa lagi mendapatkan penguasaan statistik dalam 1 bulan dari pada penguasaan obat dalam satu bulan. Saya sama sekali tidak mencoba untuk mencegah Anda belajar statistik. Justru sebaliknya, saya harap Anda memahaminya dengan indah. Tapi hanya memahami itu tidak kurang dari keinginan untuk menjadi pengembang, misalnya.
Vincent Laufer

Jawaban:

26

Saya akan menyarankan Anda peta jalan dasar tentang bagaimana cara melakukannya:

Bonus:

Situs luar biasa untuk peta jalan semacam itu adalah Metacademy , yang secara pribadi akan saya yakini sebagai salah satu sumber daya Ilmu Data terbaik di web.

Gitxiv adalah situs cantik lain, yang menghubungkan makalah penelitian Arxiv tentang Ilmu Data dengan implementasi / pustaka sumber terbuka yang relevan.

Dawny33
sumber
2
OP telah mengambil kursus Ng, itulah yang mendorongnya untuk mengajukan pertanyaan sejak awal.
Aksakal
4
@ Akakal saya perhatikan. Tapi, memasukkannya sebagai bagian dari road map. Tidak akan membuat perbedaan, jadi saya pikir memasukkannya akan membantu orang lain yang membaca posting ini.
Dawny33
12

Sudahkah Anda mengecek Think Stats atau Think Bayes - keduanya buku statistik (gratis) yang ditujukan untuk programmer dan dengan banyak kode Python.

Juga, jika Anda tertarik untuk belajar R maka CRAN memiliki banyak (gratis) PDF yang Anda mungkin ingin memeriksa, seperti Pengantar Probabilitas dan Statistik Menggunakan R . Ada juga kursus Coursera yang menggunakan R yang sangat disukai banyak orang (mereka menggunakan buku teks ini , yang mungkin ingin Anda periksa juga, dan memiliki laboratorium di DataCamp , saya percaya).

Juga, jika Anda ingin memoles beberapa topik Statistik Anda selalu dapat menonton beberapa video di Khan Academy .

Steve S
sumber
Saya suka Think Stats dan Think Bayes tetapi mereka sengaja menghindari banyak teori statistik formal untuk menyelesaikan sesuatu melalui kode. Sangat bagus untuk mendapatkan pemahaman intuitif pada subjek, tetapi tidak sebaik jika tujuan Anda adalah memahami teori yang mendasarinya.
Marius
@Marius: Saya tahu maksud Anda. Saya berpikir, bagaimanapun, bahwa karena dia sudah menjadi programmer dan juga karena dia sepertinya menginginkan "sesuatu yang kecil, sederhana dan cepat" yang mungkin lebih dari apa yang dia cari.
Steve S
8

Jika Anda pernah, bahkan di masa lalu, mampu memecahkan masalah dalam daftar ini , maka Anda harus mencoba mempelajari statistik yang diterapkan "dengan benar". Saya akan memberi Anda algoritma dua langkah sederhana.

Pertama, dapatkan kecepatan dengan teori probabilitas. Ada banyak buku bagus. Favorit saya adalah buku klasik karya Feller. Ini disebut "Pendahuluan" tetapi jangan tertipu oleh judul, itu sedalam yang Anda inginkan, namun ditulis dengan sangat baik dan sederhana jika Anda hanya ingin membaca sekilas permukaannya.

Langkah kedua adalah statistik. Sekali lagi, ada banyak buku bagus. Saya akan memberi Anda satu yang saya gunakan, teks intro yang layak oleh Gujarati "Basic Econometrics", Edisi Keempat. Ekonometrika adalah statistik yang diterapkan pada ekonomi. Untuk referensi, seorang pria yang semua orang berpikir mengatakan bahwa ilmuwan data akan menjadi pekerjaan terseksi dalam 10 tahun ke depan adalah Hal Varian, seorang ekonom Berkeley. Banyak hal pembelajaran mesin didasarkan pada statistik dasar, regresi dll. Semua yang tercakup dalam buku ini, dan Anda tidak perlu membaca semuanya, itu ditulis sedemikian rupa sehingga Anda dapat memilih bab dalam urutan Anda sendiri.

Anda akan terkejut melihat berapa banyak celah yang dibiarkan terbuka setelah kelas Ng terisi dengan cepat saat membaca teks-teks ini.

Sebagai seorang praktisi, Anda tidak perlu terlalu banyak teori setelah dua langkah ini. Anda dapat terus mempelajari teknik ML secara khusus membaca buku-buku di bidang ini. Sangat penting untuk tidak terlalu dalam pada awalnya dalam probabilitas dan statistik. Dapatkan kode Anda untuk ML pertama, dan isi kesenjangan saat Anda pergi.

Aksakal
sumber
4

Semua orang merekomendasikan Casella & Berger, yang hampir secara universal digunakan dalam program statistik pascasarjana. Ini bukan buku referensi yang buruk, tapi saya tidak yakin saya akan melakukan lebih dari memindai 4-5 bab pertama. Saya tidak berpikir Anda perlu teori tentang bagaimana membangun tes tipe Neyman-Pearson sebelum mempelajari "statistik" yaitu analisis data.

Sebaliknya, saya akan fokus pada metode pembelajaran. Program pascasarjana saya menggunakan Metode Statistik Terapan Linier untuk tes yang sering dilakukan, dan ini merupakan referensi komprehensif yang lumayan, tetapi mungkin bukan buku yang paling mudah didekati dari sudut pandang otodidak. Satu atau dua kursus dari MIT atau coursera mungkin merupakan cara yang lebih baik untuk memulainya, karena Anda akan mendapatkan gambaran yang lebih luas dengan lebih banyak contoh daripada membaca buku.

Bagi Bayes, buku yang paling sering saya lihat adalah Doing Bayesian Data Analysis , yang dilengkapi dengan gambar anak anjing (jelas, ini membuat buku ini lebih unggul daripada buku teks pengantar Bayesian lainnya). Saya tidak pernah menggunakan buku itu sendiri, tetapi saya telah membacanya dan kelihatannya cukup baik - jauh lebih baik daripada buku Gelman, yang saya temukan agak tidak dapat dipahami SETELAH dua kelas dalam statistik Bayesian - penjelasannya mengerikan.

srvanderplas
sumber
1
5 bab pertama dari C & B sebenarnya bukan statistik sama sekali, lebih seperti latar belakang ... Konsep statistik dibahas di awal bab 6! Lebih penting lagi, metode pembelajaran mungkin tidak akan membantu orang yang spesifik ini. itu akan membantunya menerapkan statistik, bukan memahaminya, yang ia butuhkan. jika dia memiliki pelatihan matematika tingkat lanjut, dia mungkin bisa melewatinya sampai tingkat tertentu, tetapi jawabannya menunjukkan bahwa dia saat ini tidak dapat memahami dasar-dasar ML ... yang sangat menyarankan matematika-nya terbatas (bagi saya, setidaknya). C&B mungkin bukan tempat yang buruk untuk memulai.
Vincent Laufer
1
Mereka mungkin bukan statistik, tetapi latar belakang pada distribusi probabilitas sangat penting untuk melakukan pemodelan apa pun - Anda perlu tahu apa distribusi bernoulli dan apa propertinya sebelum Anda dapat memahami regresi logistik, misalnya. Saya masih merujuk C&B sesekali, tetapi saya rasa saya tidak pernah menggunakan apa pun di luar bab 6 di luar kelas yang saya ambil yang menggunakan buku itu.
srvanderplas
1
Saya cukup setuju dengan apa yang Anda katakan, tetapi ini berkaitan dengan penyimpangan alih-alih poin utama - yang merupakan kesalahan saya untuk menambahkan penyimpangan di tempat pertama. Bagaimanapun, poin utamanya adalah bahwa seperti yang beberapa orang lain sarankan, apa yang sebenarnya perlu dilakukan OP adalah mendapatkan pemahaman yang lebih baik tentang matematika teoretis dan statistik. tidak ada di mana di pos yang mengindikasikan bahwa dia membutuhkan bantuan dengan menerapkan lebih banyak tes statistik. dia bisa melakukan itu. dia ingin memahami mereka lebih dalam. untuk ini, C & B lebih baik daripada belajar lebih banyak tentang persiapan berorientasi aplikasi.
Vincent Laufer
3

Ini tidak dimaksudkan sebagai jawaban yang lengkap, itu hanya saran. Jika Anda ingin mempelajari lebih lanjut tentang statistik (yayasan), Anda dapat membaca:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Ini adalah buku yang cukup standar untuk ahli statistik dan memiliki banyak hasil menarik. Anda tidak perlu melalui semua bukti teorema, tetapi Anda mungkin ingin melakukan beberapa latihan agar merasa lebih aman dengan hasilnya.

Jika Anda ingin mempelajari lebih lanjut tentang ekonometrik (model untuk data), Anda dapat melihat:

Hayashi, F. (2000): Econometrics, Princeton University Press

Orang lain sebenarnya menanyakan sesuatu yang mirip dengan yang Anda minta dan mendapat jawaban yang bagus: Apa yang harus dilakukan setelah "Casella & Berger" .

Lebih jauh, jika Anda benar-benar berniat membaca buku-buku ini, silabus mata kuliah ekonometrik ini dapat memberi Anda arahan dan langkah yang cukup baik tentang apa yang harus dibaca (CB & Hayashi) dan kapan membaca.

Guilherme Salomé
sumber
Terima kasih atas sarannya, namun buku pertama yang Anda sebutkan adalah sekitar 660 halaman ... Saya telah membaca buku-buku yang lebih besar, tetapi apakah ada sesuatu yang kecil, sederhana dan cepat sehingga saya bisa memahami dasarnya?
Juan Antonio Gomez Moriano
3
Casella dan Berger akan memberi Anda sepotong teori statistik, tetapi Anda akan belajar sedikit tentang analisis data.
Glen_b
1
@JuanAntonioGomezMoriano seberapa kecil yang Anda kejar? Saya selalu penggemar Bagaimana berbohong dengan statistik sebagai titik awal.
icc97
(-1) Itu terdengar seperti pilihan yang sempurna untuk seseorang yang lebih suka pendekatan matematika atau teoretis untuk statistik, sangat berlawanan dengan apa yang diminta OP.
Gala
1
Dia mengatakan bahwa dia membutuhkan pengetahuan yang lebih "formal" dan pengetahuan dasar tentang statistik.
Guilherme Salomé
2

Saya menyarankan sebuah buku baru yang muncul sejak pertanyaan awal: Pemikiran Ulang Statistik: Kursus Bayesian dengan Contoh dalam R dan Stan oleh Richard McElreath, CRC Press.

Ini ditulis dengan sangat baik dan menggunakan pendekatan Bayesian. Ini sangat interaktif, dan Anda akan ingin menyelesaikan masalahnya atau Anda mungkin setengah jalan dan mulai tersesat.

Ini dimulai dengan sangat dasar dan berakhir dengan model multi-level, dan itu ditujukan untuk ilmuwan yang cukup maju yang memiliki pengetahuan statistik tetapi tidak merasa nyaman secara keseluruhan dengan statistik seperti yang diajarkan kepada mereka. Jadi saya tidak bisa mengatakan itu buku pemula, tapi itu dimulai dengan sangat sederhana dan dia memiliki busur dan gaya yang indah.

Bagian "Stan" dari judul adalah alat pengambilan sampel Bayesian untuk tujuan umum. Pada dasarnya, ini adalah bahasa pemrograman yang mengkompilasi secara otomatis ke C ++ dan kemudian dikompilasi ke executable. (Kesimpulan Bayes bersifat umum, tidak seperti alternatif, sehingga Anda dapat memiliki alat yang digeneralisasi.)

Wayne
sumber
1

Kupikir aku akan melemparkan jawaban ini untuk anak cucu, bahkan jika itu sepertinya sudah terlambat untuk berguna bagimu. Semua Statistik Larry Wasserman disusun sebagai kursus untuk orang-orang dengan latar belakang dalam pembelajaran mesin, disiplin ilmu komputer lainnya, atau matematika yang tidak memiliki pelatihan statistik formal - yaitu, orang-orang di situasi Anda saat ini. Karena kurang memiliki statistik formal yang sama, beberapa teman dan saya membentuk kelompok belajar mandiri untuk menjalaninya di sekolah pascasarjana. Saya pikir saya benar-benar mendapat manfaat dari pengalaman itu.

Topik tambahan yang dilontarkan Wasserman di luar materi kursus "probabilitas dan inferensi statistik" yang khas, seperti model grafis dan bootstrap, sangat relevan bagi seseorang yang bekerja dalam pembelajaran mesin. Saya harus mengatakan bahwa buku itu bisa sangat singkat dibandingkan dengan sesuatu seperti Casella & Berger, jadi jika Anda ingin lebih detail atau motivasi untuk bagian-bagian tertentu (terutama bukti) Anda mungkin harus menambahkannya dengan bahan bacaan lain. Yang mengatakan, saya juga menemukan buku itu ditulis dengan jelas dengan sejumlah masalah latihan, dan itu adalah referensi cepat yang sangat baik.

Satu bulan tidak banyak waktu. Jika Anda menetapkan langkah yang sangat agresif, saya pikir Anda pasti bisa mendapatkan banyak dari teks ini dalam satu semester: kami melakukan kelompok belajar mandiri kami selama musim panas, misalnya. Itu terutama benar jika Anda sebagian besar tertarik pada pemodelan linier, yang akan Anda tekan oleh Ch. 13-14.

Patrick B.
sumber