Saya tidak berpikir saya akan dapat memberikan investasi waktu reguler untuk melanjutkan belajar analisis data
Saya tidak berpikir Casella & Berger adalah tempat untuk belajar banyak data dalam cara analisis data . Ini adalah tempat untuk mempelajari beberapa alat teori statistik.
Pengalaman saya sejauh ini mengatakan kepada saya untuk menjadi orang statistik yang harus menanggung dengan banyak perhitungan yang membosankan yang melibatkan berbagai distribusi (Weibull, Cauchy, t, F ...).
Saya telah menghabiskan banyak waktu sebagai ahli statistik melakukan analisis data. Jarang (hampir tidak pernah) melibatkan saya melakukan perhitungan yang membosankan. Kadang-kadang melibatkan sedikit aljabar sederhana, tetapi masalah umum biasanya diselesaikan dan saya tidak perlu mengeluarkan biaya untuk mereplikasi setiap kali.
Komputer melakukan semua perhitungan yang membosankan.
Jika saya berada dalam situasi di mana saya tidak siap untuk mengambil kasus standar yang wajar (misalnya tidak siap untuk menggunakan GLM), saya umumnya tidak memiliki cukup informasi untuk menerima distribusi lain, jadi pertanyaan tentang perhitungan dalam LRT biasanya diperdebatkan (saya bisa melakukannya jika perlu, mereka cenderung sudah dipecahkan atau jarang muncul sehingga ini adalah pengalihan yang menarik).
Saya cenderung melakukan banyak simulasi; Saya juga sering mencoba menggunakan resampling dalam beberapa bentuk baik di samping atau di tempat asumsi parametrik.
Apakah saya perlu menghabiskan 20 jam + per minggu untuk itu seperti dulu?
Itu tergantung pada apa yang ingin Anda lakukan dan seberapa cepat Anda ingin menjadi ahli.
Analisis data adalah keterampilan, dan dibutuhkan latihan dan basis pengetahuan yang luas. Anda akan memiliki beberapa pengetahuan yang Anda butuhkan.
Jika Anda ingin menjadi praktisi yang baik dalam berbagai hal, itu akan membutuhkan banyak waktu - tetapi menurut saya itu jauh lebih menyenangkan daripada aljabar dan seperti melakukan latihan Casella dan Berger.
Beberapa keterampilan yang saya bangun mengatakan masalah regresi sangat membantu dengan rangkaian waktu, katakanlah - tetapi banyak keterampilan baru diperlukan. Jadi belajar menafsirkan plot residu dan plot QQ itu mudah, tetapi mereka tidak memberi tahu saya seberapa banyak saya perlu khawatir tentang sedikit benjolan di plot PACF dan tidak memberi saya alat seperti penggunaan prediksi satu langkah lebih maju kesalahan.
Jadi misalnya, saya tidak perlu mengeluarkan biaya untuk mengetahui bagaimana melakukan ML yang wajar untuk model gamma atau weibull yang khas , karena mereka cukup standar untuk dipecahkan masalah yang sebagian besar telah dimasukkan ke dalam bentuk yang mudah.
Jika Anda datang untuk melakukan penelitian , Anda akan membutuhkan lebih banyak keterampilan yang Anda dapatkan di tempat-tempat seperti Casella & Berger (tetapi bahkan dengan keterampilan semacam itu, Anda juga harus membaca lebih dari satu buku).
Beberapa hal yang disarankan:
Anda harus membangun beberapa keterampilan regresi, bahkan jika Anda tidak melakukan hal lain.
Ada sejumlah buku yang cukup bagus, tetapi mungkin Draper & Smith Applied Regression Analysis plus Fox dan Weisberg An R Companion to Applied Regression ; Saya juga menyarankan Anda mempertimbangkan untuk mengikuti Strategi Pemodelan Regresi Harrell
(Anda dapat mengganti sejumlah buku bagus untuk Draper dan Smith - temukan satu atau dua yang cocok untuk Anda.)
Buku kedua memiliki sejumlah bab tambahan online yang sangat layak dibaca (dan paket R-nya sendiri)
-
Satu porsi kedua yang baik akan Venables & Ripley modern Statistik Terapan dengan S .
Itulah beberapa landasan dalam ide yang cukup luas.
Mungkin ternyata Anda memerlukan beberapa bahan dasar dalam beberapa topik (saya tidak tahu latar belakang Anda).
Maka Anda harus mulai berpikir tentang bidang statistik apa yang Anda inginkan / butuhkan - statistik Bayesian, deret waktu, analisis multivarian, dll.
Menjawab orang lain yang datang ke pertanyaan ini nanti ...
Pelajari database (SQL), dplyr / panda, alat unix (sed, grep), memo, skrip, pembersihan data, dan pengujian perangkat lunak. Berbagai distribusi khusus memiliki sedikit nilai dalam industri.
Buku regresi terapan seperti Angrist & Pischke, Faraway, atau Weisberg, akan menjadi jenis teori yang lebih praktis.
Karena itu minat dalam statistik nonparametrik. Tetapi pada saat yang sama nonparametrik tanpa asumsi terlalu longgar. Untuk menjawab pertanyaan Anda, keluarga spesialis dapat dianggap sebagai jawaban untuk pertanyaan sederhana yang mungkin Anda temui. Sebagai contoh, saya menganggap seorang Gaussian sebagai estimasi titik "halus". Poisson menjawab pertanyaan sederhana lainnya. Ketika orang membangun model matematika ini khusus dapat menjadi titik tumpu yang berguna. (Tetapi akademisi sering mengambil pencarian untuk distribusi master dengan cara yang salah.)
OP: Semoga Anda bersenang-senang dengan penelitian PhD Anda!
sumber