Apa yang harus dipelajari setelah Casella & Berger?

22

Saya seorang siswa lulusan matematika murni dengan sedikit latar belakang dalam matematika terapan. Sejak musim gugur yang lalu saya telah mengambil kelas di buku Casella & Berger, dan saya telah menyelesaikan ratusan (230+) halaman masalah latihan dalam buku ini. Saat ini saya di Bab 10.

Namun, karena saya belum mengambil jurusan statistik atau berencana menjadi ahli statistik, saya tidak berpikir saya akan dapat menginvestasikan waktu secara teratur untuk terus belajar analisis data. Pengalaman saya sejauh ini mengatakan kepada saya bahwa, untuk menjadi ahli statistik, seseorang harus menanggung banyak perhitungan yang membosankan yang melibatkan berbagai distribusi (Weibull, Cauchy, , ...). Saya menemukan sementara ide-ide dasarnya sederhana, implementasinya (misalnya LRT dalam pengujian hipotesis) masih bisa sulit karena masalah teknis.tF

Apakah pemahaman saya benar? Apakah ada cara saya dapat mempelajari probabilitas & statistik yang tidak hanya mencakup materi yang lebih maju, tetapi juga dapat membantu jika saya membutuhkan analisis data dalam kehidupan nyata? Aku akan perlu menghabiskan 20 jam per minggu di atasnya seperti saya dulu?

Sementara saya percaya tidak ada jalan kerajaan dalam belajar matematika, saya sering bertanya-tanya - sebagian besar waktu kita tidak tahu apa distribusi untuk data kehidupan nyata, jadi apa tujuan bagi kita untuk fokus secara eksklusif pada berbagai keluarga distribusi ? Jika ukuran sampel kecil dan teorema batas pusat tidak berlaku, bagaimana kita bisa menganalisis data selain rata-rata sampel dan varians jika distribusinya tidak diketahui?

Semester saya akan berakhir dalam sebulan, dan saya tidak ingin pengetahuan saya menguap setelah saya mulai fokus pada penelitian PhD saya. Jadi saya memutuskan untuk bertanya. Saya belajar R, dan saya memiliki latar belakang pemrograman, tetapi level saya hampir sama dengan kode monyet.

Bombyx mori
sumber

Jawaban:

24

Saya tidak berpikir saya akan dapat memberikan investasi waktu reguler untuk melanjutkan belajar analisis data

Saya tidak berpikir Casella & Berger adalah tempat untuk belajar banyak data dalam cara analisis data . Ini adalah tempat untuk mempelajari beberapa alat teori statistik.

Pengalaman saya sejauh ini mengatakan kepada saya untuk menjadi orang statistik yang harus menanggung dengan banyak perhitungan yang membosankan yang melibatkan berbagai distribusi (Weibull, Cauchy, t, F ...).

Saya telah menghabiskan banyak waktu sebagai ahli statistik melakukan analisis data. Jarang (hampir tidak pernah) melibatkan saya melakukan perhitungan yang membosankan. Kadang-kadang melibatkan sedikit aljabar sederhana, tetapi masalah umum biasanya diselesaikan dan saya tidak perlu mengeluarkan biaya untuk mereplikasi setiap kali.

Komputer melakukan semua perhitungan yang membosankan.

Jika saya berada dalam situasi di mana saya tidak siap untuk mengambil kasus standar yang wajar (misalnya tidak siap untuk menggunakan GLM), saya umumnya tidak memiliki cukup informasi untuk menerima distribusi lain, jadi pertanyaan tentang perhitungan dalam LRT biasanya diperdebatkan (saya bisa melakukannya jika perlu, mereka cenderung sudah dipecahkan atau jarang muncul sehingga ini adalah pengalihan yang menarik).

Saya cenderung melakukan banyak simulasi; Saya juga sering mencoba menggunakan resampling dalam beberapa bentuk baik di samping atau di tempat asumsi parametrik.

Apakah saya perlu menghabiskan 20 jam + per minggu untuk itu seperti dulu?

Itu tergantung pada apa yang ingin Anda lakukan dan seberapa cepat Anda ingin menjadi ahli.

Analisis data adalah keterampilan, dan dibutuhkan latihan dan basis pengetahuan yang luas. Anda akan memiliki beberapa pengetahuan yang Anda butuhkan.

Jika Anda ingin menjadi praktisi yang baik dalam berbagai hal, itu akan membutuhkan banyak waktu - tetapi menurut saya itu jauh lebih menyenangkan daripada aljabar dan seperti melakukan latihan Casella dan Berger.

Beberapa keterampilan yang saya bangun mengatakan masalah regresi sangat membantu dengan rangkaian waktu, katakanlah - tetapi banyak keterampilan baru diperlukan. Jadi belajar menafsirkan plot residu dan plot QQ itu mudah, tetapi mereka tidak memberi tahu saya seberapa banyak saya perlu khawatir tentang sedikit benjolan di plot PACF dan tidak memberi saya alat seperti penggunaan prediksi satu langkah lebih maju kesalahan.

Jadi misalnya, saya tidak perlu mengeluarkan biaya untuk mengetahui bagaimana melakukan ML yang wajar untuk model gamma atau weibull yang khas , karena mereka cukup standar untuk dipecahkan masalah yang sebagian besar telah dimasukkan ke dalam bentuk yang mudah.

Jika Anda datang untuk melakukan penelitian , Anda akan membutuhkan lebih banyak keterampilan yang Anda dapatkan di tempat-tempat seperti Casella & Berger (tetapi bahkan dengan keterampilan semacam itu, Anda juga harus membaca lebih dari satu buku).


Beberapa hal yang disarankan:

Anda harus membangun beberapa keterampilan regresi, bahkan jika Anda tidak melakukan hal lain.

Ada sejumlah buku yang cukup bagus, tetapi mungkin Draper & Smith Applied Regression Analysis plus Fox dan Weisberg An R Companion to Applied Regression ; Saya juga menyarankan Anda mempertimbangkan untuk mengikuti Strategi Pemodelan Regresi Harrell

(Anda dapat mengganti sejumlah buku bagus untuk Draper dan Smith - temukan satu atau dua yang cocok untuk Anda.)

Buku kedua memiliki sejumlah bab tambahan online yang sangat layak dibaca (dan paket R-nya sendiri)

-

Satu porsi kedua yang baik akan Venables & Ripley modern Statistik Terapan dengan S .

Itulah beberapa landasan dalam ide yang cukup luas.

Mungkin ternyata Anda memerlukan beberapa bahan dasar dalam beberapa topik (saya tidak tahu latar belakang Anda).

Maka Anda harus mulai berpikir tentang bidang statistik apa yang Anda inginkan / butuhkan - statistik Bayesian, deret waktu, analisis multivarian, dll.

Glen_b
sumber
6

Saran saya, yang datang dari perspektif yang berlawanan (mahasiswa Stats PhD) adalah bekerja melalui buku teks regresi. Ini tampaknya merupakan titik awal alami bagi seseorang dengan latar belakang teori yang solid tanpa pengalaman terapan. Saya tahu banyak mahasiswa pascasarjana dari luar departemen kami memulai kursus regresi.

Yang bagus adalah Regresi Linier Terapan Sanford Weisberg . Saya percaya ini pada versi keempat. Anda mungkin dapat menemukan versi lama yang relatif murah.

http://users.stat.umn.edu/~sandy/alr4ed/

Satu hal yang menyenangkan tentang buku teks ini, terutama mengingat pengalaman relatif Anda dengan R, adalah primer R yang tersedia melalui tautan di atas. Ini memberikan instruksi yang cukup untuk menciptakan kembali semua yang dilakukan dalam buku ini. Dengan cara ini, Anda dapat benar-benar belajar regresi (selain beberapa dasar GLM), tanpa kurangnya pemrograman R yang menahan Anda (dan Anda mungkin akan mengambil banyak dari dasar-dasar R di sepanjang jalan).

Jika Anda ingin pengantar komprehensif untuk R, Anda mungkin lebih baik dilayani melalui Fox dan Sahabat Weisberg untuk Regresi Terapan , tetapi sepertinya Anda lebih suka belajar statistik daripada pemrograman (jika kedua hal itu dapat dipikirkan secara terpisah).

Sejauh menyangkut komitmen waktu Anda, saya benar-benar tidak berpikir Anda akan menemukan buku pelajaran ini terlalu sulit. Tidak seperti Casella-Berger, tidak akan ada banyak bukti atau derivasi. Ini biasanya sangat mudah.

Sebagai tambahan, tampaknya ada solusi yang beredar di internet (atau ada di beberapa titik), sehingga Anda dapat mencoba masalah, memeriksa solusi, dan jenis kecepatan mengerjakan buku Anda.

user23658
sumber
4

Saya mencoba secara tidak langsung untuk menjadi lebih dari seorang ahli statistik, tetapi saya terutama seorang psikolog yang kebetulan memiliki beberapa minat kuantitatif dan metodologis. Untuk melakukan pekerjaan psikometrik dengan benar, saya telah mempelajari metode lanjutan (untuk seorang psikolog) yang tidak ingin saya hitung secara manual (apalagi saya tahu caranya). Saya terkejut melihat betapa mudah diakses dan nyamannya metode ini melalui semua upaya khusus dari programmer paket R selama dekade terakhir. Saya telah melakukan analisis kehidupan nyata dengan metode baru yang telah saya pelajari untuk digunakan dalam waktu kurang dari 20 jam per metode ... Saya mungkin menghabiskan banyak waktu pada metode baru pada saat saya siap untuk menerbitkan hasil menggunakannya, tetapi tentu saja tidak perlu membuat pekerjaan paruh waktu belajar hanya untuk membuat kemajuan seperti yang saya miliki. Lakukan apa yang Anda bisa ketika Anda menemukan waktu untuk itu; itu bukan pengejaran semua-atau-tidak sama sekali jika Anda tidak menginginkannya.

Saya tentu saja belum fokus secara eksklusif pada topik apa pun, apalagi keluarga distribusi; Saya ragu bahwa seorang ahli statistik jujur-to-kebaikan akan belajar dengan sangat sempit. Saya telah mencoba-coba distribusi teoretis selama mungkin satu jam per hari pada beberapa kesempatan selama seminggu terakhir; itu sudah banyak terbukti bermanfaat dalam aplikasi data nyata. Sejauh yang saya tahu, idenya bukan untuk mengklasifikasikan distribusi secara ketat; itu untuk mengenali bentuk distribusi yang menyerupai teori dan menggunakannya untuk membantu memutuskan analisis yang tepat dan memahami dinamika dasar. Saya telah berbagi pemikiran yang sama tentang jawaban terakhir saya untuk " Apakah lebih baik memilih distribusi berdasarkan teori, kecocokan, atau yang lain? "

Anda belum mengatakan analisis apa yang ingin Anda lakukan dalam apa yang saya asumsikan adalah skenario terburuk hipotetis Anda, tetapi ada cara untuk mempelajari sensitivitas setiap analisis terhadap kesalahan pengambilan sampel. Jika CLT tidak berlaku, masih ada beberapa pertanyaan statistik yang dapat Anda tanyakan jika Anda tahu caranya. Metode nonparametrik umumnya membuat asumsi yang sangat terbatas tentang distribusi, jadi pengetahuan awal tentang bentuk distribusi populasi tidak selalu merupakan masalah besar.

Pengetahuan secara umum tidak benar-benar menguap dengan cepat atau sepenuhnya, tetapi jika Anda tidak menggunakannya, Anda akan merasa lebih sulit untuk mengingat dengan bebas. Anda akan mempertahankan keunggulan pengakuan lebih lama, yang masih bisa berguna jika Anda perlu mempelajari topik yang telah Anda pelajari beberapa tahun sebelumnya ... tetapi jika Anda ingin tetap fasih dengan apa yang telah Anda pelajari, teruslah menggunakannya , dan terus belajar! R jelas merupakan tempat yang baik untuk menginvestasikan waktu belajar Anda. Seharusnya juga membantu dengan matematika murni Anda: lihat jawaban saya yang lain baru-baru ini untuk " Perangkat lunak visualisasi data open source terbaik untuk digunakan dengan PowerPoint ."

Nick Stauner
sumber
3

Saya menemukan ini pada tahun 2019. Dua sen saya.

Saya seorang profesor statistik dengan kecenderungan untuk melakukan analisis data dari berbagai jenis (itu sebabnya saya memilih statistik!). Untuk mengambil beberapa pengetahuan praktis, saya merekomendasikan James, Witten, Hastie, dan Tibshirani "Pengantar Pembelajaran Statistik". Mereka bahkan memiliki MOOC berdasarkan itu. Buku ini menggunakan banyak contoh "data nyata" dan juga berbasis R.

PA6OTA
sumber
Apakah Anda memiliki sesuatu untuk disarankan di luar "elemen pembelajaran statistik"? Saya pikir saya sudah familiar dengan (bagian dasar dari) buku itu sekarang.
Bombyx mori
2

Menjawab orang lain yang datang ke pertanyaan ini nanti ...


analisis data kehidupan nyata

Pelajari database (SQL), dplyr / panda, alat unix (sed, grep), memo, skrip, pembersihan data, dan pengujian perangkat lunak. Berbagai distribusi khusus memiliki sedikit nilai dalam industri.

Buku regresi terapan seperti Angrist & Pischke, Faraway, atau Weisberg, akan menjadi jenis teori yang lebih praktis.

sebagian besar waktu kita tidak tahu apa distribusi untuk data kehidupan nyata, jadi apa tujuan kita untuk fokus secara eksklusif pada berbagai keluarga distribusi

Karena itu minat dalam statistik nonparametrik. Tetapi pada saat yang sama nonparametrik tanpa asumsi terlalu longgar. Untuk menjawab pertanyaan Anda, keluarga spesialis dapat dianggap sebagai jawaban untuk pertanyaan sederhana yang mungkin Anda temui. Sebagai contoh, saya menganggap seorang Gaussian sebagai estimasi titik "halus". Poisson menjawab pertanyaan sederhana lainnya. Ketika orang membangun model matematika ini khusus dapat menjadi titik tumpu yang berguna. (Tetapi akademisi sering mengambil pencarian untuk distribusi master dengan cara yang salah.)

OP: Semoga Anda bersenang-senang dengan penelitian PhD Anda!

isomorfisma
sumber