Contoh pemodelan regresi tingkat lanjut

22

Saya sedang mencari studi kasus regresi linier lanjutan yang menggambarkan langkah-langkah yang diperlukan untuk memodelkan hubungan yang kompleks dan banyak non-linear menggunakan GLM atau OLS. Secara mengejutkan sulit untuk menemukan sumber daya yang melampaui contoh-contoh sekolah dasar: sebagian besar buku yang saya baca tidak akan lebih jauh dari transformasi log dari respons ditambah dengan BoxCox dari satu prediktor, atau spline alami dalam kasus terbaik. Juga semua contoh yang saya lihat sejauh ini mendekati setiap masalah transformasi data dalam model terpisah, seringkali dalam model prediktor tunggal.

Saya tahu apa itu transformasi BoxCox atau YeoJohnson. Apa yang saya cari adalah studi kasus kehidupan nyata yang terperinci di mana respons / hubungan tidak jelas. Misalnya, responsnya tidak sepenuhnya positif (sehingga Anda tidak dapat menggunakan log atau BoxCox), para prediktor memiliki hubungan non-linear antara mereka dan terhadap respons, dan transformasi data kemungkinan maksimum tampaknya tidak menyiratkan standar 0,33 atau 0,5 eksponen. Varians residual juga ditemukan non-konstan (tidak pernah ada), sehingga respons harus ditransformasikan juga dan pilihan harus dibuat antara regresi keluarga GLM non-standar atau transformasi respons. Peneliti kemungkinan akan membuat pilihan untuk menghindari overfitting data.

EDIT

Sejauh ini saya mengumpulkan sumber daya berikut:

  • Strategi Pemodelan Regresi, F. Harrell
  • Seri Waktu Ekonometrik Terapan, W. Enders
  • Model linier dinamis dengan R, G. Petris
  • Analisis Regresi Terapan, D. Kleinbaum
  • Pengantar Pembelajaran Statistik, G. James / D. Tertulis

Saya hanya membaca yang terakhir (ISLR) dan itu adalah teks yang sangat bagus (5 bintang 5 di arloji saya), meskipun lebih berorientasi pada ML daripada pemodelan regresi maju.

Ada juga ini posting yang baik pada CV yang menyajikan kasus regresi menantang.

Robert Kubrick
sumber
8
Saya percaya buku Frank Harrells ( amazon.com/... ) mungkin bisa membantu.
Adam Robinsson
@AdamRobinsson Saya melihat TOC menyentuh beberapa subjek yang relevan (model multivarian, splines, multicollinearity), tetapi apakah metodologi tersebut diilustrasikan bersama dalam contoh kehidupan nyata atau setiap topik dijelaskan secara terpisah? Karena biasanya dalam contoh kehidupan nyata semua masalah datang pada Anda bersama dan tidak pernah jelas bagaimana mengelolanya dengan baik.
Robert Kubrick
1
Saya belum membaca keseluruhan buku, tetapi 150 halaman pertama benar-benar hebat (saya bukan seorang statis, hanya penggemar). Contohnya luas dan diuraikan. Buku ini disertai dengan paket RMS (strategi pemodelan regresi) untuk R. Saya juga telah melihat buku yang bersaing David Kleinbaums (sayangnya lupa judulnya) tetapi memuat lebih sedikit tentang strategi dan contoh (dan dua kali lebih mahal).
Adam Robinsson
3
@RobertKubrick: "Regresi multivarian" berarti dengan lebih dari satu respons (lihat wiki untuk tag yang Anda tambahkan, atau di sini ). "Regresi berganda" berarti dengan lebih dari satu prediktor.
Scortchi
3
Anda mungkin ingin memeriksa Seri Waktu Ekonometrik Terapan oleh Enders. Versi baru mencakup model non-linear menjelang akhir buku. Hampir semua data tersedia untuk umum di situs web St. Louis Fed (dapat diakses melalui quantmod di R) sehingga Anda dapat mengikuti contoh kehidupan nyata. Model Dynamic Linear dengan R juga memiliki beberapa contoh dengan data nyata yang cukup baik.
Eric Brady

Jawaban:

10

Strategi Pemodelan Regresi dan ISLR, yang telah disebutkan oleh orang lain, adalah dua saran yang sangat bagus. Saya punya beberapa yang lain yang mungkin ingin Anda pertimbangkan.

Pemodelan Prediktif Terapan oleh Kuhn dan Johnson berisi sejumlah studi kasus yang baik dan cukup praktis.

-

Generalized Additive Models: Pendahuluan dengan R oleh Simon Wood adalah perawatan yang baik untuk model aditif umum dan bagaimana Anda menyesuaikannya dengan menggunakan mgcvpaketnya untuk R. Itu memang berisi beberapa contoh praktis nontrivial. Penggunaan model-model GAM adalah sebuah alternatif untuk mengetahui transformasi "benar" karena hal ini dilakukan dengan cara adaptif data melalui ekspansi spline dan menghukum estimasi kemungkinan maksimum. Namun, masih ada pilihan lain yang perlu dibuat, misalnya pilihan fungsi tautan.

The mboost paket untuk R juga sesuai model GAM tetapi menggunakan pendekatan yang berbeda melalui meningkatkan. Saya merekomendasikan tutorial untuk paket (salah satu Vignette).

Saya juga akan menyebutkan Penemuan Model Empiris dan Evaluasi Teori oleh Hendry dan Doornik, meskipun saya belum membaca buku ini sendiri. Direkomendasikan kepada saya.

NRH
sumber
Pemodelan Prediktif Terapan ... biasa saja. Saya lebih suka ISLR.
Robert Kubrick
5

Salah satu materi kursus terbaik yang dapat Anda temukan pada regresi tingkat lanjut, multipel, kompleks (termasuk nonlinier) didasarkan pada buku Regresi Modeling Strategies oleh Frank E. Harrell Jr.

Buku ini sedang dibahas dalam komentar tetapi bukan materi ini, yang dengan sendirinya merupakan sumber yang bagus.

juga
sumber
2

Saya akan merekomendasikan buku Mostly Harmless Econometrics oleh Joshua D. Angrist dan Jörn-Steffen Pischke

Ini adalah dunia yang paling nyata, garam ke bumi, teks yang saya miliki dan sangat murah, sekitar $ 26,00 baru. Buku ini ditulis untuk ahli statistik / ekonomi pascasarjana sehingga sangat maju.

Sekarang buku ini tidak persis seperti yang Anda minta dalam arti bahwa buku itu tidak fokus pada "hubungan yang kompleks dan beragam non-linear" sebanyak fundamental fundamental seperti endoegeneitas, interpretasi, dan desain regresi yang cerdas.

Tetapi saya menawarkan buku ini untuk mencoba menjelaskan maksudnya. Yaitu, ketika datang ke aplikasi analisis regresi dunia nyata, masalah yang paling menantang umumnya tidak ada hubungannya dengan fakta bahwa model kami tidak cukup kompleks ... percayalah kami cukup pandai memainkan drum sangat kompleks model! Sebaliknya masalah terbesar adalah hal-hal seperti

  1. Endogenitas
  2. tidak memiliki semua data yang kami butuhkan
  3. Memiliki banyak data ... dan semuanya berantakan!
  4. Bagi banyak orang tidak dapat menafsirkan model mereka sendiri dengan benar (masalah yang menjadi lebih lazim saat kita membuat model lebih kompleks)

Pemahaman yang kuat tentang GMM, filter non-linear dan regresi non-parametrik cukup banyak mencakup semua topik yang telah Anda daftarkan dan dapat dipelajari saat Anda melanjutkan. Namun, dengan data dunia nyata, kerangka kerja ini memiliki potensi untuk menjadi kompleks yang tidak perlu, sering kali berbahaya.

Yang terpenting adalah kemampuannya untuk menjadi sederhana secara cerdik daripada sepenuhnya digeneralisasikan dan sangat canggih, yang paling menguntungkan Anda dengan analisis dunia nyata. Buku ini akan membantu Anda dengan yang pertama.

Zachary Blumenfeld
sumber
1

Anda dapat merujuk Pengantar Pembelajaran Statistik dengan R (ISLR), buku ini berbicara tentang splines dan regresi polinomial secara rinci dengan kasus-kasus.

Vikram Venkat
sumber
1

Saya tidak yakin apa tujuan pertanyaan Anda. Saya dapat merekomendasikan teks Analisis Ekonometrik Greene . Ini memiliki banyak referensi untuk makalah di dalamnya. Cukup banyak setiap contoh dalam buku referensi makalah yang diterbitkan.

Untuk memberi Anda rasa, lihat Contoh 7.6 "Efek Interaksi dalam Model Loglinear untuk Penghasilan" di hal.195. Ini merujuk pada sebuah makalah dan kumpulan data: Regina T. Riphahn, Achim Wambach, dan Andreas Million, " Efek Insentif dalam Permintaan Perawatan Kesehatan: Estimasi Data Hitungan Panel Bivariat ", Journal of Applied Econometrics, Vol. 18, No. 4, 2003, hlm. 387-405.

Contohnya adalah tentang penggunaan model loglinear dan efek interaksi. Anda dapat membaca seluruh makalah, atau deskripsi buku teks ini. Ini bukan kasus penggunaan dibuat-buat. Ini adalah penelitian nyata yang diterbitkan. Ini adalah bagaimana orang benar-benar menggunakan metode statistik dalam penelitian ekonomi.

Saat saya menulis buku ini direcoki dengan kasus penggunaan seperti ini pada penggunaan metode statistik canggih.

Aksakal
sumber
0

Sudahkah Anda melihat beberapa kursus / buku Analisis Waktu Keuangan Seri yang ditulis Ruey Tsay (UChicago)?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Kelas Ruey Tsays dan buku teks memberikan banyak contoh dunia nyata di bidang Keuangan dari regresi kompleks dari jenis yang dibuat untuk digunakan di pasar keuangan. Bab 1 dimulai dengan model regresi multifaktor dan diperluas ke model seri Timeor Autoregressive Musiman oleh bab 5 atau 6.

zhqiat
sumber
2
Ya saya lakukan dan tidak suka sama sekali. Luasnya sangat luas (mulai dari model volatilitas hingga frekuensi tinggi hingga ARIMA ...), sentuh setiap subjek dengan ringan (bagaimana tidak bisa menangani begitu banyak topik) dan studi dan tantangan R dikurangi seminimal mungkin. Ini adalah pengulangan makalah akademik dan sudah menyatakan teori / model yang dapat Anda temukan di tempat lain. Inilah tepatnya yang saya maksudkan dengan kasus-kasus sekolah yang tidak pernah berurusan dengan kompleksitas berbagai tantangan di dunia nyata, masalah lanjutan.
Robert Kubrick