Nasihat umum tentang pemodelan

9

Merumuskan model matematika untuk suatu masalah adalah salah satu aspek statistik yang paling subyektif, tetapi juga salah satu yang paling penting. Apa referensi terbaik yang berhubungan dengan topik penting ini tetapi sering diabaikan? Dan ahli statistik terkenal mana yang mengatakan sesuatu, "Biarkan data memandu model?"

charles.y.zheng
sumber

Jawaban:

8

Menurut pendapat saya, "Strategi Pemodelan Regresi" Frank Harrell adalah referensi yang bagus. Bahkan, mungkin itu adalah buku statistik favorit saya.

Saya hanya mempelajari kurang dari setengah dari buku sejauh ini, tetapi telah mendapatkan banyak hal bagus dari itu, misalnya, mewakili prediktor sebagai splines untuk menghindari asumsi linearitas, beberapa imputasi untuk data yang hilang, dan validasi model bootstrap. Mungkin hal favorit saya tentang buku adalah tema umum bahwa tujuan penting adalah untuk mendapatkan hasil yang akan direplikasi pada data baru, bukan hasil yang hanya berpegang pada data saat ini.

Manfaat tambahan adalah paket Rms milik Frank Harrell yang membuatnya mudah untuk melakukan banyak hal yang dijelaskan dalam buku ini, dan kesediaannya untuk menjawab pertanyaan di sini dan pada bantuan-R.

mark999
sumber
3
(+1) Buku teks pendamping yang baik adalah Clinical Prediction Models , oleh EW Steyerberg (terutama bagi mereka yang tertarik dengan hasil klinis).
chl
@ chl Terima kasih atas sarannya. Saya belum pernah mendengar buku itu, dan akan tertarik untuk melihatnya.
mark999
2
@ user152509 Sejauh yang saya tahu, mendistribusikan salinan elektronik akan ilegal. Jika Anda tidak dapat membeli buku atau mendapatkannya dari perpustakaan, Anda dapat melihat beberapa buku di Google Books, dan ada beberapa sumber daya terkait di halaman web Vanderbilt Department of Biostatistics.
mark999
6

Pernyataan terakhir tampaknya dalam semangat kritik Sims ((1980) Makroekonomi dan Realitas , Econometrica, Januari, hal 1-48.) Di mana ia

... menganjurkan penggunaan model VAR sebagai metode bebas teori untuk memperkirakan hubungan ekonomi, sehingga menjadi alternatif untuk "pembatasan identifikasi yang luar biasa" dalam model struktural [dari wiki]

Tetapi mungkin S.Johansen (salah satu pelopor analisis kointegrasi) dapat mengikuti semangat yang sama. Dari apa yang saya diajarkan, urutan pembuatan modelnya adalah seperti:

  1. Perjelas tujuan utama model: peramalan, hubungan struktural (simulasi), hubungan sebab akibat, faktor laten, dll.
  2. Model abstrak adalah dunia nyata yang bisa menjadi "terlalu nyata" untuk bisa ditutupi sepenuhnya dalam aplikasi Anda, tetapi itu memberi perasaan (atau pemahaman) tentang apa yang sedang terjadi
  3. Model verbal membawa beberapa teori atau menerjemahkan pemahaman Anda ke dalam pernyataan dan hipotesis untuk diuji, fakta empiris (kadang-kadang disebut bergaya) dikumpulkan pada langkah ini
  4. Model matematika baru sekarang Anda dapat merumuskan teori Anda dalam bentuk persamaan (perbedaan, diferensial), model seperti itu sering bersifat deterministik (meskipun orang dapat menggabungkan langkah ini dengan yang terakhir dan mempertimbangkan persamaan diferensial stokastik misalnya) dengan demikian Anda perlu. ..
  5. Model ekonometrik (statistik) menambahkan bagian stokastik, teori dan metode statistik terapan dan teori probabilitas, ekonometrik mikro dan makro.

Semoga ini bermanfaat.

Dmitrij Celov
sumber
1
Adakah referensi untuk "Sim" atau "Johansen"? Terima kasih!
charles.y.zheng
2

Referensi untuk "membiarkan data memandu model" dapat dikaitkan dengan George EP Box dan Gwilym M. Jenkins . Dalam Bab 2 buku teks klasik mereka, Time Series Analysis: Forecasting and Control (1976), dikatakan bahwa:

Memperoleh estimasi sampel dari fungsi autokorelasi dan spektrum adalah pendekatan non-struktural, analog dengan representasi fungsi distribusi empiris dengan histogram. Keduanya merupakan cara untuk membiarkan data dari seri stasioner "berbicara untuk diri mereka sendiri" dan memberikan langkah pertama dalam analisis deret waktu, seperti halnya histogram dapat memberikan langkah pertama dalam analisis distribusi data, menunjuk pada cara untuk beberapa model parametrik yang menjadi dasar analisis selanjutnya.

Prosedur pemodelan membiarkan data yang berbicara , seperti yang dianjurkan oleh Box & Jenkins, jelas dirujuk ke seluruh literatur tentang pemodelan ARIMA. Misalnya, dalam konteks mengidentifikasi model ARIMA tentatif, Pankratz (1983) mengatakan:

Perhatikan bahwa kami tidak mendekati data yang tersedia dengan gagasan yang kaku dan sudah terbentuk sebelumnya tentang model yang akan kami gunakan. Sebagai gantinya, kami membiarkan data yang tersedia `` berbicara kepada kami '' dalam bentuk fungsi autokorelasi yang diperkirakan dan fungsi autokorelasi parsial.

Jadi, dapat dikatakan bahwa gagasan 'membiarkan data memandu model' adalah fitur yang lazim dalam analisis deret waktu.

Namun, gagasan serupa dapat ditemukan di bidang studi (sub) lainnya. Sebagai contoh, @Dmitrij Celov telah dengan benar membuat referensi ke artikel pemecahan jalan Christopher Sims, Makroekonomi dan Realitas (1980), yang merupakan reaksi terhadap penggunaan model persamaan simultan skala besar dalam ekonomi makro.

Pendekatan tradisional dalam ekonomi makro adalah dengan menggunakan teori ekonomi sebagai panduan untuk membangun model ekonomi makro. Seringkali, model dibuat dari ratusan persamaan, dan pembatasan, seperti pra-memutuskan tanda-tanda dari beberapa koefisien, akan dikenakan pada mereka. Sims (1980) sangat kritis dalam menggunakan pengetahuan a priori ini untuk membangun model ekonomi makro:

Fakta bahwa model makroekonomi besar bersifat dinamis adalah sumber yang kaya akan pembatasan `a priori 'yang palsu.

Seperti yang telah disebutkan oleh @Dmitrij Celov, pendekatan alternatif yang dianjurkan oleh Sims (1980) adalah untuk menentukan persamaan autoregresif vektor - yang (pada dasarnya) didasarkan pada nilai lagged variabel sendiri dan nilai lagged variabel lain.

Meskipun saya penggemar gagasan 'membiarkan data berbicara sendiri' , saya tidak terlalu yakin apakah metodologi ini dapat diperluas sepenuhnya ke semua bidang studi. Misalnya, pertimbangkan untuk melakukan studi di bidang ekonomi tenaga kerja untuk mencoba menjelaskan perbedaan antara tingkat upah di antara laki-laki dan perempuan di suatu negara. Memilih serangkaian regresi dalam model seperti itu mungkin akan dipandu oleh teori modal manusia . Dalam konteks lain, serangkaian regresi dapat dipilih berdasarkan minat kami dan apa yang dikatakan akal sehat. Verbeek (2008) mengatakan:

Ini adalah praktik yang baik untuk memilih set variabel yang berpotensi relevan berdasarkan argumen ekonomi daripada yang statistik. Meskipun kadang-kadang disarankan sebaliknya, argumen statistik bukanlah argumen yang pasti.

Sungguh, saya hanya bisa menggaruk permukaan di sini karena itu adalah topik yang besar, tetapi referensi terbaik yang saya temui pada pemodelan adalah Granger (1991). Jika latar belakang Anda bukan ekonomi, jangan biarkan judul buku membuat Anda kecewa. Sebagian besar diskusi memang terjadi dalam konteks pemodelan seri ekonomi, tapi saya yakin orang-orang dari bidang lain akan mendapatkan banyak dari itu dan merasa berguna.

Buku ini berisi diskusi yang sangat baik tentang berbagai metodologi pemodelan seperti:

  • Pendekatan umum-spesifik (atau metodologi LSE) seperti yang dianjurkan oleh David Hendry.
  • Pendekatan spesifik-umum.
  • Metodologi Edward Leamer (biasanya terkait dengan istilah "analisis sensitivitas (atau batas ekstrim)" & "Bayesian" ).
  • Secara kebetulan, pendekatan Christophers Sims juga dibahas.

Perlu dicatat bahwa Granger (1991) sebenarnya adalah kumpulan makalah, jadi daripada mencoba untuk mendapatkan salinan buku itu, Anda dapat, tentu saja, mencari daftar isi dan mencoba menemukan artikel sendiri. (Lihat tautan di bawah.)

Semoga ini terbukti bermanfaat!

Referensi:

Graeme Walsh
sumber