Bagaimana cara "regresi bertahap" bekerja?

11

Saya menggunakan kode R berikut agar sesuai dengan model probit:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

Saya ingin tahu apa yang dilakukan stepwisedan backward/forwarddilakukan dengan tepat dan bagaimana memilih variabel?

Mahmoud
sumber
7
Beberapa komentar oleh Frank Harrell ( stats.stackexchange.com/users/4253/frank-harrell ) tentang mengapa regresi bertahap buruk: stata.com/support/faqs/statistics/stepwise-regress-problems
4
Selain tautan BabakP, lihat juga pos ini dari situs.
COOLSerdash
3
Namun posting lain tentang masalah dengan stepwise (dan mundur dan maju juga) adalah makalah yang saya tulis dengan David Cassell: Menghentikan Stepwise
Peter Flom - Reinstate Monica
@ PeterFlom, untuk referensi makalah ini, saya mengalami beberapa masalah dalam memahami kutipan yang tepat. Bisakah Anda mendaftar di sini? Terima kasih.
doug.nomor
2
@ doug.numbers Dipresentasikan di berbagai tempat dan diterbitkan sebagai bagian dari proses konferensi. Jika Anda Google "Flom, Cassell, Stepwise" Anda akan mendapatkan tempat itu disajikan dan Anda dapat memformatnya namun Anda memformat kutipan untuk presentasi yang diterbitkan.
Peter Flom - Pasang kembali Monica

Jawaban:

10

Prinsip pemilihan bertahap

  1. Anda cocok dengan model dengan semua variabel yang Anda inginkan. Ini adalah model terbaik Anda saat ini.
  2. Anda menghapus satu variabel (atau menambahkan satu, di antara variabel yang tidak digunakan dalam model terbaik saat ini), dan untuk masing-masing, Anda cocok dengan model baru, dan Anda membandingkannya dengan masing-masing lebih dan dengan yang asli, menurut BIC (atau kriteria lain, seperti AIC ). Anda mendapatkan "model terbaik saat ini".

Anda ulangi 2. sampai tidak ada pengurangan BIC. Anda hanya memiliki BIC minimum lokal, yang berarti Anda mungkin tidak mendapatkan model terbaik di antara semua pilihan subset variabel yang mungkin. Tapi bagaimanapun, biasanya ada terlalu banyak dari mereka, jadi ini adalah cara untuk mengoptimalkan sedikit, tanpa terlalu banyak bekerja.

Lihat juga Regresi bertahap dan pemilihan Model di Wikipedia.


sumber
5

Regresi bertahap pada dasarnya sesuai dengan model regresi dengan menambahkan / menjatuhkan kovariat satu per satu berdasarkan kriteria yang ditentukan (dalam contoh Anda di atas kriteria akan didasarkan pada BIC).

Dengan menentukan ke depan Anda memberi tahu Rbahwa Anda ingin memulai dengan model paling sederhana (yaitu, satu kovariat) dan kemudian menambahkan satu kovariat satu per satu dengan hanya menjaga yang menghasilkan peningkatan pada model BIC.

Dengan menentukan mundur Anda mengatakan Rbahwa Anda ingin memulai dengan model lengkap (yaitu, model dengan semua kovariat) dan kemudian menjatuhkan kovariat, sekali waktu, yang menghasilkan peningkatan dalam BIC.

Regresi bertahap dapat menjadi prosedur statistik yang sangat berbahaya karena ini bukan prosedur pemilihan model yang optimal. Metode ini dapat menyebabkan pemilihan model yang sangat buruk karena dan tidak melindungi Anda terhadap masalah seperti beberapa perbandingan.


sumber
Terima kasih. Dan bagaimana dengan 'mundur / maju'?
Mahmoud
Apa maksud Anda tentang mundur / maju?
Salah satu metode stpewise () dalam R adalah 'mundur / maju'! Apakah ini kombinasi keduanya?
Mahmoud
2
Oh maaf, sekarang saya mengerti apa yang Anda minta. Ya, jika Anda menentukan keduanya maka itu berlaku maju dan mundur dan memilih yang dengan kriteria terbaik.