Kapan harus menjatuhkan istilah dari model regresi?

20

Adakah yang bisa menyarankan jika hal berikut ini masuk akal:

Saya berurusan dengan model linier biasa dengan 4 prediktor. Saya dalam dua pikiran apakah akan menjatuhkan istilah yang paling tidak signifikan. Nilai- sedikit di atas 0,05. Saya berpendapat mendukung menjatuhkannya di bawah ini: Mengalikan estimasi istilah ini dengan (misalnya) rentang interkuartil dari data sampel untuk variabel ini, memberikan beberapa makna pada efek klinis yang menjaga istilah ini pada model keseluruhan . Karena angka ini sangat rendah, kira-kira sama dengan kisaran nilai intra-hari tipikal yang dapat diambil oleh variabel ketika mengukurnya dalam pengaturan klinis, saya melihatnya sebagai tidak signifikan secara klinis dan karenanya dapat diturunkan untuk memberikan model yang lebih pelit, bahkan meskipun menjatuhkannya mengurangi disesuaikan sedikit.R 2halR2

P Sellaz
sumber
1
mengapa Anda mencari model yang lebih parsimonius?
Michael Bishop
3
Bukankah itu sendiri hal yang baik? Cara saya melihatnya, model dengan variabel yang menambah sedikit atau tidak ada kekuatan penjelas dalam arti klinis, lebih buruk daripada model yang lebih kecil tanpa variabel-variabel itu, bahkan jika variabel-variabel tersebut signifikan dalam arti statistik
P Sellaz
Saya memutuskan untuk menulis jawaban: stats.stackexchange.com/questions/17624/… . Tetapi singkatnya, Tidak, saya tidak menganggap kekikiran itu baik. Terkadang berguna untuk alasan tertentu.
Michael Bishop
1
Saya setuju dengan Michael. Yang terbaik adalah memasukkan variabel-variabel tanpa kemampuan penjelas yang jelas jika mereka diberi kesempatan untuk menjadi "signifikan"; Anda sudah menghabiskan derajat kebebasan itu.
Frank Harrell
Perlu diingat bahwa prediktor yang bukan regressor yang signifikan masih dapat berkontribusi dalam jumlah yang tidak nol pada varians yang dijelaskan dalam kasus regressor yang berkorelasi - dengan memengaruhi regressor signifikan lainnya. Terutama dengan hanya empat prediktor, jika regresi berkorelasi, saya berpendapat mendukung mempertahankan yang tidak signifikan dalam model.
Torvon

Jawaban:

18

Saya tidak pernah mengerti keinginan untuk kekikiran. Mencari kekikiran menghancurkan semua aspek inferensi statistik (bias koefisien regresi, kesalahan standar, interval kepercayaan, nilai-P). Alasan yang baik untuk menjaga variabel adalah bahwa ini menjaga keakuratan interval kepercayaan dan jumlah lainnya. Pikirkan seperti ini: hanya ada dikembangkan dua penaksir yang tidak bias dari residu varians dalam regresi berganda biasa: (1) perkiraan dari model yang telah ditentukan (besar), dan (2) perkiraan dari model yang dikurangi menggantikan derajat umum kebebasan (GDF) untuk tingkat kebebasan regresi yang jelas (dikurangi). GDF akan jauh lebih dekat dengan jumlah parameter kandidat daripada dengan jumlah parameter "signifikan" akhir.

Inilah cara lain untuk memikirkannya. Misalkan Anda melakukan ANOVA untuk membandingkan 5 perawatan, mendapatkan F-test 4 df. Kemudian untuk beberapa alasan Anda melihat perbedaan berpasangan antara perawatan menggunakan t-tes dan memutuskan untuk menggabungkan atau menghapus beberapa perawatan (ini sama dengan melakukan seleksi bertahap menggunakan P, AIC, BIC, Cp pada 4 variabel dummy). F-test yang dihasilkan dengan 1, 2, atau 3 df akan memiliki kesalahan tipe I yang meningkat. F-test asli dengan 4 df berisi penyesuaian multiplisitas sempurna.

Frank Harrell
sumber
3
+1 Parsimony adalah sesuatu yang seringkali hanya masuk akal dalam konteks yang sangat spesifik. Tidak ada alasan untuk memainkan game bias vs presisi jika Anda memiliki cukup presisi untuk melakukan keduanya.
Fomite
2
+1 untuk jawaban yang bagus. Tetapi bagaimana jika Anda memiliki multikolinieritas dan menghapus variabel menguranginya? (Ini tidak terjadi pada pertanyaan awal, tetapi sering kali dalam data lain). Bukankah model yang dihasilkan sering lebih unggul dalam segala hal (mengurangi varians penduga, tanda-tanda koefisien lebih cenderung mencerminkan teori yang mendasarinya, dll)? Jika Anda masih menggunakan derajat kebebasan (model asli) yang benar.
Peter Ellis
4
Masih lebih baik untuk memasukkan kedua variabel. Satu-satunya harga yang Anda bayar adalah peningkatan kesalahan standar dalam memperkirakan salah satu efek variabel yang disesuaikan dengan yang lainnya. Tes gabungan dari dua variabel collinear sangat kuat saat mereka menggabungkan kekuatan daripada bersaing satu sama lain. Juga jika Anda ingin menghapus suatu variabel, data tidak dapat memberi tahu Anda yang mana yang akan dihapus.
Frank Harrell
17

Jawaban-jawaban tentang pemilihan variabel ini semuanya mengasumsikan bahwa biaya pengamatan variabel adalah 0.

Dan itu tidak benar.

Sementara masalah pemilihan variabel untuk model yang diberikan mungkin atau mungkin tidak melibatkan seleksi, implikasi untuk perilaku di masa depan TIDAK melibatkan seleksi.

Pertimbangkan masalah memprediksi gelandang perguruan tinggi mana yang akan melakukan yang terbaik di NFL. Anda seorang pengintai. Anda harus mempertimbangkan kualitas linemen saat ini di NFL yang paling dapat diprediksi keberhasilannya. Anda mengukur 500 jumlah, dan memulai tugas pemilihan jumlah yang akan dibutuhkan di masa depan.

Apa yang harus kamu lakukan Haruskah Anda mempertahankan semua 500? Haruskah beberapa (tanda astrologi, hari lahir pada minggu) dihilangkan?

Ini pertanyaan penting, dan bukan akademis. Ada biaya untuk pengamatan data, dan kerangka efektivitas biaya menunjukkan bahwa beberapa variabel TIDAK PERLU diamati di masa depan, karena nilainya rendah.

Paul A. Thompson
sumber
4
+1: poin penting dan menarik. Ini juga mengungkapkan bahwa pertanyaan itu tidak lengkap, karena tidak menunjukkan tujuan model. (Biaya akan kurang relevan untuk model ilmiah yang berupaya membangun teori penjelasan tetapi akan muncul di depan dalam model prediktif yang dimaksudkan untuk digunakan berulang kali.)
whuber
6

Setidaknya ada dua alasan lain yang mungkin untuk menjaga variabel: 1) Ini mempengaruhi parameter untuk variabel LAIN. 2) Fakta bahwa itu kecil itu sendiri secara klinis menarik

Untuk melihat sekitar 1, Anda dapat melihat nilai yang diprediksi untuk setiap orang dari model dengan dan tanpa variabel dalam model. Saya sarankan membuat sebar dua set nilai ini. Jika tidak ada perbedaan besar, maka itu argumen terhadap alasan ini

Untuk 2, pikirkan mengapa Anda memiliki variabel ini dalam daftar kemungkinan variabel. Apakah ini berdasarkan teori? Apakah penelitian lain menemukan ukuran efek yang besar?

Peter Flom - Pasang kembali Monica
sumber
Ada sangat sedikit collinearity untuk dibicarakan, jadi menghapus variabel ini membuat sangat sedikit perbedaan dengan yang lain. Itu hal yang menarik tentang hal itu secara klinis menarik jika kecil. Data berasal dari survei eksplorasi di mana, setidaknya pada tahap ini, tidak ada alasan untuk mengharapkan satu variabel lebih signifikan daripada yang lain. Namun, ada fluktuasi intra-hari dalam variabel ini, jadi di muka itu, jika efeknya sama ukurannya dengan fluktuasi ini, sepertinya tidak signifikan secara klinis bagi saya.
P Sellaz
OK, maka itu terdengar seperti kandidat yang baik untuk dihapus.
Peter Flom - Reinstate Monica
@ P Sellaz - jika "data berasal dari survei eksplorasi," apakah itu berarti peserta memilih sendiri? Saya menemukan komentar @Frank Harrell sesuatu yang harus diperhitungkan, tetapi kepedulian terhadap ketepatan nilai-p, interval kepercayaan, dll menjadi diperdebatkan jika sampel dipilih sendiri.
rolando2
Saya pikir ini hanya akan menjadi perdebatan jika Anda tidak menggunakannya.
Frank Harrell
@FrankHarrel - tolong jelaskan: "mereka" =?
rolando2
6

Saran yang paling umum hari ini adalah untuk mendapatkan AIC dari dua model dan mengambil satu dengan AIC yang lebih rendah. Jadi, jika model lengkap Anda memiliki AIC -20 dan model tanpa prediktor terlemah memiliki AIC> -20 maka Anda menyimpan model lengkapnya. Beberapa mungkin berpendapat bahwa jika perbedaannya <3 Anda mempertahankan yang lebih sederhana. Saya lebih suka saran bahwa Anda bisa menggunakan BIC untuk memutuskan "ikatan" ketika AIC berada dalam 3 dari satu sama lain.

Jika Anda menggunakan R maka perintah untuk mendapatkan AIC adalah ... AIC.

Saya punya buku teks tentang pemodelan di sini dari awal 90-an yang menyarankan agar Anda membuang semua prediktor Anda yang tidak signifikan. Namun, ini benar-benar berarti Anda akan terlepas dari kerumitan yang ditambahkan atau dikurangkan oleh model. Ini juga hanya untuk ANOVA di mana signifikansi tentang variabilitas dijelaskan daripada besarnya kemiringan mengingat hal-hal lain yang telah dijelaskan. Saran yang lebih modern tentang penggunaan AIC mempertimbangkan faktor-faktor ini. Ada segala macam alasan mengapa prediktor yang tidak signifikan harus dimasukkan walaupun itu tidak signifikan. Misalnya, mungkin ada masalah korelasi dengan prediktor lain yang mungkin menjadi prediktor yang relatif sederhana. Jika Anda ingin saran paling sederhana, pergi dengan AIC dan gunakan BIC untuk memutuskan hubungan dan menggunakan perbedaan 3 sebagai jendela kesetaraan Anda.

John
sumber
Lebih kecil lebih baik dalam representasi R, ya?
Aaron - Pasang kembali Monica
Terima kasih untuk balasan Anda. Saya menemukan bahwa perbedaan AIC antara kedua model hanya 2.
P Sellaz
Model yang lebih kecil memiliki AIC dan BIC yang sedikit lebih besar: AIC besar-kecil = -2 BIC: besar-kecil BIC- 7,8
P Sellaz
Aaron .. oops ... lebih rendah, tetap ...
John
1
Hanya untuk membersihkan sesuatu, istilah tambahan ini hanyalah kovariat lain, dan sangat sedikit collinearity.
P Sellaz
4

Untuk apa Anda menggunakan model ini? Apakah kekikiran merupakan tujuan penting?

Lebih banyak model pelit lebih disukai dalam beberapa situasi, tetapi saya tidak akan mengatakan kekikiran adalah hal yang baik dalam dirinya sendiri. Model Parsimonious dapat dipahami dan dikomunikasikan dengan lebih mudah, dan kekikiran dapat membantu menjaga agar tidak terlalu pas, tetapi sering kali masalah ini tidak menjadi perhatian utama atau dapat diatasi dengan cara lain.

Mendekati dari arah yang berlawanan, termasuk istilah tambahan dalam persamaan regresi memiliki beberapa manfaat bahkan dalam situasi di mana istilah tambahan itu sendiri tidak menarik dan itu tidak meningkatkan model yang cocok ... Anda mungkin tidak berpikir bahwa itu adalah variabel penting untuk dikendalikan, tetapi yang lain mungkin. Tentu saja, ada alasan substantif lain yang sangat penting untuk mengecualikan variabel, misalnya itu mungkin disebabkan oleh hasilnya.

Michael Bishop
sumber
3

Dari kata-kata Anda, kedengarannya Anda cenderung menjatuhkan prediktor terakhir karena nilai prediktifnya rendah; perubahan besar pada prediktor itu tidak akan menyiratkan perubahan substansial pada variabel respons. Jika itu masalahnya, maka saya suka kriteria ini untuk memasukkan / menjatuhkan prediktor. Ini lebih didasarkan pada realitas praktis daripada AIC atau BIC dapat, dan lebih menjelaskan kepada audiens Anda untuk penelitian ini.

rolando2
sumber
Ya, itulah yang saya maksudkan.
P Sellaz