Adakah yang bisa menyarankan jika hal berikut ini masuk akal:
Saya berurusan dengan model linier biasa dengan 4 prediktor. Saya dalam dua pikiran apakah akan menjatuhkan istilah yang paling tidak signifikan. Nilai- sedikit di atas 0,05. Saya berpendapat mendukung menjatuhkannya di bawah ini: Mengalikan estimasi istilah ini dengan (misalnya) rentang interkuartil dari data sampel untuk variabel ini, memberikan beberapa makna pada efek klinis yang menjaga istilah ini pada model keseluruhan . Karena angka ini sangat rendah, kira-kira sama dengan kisaran nilai intra-hari tipikal yang dapat diambil oleh variabel ketika mengukurnya dalam pengaturan klinis, saya melihatnya sebagai tidak signifikan secara klinis dan karenanya dapat diturunkan untuk memberikan model yang lebih pelit, bahkan meskipun menjatuhkannya mengurangi disesuaikan sedikit.R 2
sumber
Jawaban:
Saya tidak pernah mengerti keinginan untuk kekikiran. Mencari kekikiran menghancurkan semua aspek inferensi statistik (bias koefisien regresi, kesalahan standar, interval kepercayaan, nilai-P). Alasan yang baik untuk menjaga variabel adalah bahwa ini menjaga keakuratan interval kepercayaan dan jumlah lainnya. Pikirkan seperti ini: hanya ada dikembangkan dua penaksir yang tidak bias dari residu varians dalam regresi berganda biasa: (1) perkiraan dari model yang telah ditentukan (besar), dan (2) perkiraan dari model yang dikurangi menggantikan derajat umum kebebasan (GDF) untuk tingkat kebebasan regresi yang jelas (dikurangi). GDF akan jauh lebih dekat dengan jumlah parameter kandidat daripada dengan jumlah parameter "signifikan" akhir.
Inilah cara lain untuk memikirkannya. Misalkan Anda melakukan ANOVA untuk membandingkan 5 perawatan, mendapatkan F-test 4 df. Kemudian untuk beberapa alasan Anda melihat perbedaan berpasangan antara perawatan menggunakan t-tes dan memutuskan untuk menggabungkan atau menghapus beberapa perawatan (ini sama dengan melakukan seleksi bertahap menggunakan P, AIC, BIC, Cp pada 4 variabel dummy). F-test yang dihasilkan dengan 1, 2, atau 3 df akan memiliki kesalahan tipe I yang meningkat. F-test asli dengan 4 df berisi penyesuaian multiplisitas sempurna.
sumber
Jawaban-jawaban tentang pemilihan variabel ini semuanya mengasumsikan bahwa biaya pengamatan variabel adalah 0.
Dan itu tidak benar.
Sementara masalah pemilihan variabel untuk model yang diberikan mungkin atau mungkin tidak melibatkan seleksi, implikasi untuk perilaku di masa depan TIDAK melibatkan seleksi.
Pertimbangkan masalah memprediksi gelandang perguruan tinggi mana yang akan melakukan yang terbaik di NFL. Anda seorang pengintai. Anda harus mempertimbangkan kualitas linemen saat ini di NFL yang paling dapat diprediksi keberhasilannya. Anda mengukur 500 jumlah, dan memulai tugas pemilihan jumlah yang akan dibutuhkan di masa depan.
Apa yang harus kamu lakukan Haruskah Anda mempertahankan semua 500? Haruskah beberapa (tanda astrologi, hari lahir pada minggu) dihilangkan?
Ini pertanyaan penting, dan bukan akademis. Ada biaya untuk pengamatan data, dan kerangka efektivitas biaya menunjukkan bahwa beberapa variabel TIDAK PERLU diamati di masa depan, karena nilainya rendah.
sumber
Setidaknya ada dua alasan lain yang mungkin untuk menjaga variabel: 1) Ini mempengaruhi parameter untuk variabel LAIN. 2) Fakta bahwa itu kecil itu sendiri secara klinis menarik
Untuk melihat sekitar 1, Anda dapat melihat nilai yang diprediksi untuk setiap orang dari model dengan dan tanpa variabel dalam model. Saya sarankan membuat sebar dua set nilai ini. Jika tidak ada perbedaan besar, maka itu argumen terhadap alasan ini
Untuk 2, pikirkan mengapa Anda memiliki variabel ini dalam daftar kemungkinan variabel. Apakah ini berdasarkan teori? Apakah penelitian lain menemukan ukuran efek yang besar?
sumber
Saran yang paling umum hari ini adalah untuk mendapatkan AIC dari dua model dan mengambil satu dengan AIC yang lebih rendah. Jadi, jika model lengkap Anda memiliki AIC -20 dan model tanpa prediktor terlemah memiliki AIC> -20 maka Anda menyimpan model lengkapnya. Beberapa mungkin berpendapat bahwa jika perbedaannya <3 Anda mempertahankan yang lebih sederhana. Saya lebih suka saran bahwa Anda bisa menggunakan BIC untuk memutuskan "ikatan" ketika AIC berada dalam 3 dari satu sama lain.
Jika Anda menggunakan R maka perintah untuk mendapatkan AIC adalah ...
AIC
.Saya punya buku teks tentang pemodelan di sini dari awal 90-an yang menyarankan agar Anda membuang semua prediktor Anda yang tidak signifikan. Namun, ini benar-benar berarti Anda akan terlepas dari kerumitan yang ditambahkan atau dikurangkan oleh model. Ini juga hanya untuk ANOVA di mana signifikansi tentang variabilitas dijelaskan daripada besarnya kemiringan mengingat hal-hal lain yang telah dijelaskan. Saran yang lebih modern tentang penggunaan AIC mempertimbangkan faktor-faktor ini. Ada segala macam alasan mengapa prediktor yang tidak signifikan harus dimasukkan walaupun itu tidak signifikan. Misalnya, mungkin ada masalah korelasi dengan prediktor lain yang mungkin menjadi prediktor yang relatif sederhana. Jika Anda ingin saran paling sederhana, pergi dengan AIC dan gunakan BIC untuk memutuskan hubungan dan menggunakan perbedaan 3 sebagai jendela kesetaraan Anda.
sumber
Untuk apa Anda menggunakan model ini? Apakah kekikiran merupakan tujuan penting?
Lebih banyak model pelit lebih disukai dalam beberapa situasi, tetapi saya tidak akan mengatakan kekikiran adalah hal yang baik dalam dirinya sendiri. Model Parsimonious dapat dipahami dan dikomunikasikan dengan lebih mudah, dan kekikiran dapat membantu menjaga agar tidak terlalu pas, tetapi sering kali masalah ini tidak menjadi perhatian utama atau dapat diatasi dengan cara lain.
Mendekati dari arah yang berlawanan, termasuk istilah tambahan dalam persamaan regresi memiliki beberapa manfaat bahkan dalam situasi di mana istilah tambahan itu sendiri tidak menarik dan itu tidak meningkatkan model yang cocok ... Anda mungkin tidak berpikir bahwa itu adalah variabel penting untuk dikendalikan, tetapi yang lain mungkin. Tentu saja, ada alasan substantif lain yang sangat penting untuk mengecualikan variabel, misalnya itu mungkin disebabkan oleh hasilnya.
sumber
Dari kata-kata Anda, kedengarannya Anda cenderung menjatuhkan prediktor terakhir karena nilai prediktifnya rendah; perubahan besar pada prediktor itu tidak akan menyiratkan perubahan substansial pada variabel respons. Jika itu masalahnya, maka saya suka kriteria ini untuk memasukkan / menjatuhkan prediktor. Ini lebih didasarkan pada realitas praktis daripada AIC atau BIC dapat, dan lebih menjelaskan kepada audiens Anda untuk penelitian ini.
sumber