Dengan beberapa lipatan validasi silang dari regresi logistik, dan beberapa estimasi yang dihasilkan dari masing-masing koefisien regresi, bagaimana seharusnya seseorang mengukur apakah prediktor (atau serangkaian prediktor) stabil / bermakna berdasarkan koefisien regresi? ? Apakah ini berbeda untuk regresi linier?
regression
model-selection
cross-validation
Jack Tanner
sumber
sumber
Jawaban:
Anda dapat memperlakukan koefisien regresi yang dihasilkan dari setiap lipatan tes di CV sebagai pengamatan independen dan kemudian menghitung keandalan / stabilitasnya menggunakan koefisien korelasi intra-kelas (ICC) seperti yang dilaporkan oleh Shrout & Fleiss.
sumber
Saya menganggap Anda dalam validasi silang, Anda membagi data dalam dua bagian, satu set pelatihan dan satu set tes. Dalam satu lipatan Anda cocok dengan model dari set pelatihan dan menggunakannya untuk memprediksi respon set tes, kan? Ini akan memberi Anda tingkat kesalahan untuk seluruh model, bukan untuk satu prediksi.
Saya tidak tahu apakah mungkin untuk menemukan nilai-p untuk prediktor menggunakan sesuatu seperti uji-F yang digunakan dalam regresi linier biasa.
Anda dapat mencoba menghapus prediktor dari model menggunakan misalnya seleksi mundur atau maju jika itu tujuan Anda.
Anda bisa, bukannya CV, menggunakan bootstrap untuk menemukan interval kepercayaan untuk setiap prediktor dan kemudian melihat seberapa stabilnya.
Berapa banyak lipatan yang Anda gunakan di CV Anda, apakah ini validasi silang keluar-keluar-satu?
Mungkin lebih detail tentang apa tujuan Anda akan membantu menjawab pertanyaan ini.
sumber
glm(..., family="binomial")
dalam R. Apa yang harus saya lakukan dengan interval untuk masing-masing prediktor di seluruh cuti-jalan keluar?