Stabilitas model dalam validasi silang dari model regresi

10

Dengan beberapa lipatan validasi silang dari regresi logistik, dan beberapa estimasi yang dihasilkan dari masing-masing koefisien regresi, bagaimana seharusnya seseorang mengukur apakah prediktor (atau serangkaian prediktor) stabil / bermakna berdasarkan koefisien regresi? ? Apakah ini berbeda untuk regresi linier?

Jack Tanner
sumber
@BGreene Sangat pintar. Mengapa tidak memposting itu sebagai jawaban? Anda juga membuat saya bertanya-tanya apakah literatur pembelajaran ensemble memiliki sesuatu yang relevan.
Jack Tanner
Ketika Anda mengatakan "multiple cross-validation", apakah maksud Anda menjalankan kali -fold cross-validation? mk
boscovich
@andrea, saya katakan "beberapa lipatan validasi silang", yaitu, lipatan. k
Jack Tanner

Jawaban:

2

Anda dapat memperlakukan koefisien regresi yang dihasilkan dari setiap lipatan tes di CV sebagai pengamatan independen dan kemudian menghitung keandalan / stabilitasnya menggunakan koefisien korelasi intra-kelas (ICC) seperti yang dilaporkan oleh Shrout & Fleiss.

BGreene
sumber
0

Saya menganggap Anda dalam validasi silang, Anda membagi data dalam dua bagian, satu set pelatihan dan satu set tes. Dalam satu lipatan Anda cocok dengan model dari set pelatihan dan menggunakannya untuk memprediksi respon set tes, kan? Ini akan memberi Anda tingkat kesalahan untuk seluruh model, bukan untuk satu prediksi.

Saya tidak tahu apakah mungkin untuk menemukan nilai-p untuk prediktor menggunakan sesuatu seperti uji-F yang digunakan dalam regresi linier biasa.

Anda dapat mencoba menghapus prediktor dari model menggunakan misalnya seleksi mundur atau maju jika itu tujuan Anda.

Anda bisa, bukannya CV, menggunakan bootstrap untuk menemukan interval kepercayaan untuk setiap prediktor dan kemudian melihat seberapa stabilnya.

Berapa banyak lipatan yang Anda gunakan di CV Anda, apakah ini validasi silang keluar-keluar-satu?

Mungkin lebih detail tentang apa tujuan Anda akan membantu menjawab pertanyaan ini.

Tobias Abenius
sumber
Anggap ini adalah cuti satu. Setiap prediktor di setiap lipatan telah memiliki interval kepercayaan, mis., Dari Bayesian posterior CI atau std err dari glm(..., family="binomial")dalam R. Apa yang harus saya lakukan dengan interval untuk masing-masing prediktor di seluruh cuti-jalan keluar?
Jack Tanner