Saya menyesuaikan regresi logistik bertahap pada satu set data di SPSS. Dalam prosedur, saya menyesuaikan model saya ke subset acak yang kira-kira. 60% dari total sampel, yaitu sekitar 330 kasus.
Apa yang saya temukan menarik adalah bahwa setiap kali saya sampel ulang data saya, saya mendapatkan variabel yang berbeda muncul dan keluar dalam model akhir. Beberapa prediktor selalu hadir dalam model akhir, tetapi yang lain muncul dan keluar tergantung pada sampel.
Pertanyaan saya adalah ini. Apa cara terbaik untuk menangani ini? Saya berharap untuk melihat konvergensi variabel prediktor, tetapi bukan itu masalahnya. Beberapa model masuk akal jauh lebih intuitif dari pandangan operasional (dan akan lebih mudah untuk dijelaskan kepada para pembuat keputusan), dan yang lain sesuai dengan data sedikit lebih baik.
Singkatnya, karena ada variabel yang bergerak ke sana kemari, bagaimana Anda akan merekomendasikan berurusan dengan situasi saya?
Banyak terima kasih sebelumnya.
sumber
Sebuah pertanyaan penting adalah "mengapa Anda menginginkan model dengan variabel sesedikit mungkin?". Jika Anda ingin memiliki variabel sesedikit mungkin untuk meminimalkan biaya pengumpulan data untuk penggunaan operasional model Anda, maka jawaban yang diberikan oleh whuber dan mbq adalah awal yang baik.
Jika kinerja prediktif adalah yang benar-benar penting, maka Anda mungkin lebih baik tidak melakukan pemilihan fitur sama sekali dan menggunakan regresi logistik yang diatur sebagai gantinya (cf ridge regression). Bahkan jika kinerja prediktif adalah apa yang paling penting, saya akan menggunakan regresi logistik teratur yang dikantongi sebagai semacam strategi "sabuk-dan-kawat gigi" untuk menghindari pemasangan terlalu banyak dataset kecil. Millar dalam bukunya tentang pilihan subset dalam regresi memberikan cukup banyak saran dalam lampiran, dan saya telah menemukan itu menjadi saran yang sangat baik untuk masalah dengan banyak fitur dan pengamatan yang tidak terlalu banyak.
Jika memahami data itu penting, maka tidak perlu model yang digunakan untuk memahami data menjadi sama dengan yang digunakan untuk membuat prediksi. Dalam hal ini, saya akan menguji ulang data berkali-kali dan melihat pola-pola variabel yang dipilih di seluruh sampel untuk menemukan variabel mana yang informatif (seperti yang disarankan MBB, jika pemilihan fitur tidak stabil, sampel tunggal tidak akan memberikan gambaran lengkap), tapi saya masih akan menggunakan ansambel model regresi logistik teratur yang dikantongi untuk prediksi.
sumber
Secara umum, ada dua masalah pemilihan fitur:
Konvergensi pemilihan prediktor adalah dalam domain dari semua masalah yang relevan, yang sangat sulit dan karenanya membutuhkan alat yang jauh lebih kuat daripada regresi logistik, perhitungan berat dan perawatan yang sangat hati-hati.
Tapi sepertinya Anda melakukan masalah pertama, jadi Anda tidak perlu khawatir tentang hal ini. Saya biasanya dapat menjawab jawaban whuber kedua, tetapi saya tidak setuju dengan klaim bahwa Anda harus menghentikan resampling - di sini itu tidak akan menjadi metode untuk menstabilkan pemilihan fitur, tetapi bagaimanapun itu akan menjadi simulasi untuk memperkirakan kinerja dari pemilihan fitur ditambah pelatihan + pelatihan , sehingga akan memberi Anda wawasan tentang keakuratan Anda.
sumber
Anda mungkin melirik kertas Pemilihan Stabilitas oleh Meinshausen dan Buhlmann di JR Statist. Soc B (2010) 72 Bagian 4, dan diskusi setelahnya. Mereka mempertimbangkan apa yang terjadi ketika Anda berulang kali membagi set data Anda secara acak menjadi dua bagian dan mencari fitur di masing-masing setengahnya. Dengan mengasumsikan bahwa apa yang Anda lihat dalam satu setengah tidak bergantung pada apa yang Anda lihat dalam setengah lainnya yang sesuai, Anda dapat membuktikan batasan pada jumlah yang diharapkan dari variabel yang dipilih secara keliru.
sumber
Jangan gunakan bertahap! Lihat kertas saya
sumber