Regresi dan pengambilan sampel logistik bertahap

13

Saya menyesuaikan regresi logistik bertahap pada satu set data di SPSS. Dalam prosedur, saya menyesuaikan model saya ke subset acak yang kira-kira. 60% dari total sampel, yaitu sekitar 330 kasus.

Apa yang saya temukan menarik adalah bahwa setiap kali saya sampel ulang data saya, saya mendapatkan variabel yang berbeda muncul dan keluar dalam model akhir. Beberapa prediktor selalu hadir dalam model akhir, tetapi yang lain muncul dan keluar tergantung pada sampel.

Pertanyaan saya adalah ini. Apa cara terbaik untuk menangani ini? Saya berharap untuk melihat konvergensi variabel prediktor, tetapi bukan itu masalahnya. Beberapa model masuk akal jauh lebih intuitif dari pandangan operasional (dan akan lebih mudah untuk dijelaskan kepada para pembuat keputusan), dan yang lain sesuai dengan data sedikit lebih baik.

Singkatnya, karena ada variabel yang bergerak ke sana kemari, bagaimana Anda akan merekomendasikan berurusan dengan situasi saya?

Banyak terima kasih sebelumnya.

Btibert3
sumber

Jawaban:

16

Jika Anda akan menggunakan prosedur bertahap, jangan melakukan resample. Buat satu subsampel acak sekali dan untuk semua. Lakukan analisis Anda terhadapnya. Validasikan hasilnya dengan data yang disimpan. Sepertinya sebagian besar variabel "signifikan" akan berubah menjadi tidak signifikan.

( Sunting 12/2015: Anda memang bisa melampaui pendekatan sederhana seperti itu dengan melakukan resampling, mengulangi prosedur bertahap, dan memvalidasi ulang: ini akan membawa Anda ke dalam bentuk cross-validation. Tetapi dalam kasus seperti itu, metode variabel yang lebih canggih) seleksi, seperti regresi ridge, Lasso, dan Net Elastis kemungkinan lebih disukai daripada regresi bertahap.)

Fokus pada variabel yang masuk akal, bukan yang sesuai dengan data sedikit lebih baik. Jika Anda memiliki lebih dari beberapa variabel untuk 330 catatan, Anda berisiko besar overfitting di tempat pertama. Pertimbangkan untuk menggunakan kriteria masuk dan keluar yang cukup parah untuk regresi bertahap. Basis pada AIC atau bukannya ambang batas untuk F tes atau t tes.ChalFt

(Saya kira Anda telah melakukan analisis dan eksplorasi untuk mengidentifikasi ekspresi ulang yang sesuai dari variabel independen, bahwa Anda telah mengidentifikasi kemungkinan interaksi, dan bahwa Anda telah menetapkan bahwa benar-benar ada hubungan linier antara logit dari variabel dependen dan para regressor. Jika tidak, lakukan pekerjaan pendahuluan yang penting ini dan baru kemudian kembali ke regresi bertahap.)

Berhati-hatilah dalam mengikuti saran umum seperti yang baru saja saya berikan :-). Pendekatan Anda harus bergantung pada tujuan analisis (prediksi? Ekstrapolasi? Pemahaman ilmiah? Pengambilan keputusan?) Serta sifat data, jumlah variabel, dll.

whuber
sumber
2
+1 untuk menyoroti pentingnya interpretasi model. Saya tidak akan menambahkan apa pun tentang pendekatan ML tanpa informasi (atau metode ensemble) dengan skema validasi silang yang lebih kompleks, karena saya merasa Anda sudah mengatakan apa yang sebenarnya terjadi di sini: (1) pemilihan fitur melalui resampling sulit ditafsirkan secara terpisah (yaitu, dengan membandingkan satu hasil setelah yang lain), dan (2) semuanya tergantung jika kita mencari model prediksi atau penjelasan.
chl
Terima kasih atas wawasan Anda. Saya telah melakukan beberapa pra-penyaringan untuk mempersempit ruang pencarian saya dan hanya ingin menemukan model terbaik untuk prediksi dengan variabel paling sedikit. Saya hanya melempar 7 prediktor ke dalam model, yang seperti yang saya mengerti, harus ok. Saya memahami gagasan bertahan dengan sampel, tetapi di sisi lain, model saya pada dasarnya berbeda dan menunjukkan bahwa hasilnya sepenuhnya tergantung pada sampel, yang membuat saya berhenti sejenak.
Btibert3
@ Btibert3 Kanan: ketika hasilnya bervariasi di antara himpunan bagian acak data Anda, Anda dapat menganggap itu sebagai bukti bahwa variabel independen tidak merupakan prediktor yang kuat atau konsisten dari variabel independen.
whuber
12

Sebuah pertanyaan penting adalah "mengapa Anda menginginkan model dengan variabel sesedikit mungkin?". Jika Anda ingin memiliki variabel sesedikit mungkin untuk meminimalkan biaya pengumpulan data untuk penggunaan operasional model Anda, maka jawaban yang diberikan oleh whuber dan mbq adalah awal yang baik.

Jika kinerja prediktif adalah yang benar-benar penting, maka Anda mungkin lebih baik tidak melakukan pemilihan fitur sama sekali dan menggunakan regresi logistik yang diatur sebagai gantinya (cf ridge regression). Bahkan jika kinerja prediktif adalah apa yang paling penting, saya akan menggunakan regresi logistik teratur yang dikantongi sebagai semacam strategi "sabuk-dan-kawat gigi" untuk menghindari pemasangan terlalu banyak dataset kecil. Millar dalam bukunya tentang pilihan subset dalam regresi memberikan cukup banyak saran dalam lampiran, dan saya telah menemukan itu menjadi saran yang sangat baik untuk masalah dengan banyak fitur dan pengamatan yang tidak terlalu banyak.

Jika memahami data itu penting, maka tidak perlu model yang digunakan untuk memahami data menjadi sama dengan yang digunakan untuk membuat prediksi. Dalam hal ini, saya akan menguji ulang data berkali-kali dan melihat pola-pola variabel yang dipilih di seluruh sampel untuk menemukan variabel mana yang informatif (seperti yang disarankan MBB, jika pemilihan fitur tidak stabil, sampel tunggal tidak akan memberikan gambaran lengkap), tapi saya masih akan menggunakan ansambel model regresi logistik teratur yang dikantongi untuk prediksi.

Dikran Marsupial
sumber
1
+1 untuk pointer ke regresi logistik yang diatur. Tidak jelas bagaimana seseorang bisa secara formal "melihat pola" ketika melakukan resampling pada "data berkali-kali". Kedengarannya seperti pengintai data dan karena itu tampaknya cenderung menyebabkan frustrasi dan kesalahan.
Whuber
5
Pemilihan fitur ketika pemilihan tidak stabil akan selalu menjadi resep untuk frustrasi dan kesalahan. Hanya menggunakan satu sampel mengurangi frustrasi, tetapi meningkatkan kemungkinan kesalahan karena mendorong Anda untuk menarik kesimpulan tentang fitur yang relevan untuk masalah berdasarkan apa yang paling berhasil pada sampel tertentu yang Anda lihat - yang merupakan bentuk over- tepat. Pengambilan sampel ulang memberi Anda gambaran tentang ketidakpastian dalam pemilihan fitur - yang seringkali sama pentingnya. Dalam hal ini kita tidak boleh menarik kesimpulan kuat tentang fitur yang relevan karena tidak ada cukup data.
Dikran Marsupial
Poin bagus; Aku benci ketika orang hanya menghitung berarti dari resampling, itu sia-sia.
10

Secara umum, ada dua masalah pemilihan fitur:

  • minimal optimal , di mana Anda mencari set variabel terkecil yang memberi Anda kesalahan terkecil
  • semua relevan , di mana Anda mencari semua variabel yang relevan dalam suatu masalah

Konvergensi pemilihan prediktor adalah dalam domain dari semua masalah yang relevan, yang sangat sulit dan karenanya membutuhkan alat yang jauh lebih kuat daripada regresi logistik, perhitungan berat dan perawatan yang sangat hati-hati.

Tapi sepertinya Anda melakukan masalah pertama, jadi Anda tidak perlu khawatir tentang hal ini. Saya biasanya dapat menjawab jawaban whuber kedua, tetapi saya tidak setuju dengan klaim bahwa Anda harus menghentikan resampling - di sini itu tidak akan menjadi metode untuk menstabilkan pemilihan fitur, tetapi bagaimanapun itu akan menjadi simulasi untuk memperkirakan kinerja dari pemilihan fitur ditambah pelatihan + pelatihan , sehingga akan memberi Anda wawasan tentang keakuratan Anda.


sumber
+1 Saya khawatir banyak sampel ulang hanya akan membingungkan dan menyesatkan. Menyampel ulang dengan cara yang terkontrol, melalui validasi silang atau sampel tahan untuk verifikasi, jelas tidak bermasalah.
Whuber
6

Anda mungkin melirik kertas Pemilihan Stabilitas oleh Meinshausen dan Buhlmann di JR Statist. Soc B (2010) 72 Bagian 4, dan diskusi setelahnya. Mereka mempertimbangkan apa yang terjadi ketika Anda berulang kali membagi set data Anda secara acak menjadi dua bagian dan mencari fitur di masing-masing setengahnya. Dengan mengasumsikan bahwa apa yang Anda lihat dalam satu setengah tidak bergantung pada apa yang Anda lihat dalam setengah lainnya yang sesuai, Anda dapat membuktikan batasan pada jumlah yang diharapkan dari variabel yang dipilih secara keliru.

McDowella
sumber
2

Jangan gunakan bertahap! Lihat kertas saya

Peter Flom - Pasang kembali Monica
sumber