Pemilihan Model: Regresi Logistik

13

Misalkan kita memiliki kovariat x 1 , ... , x n dan variabel hasil biner ynx1,,xny . Beberapa kovariat ini termasuk kategori dengan banyak tingkatan. Lainnya kontinu. Bagaimana Anda memilih model "terbaik"? Dengan kata lain, bagaimana Anda memilih kovariat mana yang akan dimasukkan dalam model?

Apakah Anda memodelkan dengan masing-masing kovariat secara individual menggunakan regresi logistik sederhana dan memilih yang dengan asosiasi yang signifikan?y

Thomas
sumber
1
Selain jawaban saya di bawah ini (atau yang lain, jika muncul), berikut ini memiliki beberapa diskusi yang baik tentang pemilihan model (walaupun tidak fokus pada regresi logistik per se) stats.stackexchange.com/questions/18214/…
gung
2
Saya akan mengutip @jthetzel dari komentar baru-baru ini di situs ini: "Pertanyaan yang bagus, tapi yang paling banyak dipelajari di sini adalah kursus universitas selama satu semester, dan beberapa telah menghabiskan karier untuk belajar." Rasanya seperti duduk bersama seseorang dan berkata, "Bisakah Anda mengajari saya bahasa Swahili sore ini?" Bukan berarti Gung tidak membuat poin bagus dalam jawabannya. Itu hanya wilayah yang luas.
rolando2
2
Ini juga utas yang, sementara untuk pertanyaan yang sangat spesifik, berisi beberapa saran dari saya secara umum: stats.stackexchange.com/questions/17068/... Saya juga akan memberikan pemikiran saya di bawah ini.
Fomite
Oke jadi saya pikir saya hanya akan menggunakan AIC sebagai kriteria. Model lengkap memiliki AIC terendah. Juga AIC sangat berbeda satu sama lain.
Thomas

Jawaban:

10

Ini mungkin bukan hal yang baik untuk dilakukan. Melihat semua kovariat individu terlebih dahulu, dan kemudian membangun model dengan yang signifikan secara logika setara dengan prosedur pencarian otomatis. Walaupun pendekatan ini intuitif, kesimpulan yang dibuat dari prosedur ini tidak valid (misalnya, nilai-p sebenarnya berbeda dari yang dilaporkan oleh perangkat lunak). Masalahnya diperbesar semakin besar ukuran set awal kovariat. Jika Anda tetap melakukan ini (dan, sayangnya, banyak orang melakukannya), Anda tidak dapat menganggap serius model yang dihasilkan. Sebagai gantinya, Anda harus menjalankan studi yang sama sekali baru, mengumpulkan sampel independen dan menyesuaikan model sebelumnya, untuk mengujinya. Namun, ini membutuhkan banyak sumber daya, dan terlebih lagi, karena prosesnya cacat dan model sebelumnya kemungkinan yang buruk,buang banyak sumber daya.

Cara yang lebih baik adalah mengevaluasi model-model yang menarik bagi Anda. Kemudian gunakan kriteria informasi yang menghukum fleksibilitas model (seperti AIC) untuk diputuskan di antara model-model tersebut. Untuk regresi logistik, AIC adalah:

AIC=2×ln(likelihood)+2k

di mana adalah jumlah kovariat yang termasuk dalam model itu. Anda ingin model dengan nilai terkecil untuk AIC, semua hal dianggap sama. Namun, itu tidak selalu begitu sederhana; waspada ketika beberapa model memiliki nilai yang sama untuk AIC, meskipun satu mungkin paling rendah. k

Saya memasukkan formula lengkap untuk AIC di sini, karena perangkat lunak yang berbeda menghasilkan informasi yang berbeda. Anda mungkin harus menghitungnya hanya dari kemungkinan, atau Anda bisa mendapatkan AIC akhir, atau apa pun di antaranya.

gung - Pasang kembali Monica
sumber
6
Saya suka AIC tetapi berhati-hatilah karena menghitung AIC pada lebih dari 2 model yang ditentukan sebelumnya menghasilkan masalah multiplisitas.
Frank Harrell
1
@ FrankHarrell tip yang bagus!
gung - Reinstate Monica
9

Ada banyak cara untuk memilih variabel apa yang masuk dalam model regresi, beberapa layak, beberapa buruk, dan beberapa mengerikan. Orang dapat dengan mudah menelusuri publikasi dari Sander Greenland, yang banyak di antaranya menyangkut pemilihan variabel.

Namun secara umum, saya memiliki beberapa "aturan" umum:

  • Algoritma otomatis, seperti yang ada dalam paket perangkat lunak, mungkin merupakan ide yang buruk.
  • Menggunakan teknik diagnostik model, seperti saran gung, adalah cara yang baik untuk mengevaluasi pilihan pemilihan variabel Anda
  • Anda juga harus menggunakan kombinasi keahlian subjek, pencari literatur, grafik asiklik langsung, dll. Untuk menginformasikan pilihan pilihan variabel Anda.
Fomite
sumber
3
Nah, terutama poin 1 dan 3. Model teknik diagnostik dapat mengakibatkan kegagalan untuk mempertahankan kesalahan tipe I.
Frank Harrell
3
Baik masukkan @Epigrad. Saya akan menambahkan satu poin. Algoritma otomatis menjadi sangat menarik ketika masalah Anda menjadi besar. Mereka mungkin satu-satunya cara yang layak untuk melakukan pemilihan model dalam beberapa kasus. Orang-orang sekarang menganalisis kumpulan data besar dengan ribuan variabel potensial dan jutaan pengamatan. Bagaimana keahlian subjek pada intuisi 1000 dimensi? Dan apa yang akan Anda temukan adalah bahwa bahkan jika Anda melakukannya secara manual (yaitu dengan seorang analis), mereka mungkin akan akhirnya membuat beberapa aturan pintas untuk memilih variabel. Bagian yang sulit adalah benar-benar menyusun pilihan-pilihan itu.
probabilityislogic
1
@probabilityislogic Saya setuju dengan itu. Sejujurnya, saya pikir teknik tradisional kurang cocok untuk set data yang sangat besar, tetapi kecenderungan untuk kembali ke teknik yang lebih ramah membuat saya khawatir. Jika suatu algoritma otomatis dapat membuat bias suatu kumpulan data dengan 10 variabel, tidak ada alasan mengapa ia tidak bias dengan satu dari 10.000 variabel. Penekanan saat ini pada perolehan data besar atas analisisnya di beberapa bagian membuat saya agak gugup.
Fomite
2
@probabilityislogic Dalam twist yang sangat ironis, saya sekarang menemukan diri saya bekerja dengan dataset dengan lebih dari 10 dari 1000-an variabel potensial>. <
Fomite
2

Bagaimana Anda memilih model "terbaik"?

Tidak ada informasi yang cukup untuk menjawab pertanyaan ini; jika Anda ingin mendapatkan efek kausal pada y Anda akan perlu untuk mengimplementasikan regresi yang mencerminkan apa yang diketahui tentang pengganggu tersebut. Jika Anda ingin melakukan prediksi, AIC akan menjadi pendekatan yang masuk akal.

Pendekatan-pendekatan ini tidak sama; konteks akan menentukan mana dari (banyak) cara memilih variabel akan lebih / kurang tepat.

tamu
sumber