Pentingnya variabel dalam regresi logistik

Saya mungkin berurusan dengan masalah yang mungkin telah dipecahkan seratus kali sebelumnya, tetapi saya tidak yakin di mana menemukan jawabannya.

Ketika menggunakan regresi logistik, diberikan banyak fitur dan mencoba memprediksi nilai kategorikal biner , saya tertarik untuk memilih subset dari fitur yang memprediksi baik. $x_1,...,x_n$ $y$ $y$

Apakah ada prosedur yang mirip dengan laso yang dapat digunakan? (Saya hanya melihat laso yang digunakan untuk regresi linier.)

Apakah dengan melihat koefisien dari model yang dipasang mengindikasikan pentingnya fitur yang berbeda?

Sunting - Klarifikasi Setelah Melihat Beberapa Jawaban:

Ketika saya merujuk pada besarnya koefisien yang dipasang, maksud saya yang disesuaikan dengan fitur yang dinormalisasi (rata-rata 0 dan varian 1). Jika tidak, seperti yang ditunjukkan oleh @probabilityislogic, 1000x akan tampak kurang penting daripada x.
Saya tidak tertarik hanya menemukan k-subset terbaik (seperti yang ditawarkan @Davide), tetapi lebih mempertimbangkan pentingnya fitur yang berbeda relatif satu sama lain. Misalnya, satu fitur mungkin "usia", dan fitur lainnya "usia> 30". Pentingnya tambahan mereka mungkin sedikit, tetapi keduanya mungkin penting.

machine-learning logistic classification Guy Adini
sumber

Jawaban:

Tanggapan DWin menawarkan jawaban tetapi sedikit wawasan, jadi saya pikir mungkin berguna untuk memberikan beberapa penjelasan.

Jika Anda memiliki dua kelas, Anda pada dasarnya mencoba memperkirakan . Ini yang Anda butuhkan dan model regresi logistik mengasumsikan bahwa: $p=P(y_i=1|X=x_i)$

$log \frac{p}{1-p} = log \frac{P(y_i=1|X=x_i)}{P(y_i=0|X=x_i)}=\beta _0 + \beta _1 ^T x_i$

Menurut saya yang Anda maksud dengan pentingnya fitur adalah bagaimana pengaruhnya terhadap atau dengan kata lain apa itu . $j$ $p$ $\frac{\partial p}{\partial x_{ij}}$

Setelah transformasi kecil Anda bisa melihatnya

$p=\frac{e^{\beta _0 + \beta _1 ^T x_i}}{1+e^{\beta _0 + \beta _1 ^T x_i}}$ .

Setelah Anda menghitung turunan Anda, Anda akan melihatnya

$\frac{\partial p}{\partial x_{ij}} = \beta_j e^{\beta_0 + \beta _1 ^T x_i}$

Ini jelas tergantung pada nilai semua variabel lain. Namun Anda dapat mengamati bahwa TANDA koefisien dapat diartikan seperti yang Anda inginkan: jika negatif maka fitur ini mengurangi probabilitas p.

Sekarang dalam prosedur estimasi Anda, Anda mencoba memperkirakan s dengan asumsi model Anda benar. Dengan regularisasi Anda memperkenalkan beberapa bias ke dalam estimasi ini. Untuk regresi ridge dan variabel independen Anda bisa mendapatkan solusi formulir tertutup: $\beta$

$\hat{\beta^r} = \frac{\hat{\beta}}{\hat{\beta} + \lambda}$ .

Seperti yang Anda lihat, ini dapat mengubah tanda koefisien Anda sehingga interpretasi itu pun pecah.

marcin_j
sumber

salah ketik penyebut eq1?

Fernando

Jawaban untuk pertanyaan terakhir Anda adalah TIDAK datar. Besarnya koefisien sama sekali bukan ukuran kepentingan. Laso dapat digunakan untuk regresi logistik. Anda perlu mempelajari area ini dengan lebih tekun. Metode yang perlu Anda pelajari adalah metode yang melibatkan metode "dihukum". Jika Anda mencari metode deteksi yang mengungkap prediktor "teduh", sebuah istilah yang dapat didefinisikan di suatu tempat tetapi tidak digunakan secara umum, maka Anda perlu mencari metode yang memeriksa interaksi dan struktur non-linear dalam ruang prediktor dan keterkaitan hasil ke ruang itu. Ada sedikit diskusi tentang masalah dan metode ini dalam teks Frank Harrell "Strategi Pemodelan Regresi".

Strategi seleksi mundur akan gagal memberikan hasil yang valid (meskipun memberikan hasil). Jika Anda melihat 20 prediktor acak untuk 100 peristiwa, Anda mungkin akan menemukan 2 atau 3 yang akan dipilih dengan proses seleksi mundur. Prevalensi seleksi terbelakang di dunia nyata mencerminkan pemikiran statistik yang tidak hati-hati tetapi ketersediaannya yang mudah di SAS dan SPSS dan kurangnya kecanggihan basis pengguna produk-produk tersebut. Basis pengguna R memiliki waktu yang lebih sulit mengakses metode dan pengguna yang memposting permintaan pada milis dan SO mereka umumnya mendapat saran tentang masalah yang terlibat dengan metode seleksi mundur (atau maju).

DWIN
sumber

Saya tahu bahwa saya harus - Saya akan sangat menghargai beberapa petunjuk tentang di mana untuk memulai.

Guy Adini

Saya akan menambahkan contoh untuk mencadangkan yang ini. Misalkan kita atur . Maka koefisien estimasi (tidak terenal) untuk akan kali lebih kecil dari koefisien estimasi (tidak terenal) untuk . Tetapi perhatikan bahwa kekuatan kedua prediktor akan persis sama.

x_{n + 1} = 1000 x_{1}

$x_{n+1}=1000x_{1}$

x_{n + 1}

$x_{n+1}$

1000

$1000$

x_{1}

$x_{1}$

probabilityislogic

Silakan lihat komentar saya di atas (menggunakan fitur yang dinormalisasi). Terima kasih.

Guy Adini

Terima kasih. Saya akan memeriksanya. Bisakah Anda menyebutkan beberapa algoritma umum yang digunakan dalam "inspeksi interaksi dan struktur non-linear dalam ruang prediktor", atau apakah ini merupakan situasi yang sangat kasus per kasus?

Guy Adini

Anda dapat menggunakan regresi splines untuk mencari non-linearitas dan istilah spline dapat "dilintasi", yang memungkinkan identifikasi efek yang dibatasi pada satu wilayah ruang prediksi 2D. Anda juga dapat menggunakan metode regresi lokal. Dalam R metode regresi lokal yang paling sering digunakan mungkin adalah paket 'mgcv', tetapi paket 'locfit' yang lebih lama masih tersedia.

DWin

-4

Bahasa Inggris bukan bahasa ibu saya jadi saya mungkin belum mengerti apa masalah Anda, tetapi jika Anda perlu menemukan model terbaik Anda dapat mencoba menggunakan prosedur mundur (dan akhirnya menambahkan interations), dimulai dengan model dengan semua kovariat. Anda kemudian dapat melihat nilai residuals_vs_predicted dan grafik qq-plot untuk memeriksa apakah model tersebut menggambarkan fenomena Anda dengan baik.

Davide
sumber

Terima kasih! Saya pikir apa yang Anda sarankan adalah menambahkan fitur yang paling berkorelasi secara bertahap. Masuk akal, tetapi tidak membantu saya memahami "seberapa banyak" fitur A lebih penting daripada fitur B. Misalnya, anggap saya memiliki satu fitur x, dan fitur lain x + <noise kecil>. Maka keduanya sebenarnya adalah fitur yang berguna, tetapi satu dibayangi oleh yang lain. Saya ingin metode yang juga menunjukkan x + <noise> menjadi penting.

Guy Adini

Tidak, prosedur mundur dimulai dengan model dengan semua kovariat dan kemudian menghapus kovariat (yang koefisiennya tidak signifikan) langkah demi langkah (sampai Anda memiliki model dengan hanya koefisien yang signifikan, biasanya). Saya kira ada cara yang lebih canggih untuk mencapai tujuan yang sama, tetapi saya hanya seorang mahasiswa sarjana!

Davide