Saya mencoba menentukan apakah probabilitas sederhana akan bekerja untuk masalah saya atau apakah akan lebih baik menggunakan (dan mempelajari) metode yang lebih canggih seperti regresi logistik.
Variabel respons dalam masalah ini adalah respons biner (0, 1). Saya memiliki sejumlah variabel prediktor yang semuanya kategorikal dan tidak berurutan. Saya mencoba menentukan kombinasi variabel prediktor mana yang menghasilkan proporsi 1 tertinggi. Apakah saya perlu regresi logistik? Bagaimana menguntungkan jika hanya menghitung proporsi dalam set sampel saya untuk setiap kombinasi dari prediktor kategoris?
r
probability
logistic
Rachel
sumber
sumber
Jawaban:
Regresi logistik akan, hingga ketidaktepatan numerik, memberikan kecocokan yang sama persis dengan persentase yang ditabulasi. Oleh karena itu, jika variabel independen Anda adalah objek faktor
factor1
, dll., Dan hasil dependen (0 dan 1) adalahx
, maka Anda dapat memperoleh efek dengan ekspresi sepertiBandingkan ini dengan
Sebagai contoh, mari kita buat beberapa data acak:
Ringkasan diperoleh dengan
Outputnya termasuk
Untuk referensi di masa mendatang, estimasi faktor pada level (1,2,0) pada baris 6 dari output adalah 0,5.
Regresi logistik memberikan koefisiennya dengan cara ini:
Untuk menggunakannya, kita membutuhkan fungsi logistik:
Untuk mendapatkan, misalnya, estimasi faktor pada level (1,2,0), hitung
(Perhatikan bagaimana semua interaksi harus dimasukkan dalam model dan semua koefisien terkait harus diterapkan untuk mendapatkan perkiraan yang benar.) Outputnya adalah
setuju dengan hasil
aggregate
. (Judul "(Intercept)" di output adalah sisa input dan secara efektif tidak berarti untuk perhitungan ini.)Informasi yang sama dalam bentuk lain muncul di keluaran dari
table
. Misalnya, output (panjang) daritermasuk panel ini:
factor1
x
aggregate
glm
Akhirnya, kombinasi faktor-faktor yang menghasilkan proporsi tertinggi dalam dataset mudah diperoleh dari output
aggregate
:sumber
Untuk cepat melirik proporsi tanggapan biner dalam setiap kategori dan / atau tergantung pada beberapa kategori, plot grafis dapat dari layanan. Secara khusus, untuk secara simultan memvisualisasikan proporsi yang dikondisikan pada banyak variabel independen kategoris, saya menyarankan Mosaic Plots .
Di bawah ini adalah contoh yang diambil dari posting blog, Memahami plot berdasarkan area: Mosaik plot dari grafik Statistik dan lebih banyak blog. Contoh ini memvisualisasikan proporsi penyintas di Titanic dengan warna biru, tergantung pada kelas penumpang. Seseorang dapat secara simultan menilai proporsi orang yang selamat, sambil tetap menghargai jumlah total penumpang dalam masing-masing subkelompok (informasi yang berguna pasti, terutama ketika sub-kelompok tertentu jumlahnya sedikit dan kami akan mengharapkan lebih banyak variasi acak).
(sumber: theusrus.de )
Satu kemudian dapat membuat plot mosaik berikutnya tergantung pada beberapa variabel independen kategori. Contoh berikutnya dari posting blog yang sama dalam ringkasan visual cepat menunjukkan bahwa semua penumpang anak - anak di kelas pertama dan kedua bertahan, sementara di kelas tiga anak-anak tidak memiliki tarif yang hampir sama. Hal ini juga jelas menunjukkan bahwa perempuan dewasa memiliki tingkat kelangsungan hidup yang jauh lebih tinggi dibandingkan dengan laki-laki di setiap kelas, meskipun proporsi perempuan yang selamat di antara kelas berkurang cukup dari kelas pertama ke kedua ke ketiga (dan kemudian relatif tinggi lagi untuk kru, meskipun Sekali lagi perhatikan tidak banyak anggota kru perempuan, mengingat betapa sempitnya bar).
(sumber: theusrus.de )
Sungguh menakjubkan betapa banyak informasi yang ditampilkan, ini adalah proporsi dalam empat dimensi (Kelas, Dewasa / Anak, Jenis Kelamin dan Proporsi Korban)!
Saya setuju jika Anda tertarik pada prediksi atau lebih banyak penjelasan sebab-akibat pada umumnya Anda ingin beralih ke pemodelan yang lebih formal. Plot grafis dapat menjadi petunjuk visual yang sangat cepat mengenai sifat data, dan dapat memberikan wawasan lain yang sering terlewatkan ketika hanya memperkirakan model regresi (terutama ketika mempertimbangkan interaksi antara berbagai variabel kategori yang berbeda).
sumber
Nb
? Saya selalu mengatakan lebih baik dengan angka juga!Bergantung pada kebutuhan Anda, Anda mungkin menemukan bahwa partion rekursif menyediakan metode yang mudah ditafsirkan untuk memprediksi variabel hasil. Untuk pengantar R untuk metode ini, lihat halaman model Quick-R Tree-based . Saya biasanya mendukung
ctree()
implementasi dalam paket partai R karena tidak perlu khawatir tentang pemangkasan, dan secara default menghasilkan grafis yang cantik.Ini akan jatuh ke dalam kategori algoritma pemilihan fitur yang disarankan dalam jawaban sebelumnya, dan umumnya memberikan prediksi yang lebih baik atau tidak sama baiknya dengan regresi logistik.
sumber
Jika Anda memiliki lebih sedikit data, Anda ingin mempelajari lebih sedikit parameter. Anda dapat mengurangi jumlah parameter dengan mengasumsikan, misalnya, bahwa konfigurasi peramal individual memiliki efek yang konsisten pada variabel respons.
Jika Anda yakin bahwa prediktor Anda independen satu sama lain, maka regresi logistik adalah algoritma unik yang melakukan hal yang benar. (Bahkan jika mereka tidak independen, itu masih bisa dilakukan dengan cukup baik.)
Singkatnya, regresi logistik membuat asumsi tentang pengaruh independen dari prediktor, yang mengurangi jumlah parameter model, dan menghasilkan model yang mudah dipelajari.
sumber
Anda harus melihat algoritma pemilihan fitur. Salah satu yang cocok untuk kasus Anda (klasifikasi biner, variabel kategori) adalah metode "minimum Redundancy Maximum Relevance" (mRMR). Anda dapat dengan cepat mencobanya secara online di http://penglab.janelia.org/proj/mRMR/
sumber
response,predictor1,predictor2,predictor3 <line break here> 1,5,4,3 <line break here> 0,5,3,-1 <line break here> 1,1,2,3
Saya bekerja di bidang penilaian kredit, di mana apa yang disajikan di sini sebagai kasus aneh adalah normanya.
Kami menggunakan regresi logistik, dan mengubah variabel kategorikal dan kontinu menjadi bobot bukti (WOEs), yang kemudian digunakan sebagai prediktor dalam regresi. Banyak waktu dihabiskan mengelompokkan variabel kategori, dan mendiskritisasi (binning / classing) variabel kontinu.
Bobot bukti adalah perhitungan sederhana. Ini adalah log odds untuk kelas, kurang log odds untuk populasi:
WOE = ln (Baik (Kelas) / Buruk (Kelas)) - ln (Baik (SEMUA) / Buruk (SEMUA)) Ini adalah metodologi transformasi standar untuk hampir semua model penilaian kredit yang dibangun menggunakan regresi logistik. Anda dapat menggunakan angka yang sama dalam pendekatan satu demi satu.
Keindahannya adalah bahwa Anda akan selalu tahu apakah koefisien yang ditugaskan untuk setiap WOE masuk akal. Koefisien negatif bertentangan dengan pola dalam data, dan biasanya hasil dari multikolinieritas; dan koefisien lebih dari 1,0 mengindikasikan kelebihan kompensasi. Sebagian besar koefisien akan keluar di suatu tempat antara nol dan satu.
sumber