Menganalisis koefisien regresi logistik

12

Berikut adalah daftar koefisien regresi logistik (yang pertama adalah intersep)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Saya merasa aneh bagaimana intersepnya sangat rendah dan saya memiliki koefisien yang sebenarnya sama dengan 0. Saya tidak sepenuhnya yakin bagaimana saya akan menafsirkannya. Apakah 0 mengindikasikan bahwa variabel spesifik tidak mempengaruhi sama sekali pada model? Tetapi intersep yang dilakukan dengan memasukkan kolom seseorang tiba-tiba sangat penting? Atau apakah data saya hanya omong kosong dan model tidak dapat masuk dengan benar.

shiu6rewgu
sumber
2
Berapa kisaran atau standar deviasi dari variabel Anda yang lain? Apakah ada perbedaan besar antara standar deviasi variabel dengan estimasi nol dibandingkan dengan yang lain? Anda dapat mengharapkan koefisien nol jika standar deviasi kecil dibandingkan dengan yang lain (presisi numerik). Juga mencegat pada dasarnya berarti Anda memiliki variabel yang memiliki rata-rata besar (jauh dari nol). Memusatkan variabel Anda akan memberikan intersep yang lebih dapat ditafsirkan, dan tidak akan mengubah beta untuk variabel lain (selain kesalahan algoritma iteratif).
probabilityislogic
1
Jika Anda mengurangi 1027 dari semua nilai variabel keenam, intersep Anda akan mendekati 0. Apakah itu membuat Anda merasa lebih baik? :-)
whuber
4
Menampilkan daftar koefisien seperti ini, tanpa konteks sama sekali, kemungkinan mengatakan "Joe memiliki 31, bukankah itu banyak?" tanpa mengatakan 31 apa . 31 mobil? Banyak. 31 anak-anak? Satu sih banyak! 31 dolar? Tidak banyak.
Peter Flom - Reinstate Monica
1
Mengenai koefisien nol: Saya bisa melihat ini terjadi sebagai artefak menempatkan semua koefisien Anda ke XL sebelum menempelkannya di sini - sesuatu yang tampaknya konsisten dengan banyaknya tempat desimal yang umumnya kita lihat. Mungkin salah satu dari sel XL itu dibulatkan menjadi bilangan bulat, menghasilkan nol. Saya mengalami hal-hal seperti ini terjadi.
rolando2
Terima kasih atas masukan Anda! Saya sangat menghargai Anda semua! Banyak pertanyaan saya dijawab
shiu6rewgu

Jawaban:

16


logit=β0+β1x1+β2x2+...+βkxk
e2.718281828
e2=7.389056
7.3890561+7.389056=0.880797
Orang biasanya menemukan probabilitas lebih mudah untuk dihadapi.

9.8×103050/(1+0)), beri kami 0 lagi. Jadi, apa yang disampaikan oleh output Anda adalah bahwa acara Anda (apa pun itu) tidak terjadi ketika semua variabel Anda sama dengan 0. Tentu saja, itu tergantung pada apa yang kita bicarakan, tetapi saya menemukan tidak ada yang terlalu luar biasa tentang ini. Persamaan regresi logistik standar (misalnya, tanpa istilah kuadrat, misalnya) tentu mengasumsikan bahwa hubungan antara kovariat dan probabilitas keberhasilan meningkat secara monoton atau menurun secara monoton . Itu berarti bahwa ia selalu menjadi lebih besar dan lebih besar (atau lebih kecil dan lebih kecil), jadi, jika Anda pergi cukup jauh dalam satu arah, Anda akan mendapatkan angka yang sangat kecil sehingga komputer saya tidak dapat membedakan mereka dari 0. Itu hanya sifat binatang itu. Seperti yang terjadi, untuk model Anda, pergi sangat jauh adalah ke tempat katup kovariat Anda sama dengan 0.

Adapun koefisien 0, itu berarti bahwa variabel itu tidak berpengaruh, seperti yang Anda sarankan. Sekarang, cukup masuk akal bahwa suatu variabel tidak akan memiliki efek, meskipun demikian, pada dasarnya Anda tidak akan pernah mendapatkan koefisien tepat 0. Saya tidak tahu mengapa itu terjadi dalam kasus ini; komentar menawarkan beberapa kemungkinan saran. Saya dapat menawarkan yang lain, yaitu mungkin tidak ada variasi dalam variabel itu. Misalnya, jika Anda memiliki variabel yang berisi kode untuk jenis kelamin, tetapi hanya perempuan dalam sampel Anda. Saya tidak tahu apakah itu jawaban yang sebenarnya (R, misalnya, kembali NAdalam kasus itu, tetapi perangkat lunak berbeda) - itu hanya saran lain.

gung - Pasang kembali Monica
sumber
2
3067003746010460
10

Menafsirkan intersep

Anda dapat menganggap regresi logistik sebagai kemungkinan posterior untuk menjadi '1'. Intersep mewakili prior pada kategori yang berasal dari dataset: khususnya, ini adalah estimasi empiris dari log (p (Y = 1) / p (Y = 0), dengan sendirinya ketika model hanya memiliki intersep, untuk kasus-kasus di kelas 'referensi' ketika ada kovariat kategoris, dan untuk kasus-kasus ketika kovariat berada pada 0 lebih umum (tetapi kurang dapat diartikan), maka angka negatif Anda mungkin memberi tahu Anda bahwa '1 jarang di antara kasus dalam sampel Anda yang ditandai oleh memiliki semua kovariat di 0. Sekali lagi, mungkin tidak ada pengamatan di sana, jadi tidak ada gunanya mengkhawatirkan nilai intersepsi. Diskusi ini cukup jelas.

Karena pemisahan kekhawatiran yang praktis ini di antara parameter, Anda dapat mengoreksi ketidakseimbangan kategori dengan melatih sampel seimbang yang lebih baik dan hanya menyesuaikan intersep . Lihat King dan Zeng untuk diskusi menyeluruh.

conjugateprior
sumber
Tautan ke "diskusi ini" tampaknya telah mati. Adakah peluang untuk memulihkan tautan ini?
Alexey Grigorev
1
@ alexey-grigorev Saya memperbarui tautan UCLA
conjugateprior
dan mengumpulkan downvote. Sangat aneh.
conjugateprior