Apa pentingnya koefisien regresi logistik?

42

Saat ini saya sedang membaca makalah tentang lokasi pemilihan dan preferensi pemilihan dalam pemilihan 2000 dan 2004. Di dalamnya, ada grafik yang menampilkan koefisien regresi logistik. Dari kursus bertahun-tahun yang lalu dan sedikit membacaSaya memahami regresi logistik sebagai cara untuk menggambarkan hubungan antara beberapa variabel independen dan variabel respon biner. Yang saya bingung adalah, mengingat tabel di bawah ini, karena Korea Selatan memiliki koefisien regresi logistik 0,903, apakah itu berarti bahwa 90,3% pemilih Selatan memilih republik? Karena sifat logistik dari metrik, maka korelasi langsung ini tidak ada. Sebagai gantinya, saya berasumsi bahwa Anda hanya bisa mengatakan bahwa selatan, dengan 0,903, suara Republik lebih dari Pegunungan / dataran, dengan regresi 0,506. Mengingat yang terakhir menjadi kasusnya, bagaimana saya tahu apa yang signifikan dan apa yang tidak dan apakah mungkin untuk mengekstrapolasi persentase suara republik yang diberikan koefisien regresi logistik ini. Tabel yang menunjukkan koefisien regresi logistik

Sebagai catatan tambahan, harap edit posting saya jika ada yang tidak benar

amccormack
sumber
Ini lebih merupakan tindak lanjut (dan saya mungkin tidak boleh mempostingnya), tetapi apakah Anda menemukan cara yang baik untuk "apakah mungkin untuk memperkirakan persentase" karena itu cukup banyak yang saya cari.
Stefan Andersson
2
Saya pikir akan lebih baik bagi Anda untuk merumuskan ini sebagai pertanyaan yang berdiri sendiri dan mempostingnya secara terpisah daripada sebagai jawaban di sini.
kardinal
Jika ada yang bertanya-tanya tentang kertas, itu adalah SC McKee dan JM Teigen's Probing the reds and blues: Sectionalism dan lokasi pemilih dalam pemilihan presiden AS tahun 2000 dan 2004 (2009) Geografi Politik
Alex Nelson

Jawaban:

36

Bahwa penulis telah memaksa seseorang yang bijaksana karena Anda memiliki mengajukan pertanyaan seperti ini adalah ilustrasi menarik tentang mengapa praktek - masih cara terlalu umum - dari membatasi pelaporan hasil model regresi ke sebuah meja seperti ini sangat tidak dapat diterima.

  1. Anda dapat, seperti yang ditunjukkan, mencoba mengubah koefisien logit menjadi beberapa indikasi yang berarti dari efek yang diperkirakan untuk prediktor yang dimaksud tetapi itu rumit dan tidak menyampaikan informasi tentang ketepatan prediksi, yang biasanya cukup penting dalam model regresi logistik (khususnya pada pemilihan).

  2. Juga, penggunaan beberapa tanda bintang untuk melaporkan "tingkat" signifikansi memperkuat kesalahpahaman bahwa nilai-p adalah beberapa indeks ukuran efek yang berarti ("wow - bahwa seseorang memiliki 3 tanda bintang !!"); untuk menangis dengan suara keras, w / N dari 10.000 hingga 20.000, perbedaan sepele akan "signifikan" pada p <.001 bla bla.

  3. Sama sekali tidak perlu bingung dengan cara ini. Model regresi logistik adalah persamaan yang dapat digunakan (melalui perhitungan determinasi atau simulasi yang lebih baik) untuk memprediksi probabilitas hasil bersyarat pada nilai-nilai yang ditentukan untuk prediktor, tunduk pada kesalahan pengukuran. Jadi peneliti harus melaporkanapa dampak dari prediktor minat terhadap probabilitas variabel hasil yang menarik, & CI terkait, sebagaimana diukur dalam unit, kepentingan praktis yang siap dipahami. Untuk memastikan genggaman siap, hasilnya harus ditampilkan secara grafis. Di sini, misalnya, peneliti dapat melaporkan bahwa menjadi pedesaan sebagai lawan dari pemilih perkotaan meningkatkan kemungkinan memilih Partai Republik, semuanya sama, dengan poin X (saya kira sekitar 17 pada tahun 2000; "bagi dengan 4" adalah heuristik yang wajar) +/- x% pada tingkat kepercayaan 0,95 - jika itu sesuatu yang berguna untuk diketahui.

  4. Pelaporan pseudo R ^ 2 juga merupakan tanda bahwa pemodel terlibat dalam ritual statistik daripada upaya apa pun untuk menerangi. Ada sejumlah cara untuk menghitung "pseudo R ^ 2"; orang mungkin mengeluh bahwa yang digunakan di sini tidak ditentukan, tetapi mengapa repot-repot? Semua di sebelah tidak ada artinya. Satu-satunya alasan siapa pun menggunakan pseudo R ^ 2 adalah bahwa mereka atau pengulas yang menyiksa mereka mengetahui (kemungkinan 25 atau lebih tahun yang lalu) bahwa regresi linear OLS adalah grail suci statistik & berpikir satu-satunya hal yang seseorang mencoba untuk mencari tahu adalah "varians dijelaskan." Ada banyak cara yang dapat dipertahankan untuk menilai kecukupan keseluruhan model yang cocok untuk analisis logistik, dan rasio kemungkinan menyampaikan informasi yang bermakna untuk membandingkan model yang mencerminkan hipotesis alternatif. King, G. Bagaimana Tidak Berbohong dengan Statistik. Saya. J. Pol. Sci. 30, 666-687 (1986).

  5. Jika Anda membaca makalah di mana pelaporan lebih atau kurang terbatas pada tabel seperti ini jangan bingung, jangan diintimidasi, & pasti jangan terkesan; alih-alih menjadi marah & beri tahu peneliti bahwa dia melakukan pekerjaan yang buruk (terutama jika dia mencemari lingkungan intelektual lokal Anda dengan mistisisme & kagum - menakjubkan betapa banyak pemikir yang benar-benar biasa-biasa saja menipu orang-orang pintar untuk berpikir mereka tahu sesuatu hanya b / c mereka dapat menghasilkan tabel yang tidak dapat dimengerti oleh yang terakhir). Untuk eksposisi ide-ide ini yang cerdas, sedang, dan hangat, lihat King, G., Tomz, M. & Wittenberg., J. Memanfaatkan Banyak Analisis Statistik: Meningkatkan Interpretasi dan Presentasi . Saya. J. Pol. Sci. 44, 347-361 (2000); dan Gelman, A., Pasarica, C. & Dodhia, R.Mari Berlatih Apa yang Kami Khotbahkan: Mengubah Tabel menjadi Grafik . Saya. Stat. 56, 121-130 (2002).

dmk38
sumber
19

Idenya di sini adalah bahwa dalam regresi logistik, kami memprediksi bukan probabilitas aktual bahwa, katakanlah, orang selatan memilih Partai Republik, tetapi versi yang diubah itu, "peluang log". Alih-alih probabilitas , kita berurusan dengan dan menemukan koefisien regresi linier untuk peluang log.plogp/(1p)

Jadi misalnya, mari kita asumsikan bahwa Northeasterner perkotaan memiliki probabilitas 0,3 untuk memilih seorang Republikan. (Ini tentu saja akan menjadi bagian dari regresi; Saya tidak melihatnya dilaporkan dalam tabel ini, meskipun saya berasumsi itu ada di makalah aslinya.) Sekarang, memberikan ; yaitu, , "peluang log" yang sesuai dengan . "Peluang log" ini adalah yang berperilaku linier; peluang log yang sesuai dengan adalah . Jadi peluang log untuk Republik Southerner voting perkotaan adalah ini (apa Wikipedia menyebutnya intersep, ) ditambah koefisien regresi logistik untuk Selatan,x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.903 - yaitu, . Tetapi Anda menginginkan probabilitas aktual, jadi kami perlu membalikkan fungsi . Itu memberi . Peluang aktual telah berubah dari menjadi , menjadi menjadi ; rasio adalah , eksponensial dari koefisien regresi logistik.0.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

Selain itu, efek untuk, katakanlah, wilayah negara dan perkotaan / pinggiran kota / pedesaan tidak berinteraksi. Jadi peluang log dari seorang Republikan pedesaan Midwesterner memilih, katakanlah, menurut model ini; probabilitasnya adalah .0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55

Michael Lugo
sumber
2
heuristic: bagi dengan 4 - logit coeff / 4 adalah kira-kira pct-pt beda dalam prob. dari 1 unit berubah. Itu tidak sama dengan mengatakan "orang yang memiliki karakter = z adalah x% kemungkinan untuk." Tidak hanya (seperti yang disebutkan) seseorang harus menambahkan βsub0 & mengurangi kemungkinan yang terkait dengan kelas ref. Penting juga untuk memperhitungkan kolinearitas prediktor. B / c menjadi selatan berkorelasi dengan prediktor lain, itu tidak akan benar bahwa masalah. dari voting repub selatan adalah βsub0 - peluang log ditransformasikan untuk NE ditambah peluang log berubah untuk selatan. Lebih baik mengatakan, "semuanya sama, karena dari selatan memprediksi perubahan titik x persen dalam prob"
dmk38
1
'Peluang aktual telah berubah dari 0,43 ke 1'. Apakah 0,43 berasal dari tempat pertama?
Monica Heddneck
Probabilitas asli , ketika dinyatakan sebagai odds, adalah . 0.30.3/(10.3)0.43
Michael Lugo
6

Koefisien dalam regresi logistik mewakili kecenderungan daerah tertentu / demografis untuk memilih Partai Republik, dibandingkan dengan kategori referensi. Koefisien positif berarti bahwa wilayah itu lebih cenderung untuk memilih Partai Republik, dan sebaliknya untuk koefisien negatif; nilai absolut yang lebih besar berarti kecenderungan yang lebih kuat daripada nilai yang lebih kecil.

Kategori referensi adalah "Timur Laut" dan "pemilih kota", sehingga semua koefisien mewakili kontras dengan jenis pemilih tertentu ini.

Secara umum, tidak ada batasan pada koefisien dalam regresi logistik untuk menjadi [0, 1], bahkan dalam nilai absolut. Perhatikan bahwa artikel Wikipedia itu sendiri memiliki contoh regresi logistik dengan koefisien -5 dan 2.

Hong Ooi
sumber
5

Anda juga bertanya, "Bagaimana saya tahu apa yang penting dan mana yang tidak." (Saya berasumsi maksud Anda signifikan secara statistik, karena signifikansi praktis atau substantif adalah masalah lain.) Tanda bintang dalam tabel merujuk pada catatan kaki: beberapa efek dicatat memiliki nilai p- kecil . Ini diperoleh dengan menggunakan uji Wald dari signifikansi masing-masing koefisien. Dengan asumsi pengambilan sampel acak, p <.05 berarti bahwa, jika tidak ada efek seperti itu dalam populasi yang lebih besar, kemungkinan melihat koneksi sekuat yang diamati, atau lebih kuat, dalam sampel ukuran ini akan kurang dari 0,05 . Anda akan melihat banyak utas di situs ini yang membahas titik terkait yang halus namun penting yang p <.05 tidak berarti bahwa ada kemungkinan 0,05 tidak ada koneksi dalam populasi yang lebih besar.

rolando2
sumber
5

Biarkan saya hanya menekankan pentingnya apa yang dicatat oleh rolando2 dan dmk38: signifikansi umumnya salah dibaca, dan ada risiko tinggi yang terjadi dengan presentasi hasil tabel.

Paul Schrodt baru-baru ini menawarkan deskripsi yang bagus tentang masalah ini:

Peneliti menemukan hampir tidak mungkin untuk mematuhi interpretasi yang benar dari uji signifikansi. Nilai-p hanya memberi tahu Anda kemungkinan bahwa Anda akan mendapatkan hasil di bawah kondisi [biasanya] yang sama sekali tidak realistis dari hipotesis nol. Yang bukan yang ingin Anda ketahui — Anda biasanya ingin mengetahui besarnya pengaruh variabel independen, mengingat data. Itu pertanyaan Bayesian, bukan pertanyaan yang sering. Sebaliknya, kita melihat — secara terus-menerus — nilai-p diinterpretasikan seolah-olah itu memberi kekuatan asosiasi: ini adalah Kultus Mistik Bintang dan P-Nilai yang ada di mana-mana yang menembus jurnal kita. (Fn) Ini bukan apa yang dikatakan p-value , juga tidak akan pernah.

Dalam pengalaman saya, kesalahan ini hampir tidak mungkin untuk dihindari: bahkan analis yang sangat berhati-hati yang sepenuhnya menyadari masalah akan sering beralih mode ketika secara lisan mendiskusikan hasil mereka, bahkan jika mereka telah menghindari masalah dalam eksposisi tertulis. Dan mari kita bahkan tidak berspekulasi pada ribuan jam dan galon tinta yang telah kita habiskan untuk mengoreksi ini di kertas pascasarjana.

(fn) Catatan kaki juga menginformasikan tentang masalah lain, disebutkan oleh dmk38: “[Kultus Mistik Bintang dan P-Nilai yang ada di mana-mana] menggantikan Kultus R2 Tertinggi yang sebelumnya — dan sama-sama meresap — dihancurkan… oleh King (1986) "

Fr.
sumber
oh - Saya baru saja menambahkan King mengutip tanggapan saya yang diedit. Artikel itu memang menghancurkan mania R ^ 2 (masih endemik ekonometrik) bahkan di mana statistik memiliki arti - untuk regresi OLS. King juga mencatat bahwa pseudo R ^ 2 adalah omong kosong yang dibuat untuk memperluas kecerobohan yang terkait dengan "varians yang dijelaskan."
dmk38