Saat ini saya sedang membaca makalah tentang lokasi pemilihan dan preferensi pemilihan dalam pemilihan 2000 dan 2004. Di dalamnya, ada grafik yang menampilkan koefisien regresi logistik. Dari kursus bertahun-tahun yang lalu dan sedikit membacaSaya memahami regresi logistik sebagai cara untuk menggambarkan hubungan antara beberapa variabel independen dan variabel respon biner. Yang saya bingung adalah, mengingat tabel di bawah ini, karena Korea Selatan memiliki koefisien regresi logistik 0,903, apakah itu berarti bahwa 90,3% pemilih Selatan memilih republik? Karena sifat logistik dari metrik, maka korelasi langsung ini tidak ada. Sebagai gantinya, saya berasumsi bahwa Anda hanya bisa mengatakan bahwa selatan, dengan 0,903, suara Republik lebih dari Pegunungan / dataran, dengan regresi 0,506. Mengingat yang terakhir menjadi kasusnya, bagaimana saya tahu apa yang signifikan dan apa yang tidak dan apakah mungkin untuk mengekstrapolasi persentase suara republik yang diberikan koefisien regresi logistik ini.
Sebagai catatan tambahan, harap edit posting saya jika ada yang tidak benar
sumber
Jawaban:
Bahwa penulis telah memaksa seseorang yang bijaksana karena Anda memiliki mengajukan pertanyaan seperti ini adalah ilustrasi menarik tentang mengapa praktek - masih cara terlalu umum - dari membatasi pelaporan hasil model regresi ke sebuah meja seperti ini sangat tidak dapat diterima.
Anda dapat, seperti yang ditunjukkan, mencoba mengubah koefisien logit menjadi beberapa indikasi yang berarti dari efek yang diperkirakan untuk prediktor yang dimaksud tetapi itu rumit dan tidak menyampaikan informasi tentang ketepatan prediksi, yang biasanya cukup penting dalam model regresi logistik (khususnya pada pemilihan).
Juga, penggunaan beberapa tanda bintang untuk melaporkan "tingkat" signifikansi memperkuat kesalahpahaman bahwa nilai-p adalah beberapa indeks ukuran efek yang berarti ("wow - bahwa seseorang memiliki 3 tanda bintang !!"); untuk menangis dengan suara keras, w / N dari 10.000 hingga 20.000, perbedaan sepele akan "signifikan" pada p <.001 bla bla.
Sama sekali tidak perlu bingung dengan cara ini. Model regresi logistik adalah persamaan yang dapat digunakan (melalui perhitungan determinasi atau simulasi yang lebih baik) untuk memprediksi probabilitas hasil bersyarat pada nilai-nilai yang ditentukan untuk prediktor, tunduk pada kesalahan pengukuran. Jadi peneliti harus melaporkanapa dampak dari prediktor minat terhadap probabilitas variabel hasil yang menarik, & CI terkait, sebagaimana diukur dalam unit, kepentingan praktis yang siap dipahami. Untuk memastikan genggaman siap, hasilnya harus ditampilkan secara grafis. Di sini, misalnya, peneliti dapat melaporkan bahwa menjadi pedesaan sebagai lawan dari pemilih perkotaan meningkatkan kemungkinan memilih Partai Republik, semuanya sama, dengan poin X (saya kira sekitar 17 pada tahun 2000; "bagi dengan 4" adalah heuristik yang wajar) +/- x% pada tingkat kepercayaan 0,95 - jika itu sesuatu yang berguna untuk diketahui.
Pelaporan pseudo R ^ 2 juga merupakan tanda bahwa pemodel terlibat dalam ritual statistik daripada upaya apa pun untuk menerangi. Ada sejumlah cara untuk menghitung "pseudo R ^ 2"; orang mungkin mengeluh bahwa yang digunakan di sini tidak ditentukan, tetapi mengapa repot-repot? Semua di sebelah tidak ada artinya. Satu-satunya alasan siapa pun menggunakan pseudo R ^ 2 adalah bahwa mereka atau pengulas yang menyiksa mereka mengetahui (kemungkinan 25 atau lebih tahun yang lalu) bahwa regresi linear OLS adalah grail suci statistik & berpikir satu-satunya hal yang seseorang mencoba untuk mencari tahu adalah "varians dijelaskan." Ada banyak cara yang dapat dipertahankan untuk menilai kecukupan keseluruhan model yang cocok untuk analisis logistik, dan rasio kemungkinan menyampaikan informasi yang bermakna untuk membandingkan model yang mencerminkan hipotesis alternatif. King, G. Bagaimana Tidak Berbohong dengan Statistik. Saya. J. Pol. Sci. 30, 666-687 (1986).
Jika Anda membaca makalah di mana pelaporan lebih atau kurang terbatas pada tabel seperti ini jangan bingung, jangan diintimidasi, & pasti jangan terkesan; alih-alih menjadi marah & beri tahu peneliti bahwa dia melakukan pekerjaan yang buruk (terutama jika dia mencemari lingkungan intelektual lokal Anda dengan mistisisme & kagum - menakjubkan betapa banyak pemikir yang benar-benar biasa-biasa saja menipu orang-orang pintar untuk berpikir mereka tahu sesuatu hanya b / c mereka dapat menghasilkan tabel yang tidak dapat dimengerti oleh yang terakhir). Untuk eksposisi ide-ide ini yang cerdas, sedang, dan hangat, lihat King, G., Tomz, M. & Wittenberg., J. Memanfaatkan Banyak Analisis Statistik: Meningkatkan Interpretasi dan Presentasi . Saya. J. Pol. Sci. 44, 347-361 (2000); dan Gelman, A., Pasarica, C. & Dodhia, R.Mari Berlatih Apa yang Kami Khotbahkan: Mengubah Tabel menjadi Grafik . Saya. Stat. 56, 121-130 (2002).
sumber
Idenya di sini adalah bahwa dalam regresi logistik, kami memprediksi bukan probabilitas aktual bahwa, katakanlah, orang selatan memilih Partai Republik, tetapi versi yang diubah itu, "peluang log". Alih-alih probabilitas , kita berurusan dengan dan menemukan koefisien regresi linier untuk peluang log.p logp/(1−p)
Jadi misalnya, mari kita asumsikan bahwa Northeasterner perkotaan memiliki probabilitas 0,3 untuk memilih seorang Republikan. (Ini tentu saja akan menjadi bagian dari regresi; Saya tidak melihatnya dilaporkan dalam tabel ini, meskipun saya berasumsi itu ada di makalah aslinya.) Sekarang, memberikan ; yaitu, , "peluang log" yang sesuai dengan . "Peluang log" ini adalah yang berperilaku linier; peluang log yang sesuai dengan adalah . Jadi peluang log untuk Republik Southerner voting perkotaan adalah ini (apa Wikipedia menyebutnya intersep, ) ditambah koefisien regresi logistik untuk Selatan,x=1/(1+e−z) z=logx1−x f−1(x)=logx1−x x 0.3 log0.3/0.7≈−0.85 β0 0.903 - yaitu, . Tetapi Anda menginginkan probabilitas aktual, jadi kami perlu membalikkan fungsi . Itu memberi . Peluang aktual telah berubah dari menjadi , menjadi menjadi ; rasio adalah , eksponensial dari koefisien regresi logistik.−0.85+0.904=0.05 p→logp/(1−p) f(0.05)≈1/(1+e−0.05)≈0.51 0.43 1 1.05 1 1.05/0.43 e0.903
Selain itu, efek untuk, katakanlah, wilayah negara dan perkotaan / pinggiran kota / pedesaan tidak berinteraksi. Jadi peluang log dari seorang Republikan pedesaan Midwesterner memilih, katakanlah, menurut model ini; probabilitasnya adalah .−0.85+0.37+0.68=+0.20 f(0.20)=1/(1+e−0.20)=0.55
sumber
Koefisien dalam regresi logistik mewakili kecenderungan daerah tertentu / demografis untuk memilih Partai Republik, dibandingkan dengan kategori referensi. Koefisien positif berarti bahwa wilayah itu lebih cenderung untuk memilih Partai Republik, dan sebaliknya untuk koefisien negatif; nilai absolut yang lebih besar berarti kecenderungan yang lebih kuat daripada nilai yang lebih kecil.
Kategori referensi adalah "Timur Laut" dan "pemilih kota", sehingga semua koefisien mewakili kontras dengan jenis pemilih tertentu ini.
Secara umum, tidak ada batasan pada koefisien dalam regresi logistik untuk menjadi [0, 1], bahkan dalam nilai absolut. Perhatikan bahwa artikel Wikipedia itu sendiri memiliki contoh regresi logistik dengan koefisien -5 dan 2.
sumber
Anda juga bertanya, "Bagaimana saya tahu apa yang penting dan mana yang tidak." (Saya berasumsi maksud Anda signifikan secara statistik, karena signifikansi praktis atau substantif adalah masalah lain.) Tanda bintang dalam tabel merujuk pada catatan kaki: beberapa efek dicatat memiliki nilai p- kecil . Ini diperoleh dengan menggunakan uji Wald dari signifikansi masing-masing koefisien. Dengan asumsi pengambilan sampel acak, p <.05 berarti bahwa, jika tidak ada efek seperti itu dalam populasi yang lebih besar, kemungkinan melihat koneksi sekuat yang diamati, atau lebih kuat, dalam sampel ukuran ini akan kurang dari 0,05 . Anda akan melihat banyak utas di situs ini yang membahas titik terkait yang halus namun penting yang p <.05 tidak berarti bahwa ada kemungkinan 0,05 tidak ada koneksi dalam populasi yang lebih besar.
sumber
Biarkan saya hanya menekankan pentingnya apa yang dicatat oleh rolando2 dan dmk38: signifikansi umumnya salah dibaca, dan ada risiko tinggi yang terjadi dengan presentasi hasil tabel.
Paul Schrodt baru-baru ini menawarkan deskripsi yang bagus tentang masalah ini:
(fn) Catatan kaki juga menginformasikan tentang masalah lain, disebutkan oleh dmk38: “[Kultus Mistik Bintang dan P-Nilai yang ada di mana-mana] menggantikan Kultus R2 Tertinggi yang sebelumnya — dan sama-sama meresap — dihancurkan… oleh King (1986) "
sumber