Saya tidak mengerti bagaimana menafsirkan koefisien dari regresi Poisson relatif terhadap koefisien dari regresi OLS.
Misalkan saya memiliki data deret waktu, variabel sisi kiri saya adalah jumlah permainan yang dimenangkan per tahun, dan variabel sisi kanan utama saya adalah nilai NASDAQ. Jika spesifikasi pilihan saya adalah untuk menafsirkan model seperti dalam persentase, saya mengambil transformasi log dari game yang dimenangkan. Saya juga dapat mengambil log dari NASDAQ untuk mengatakan berapa banyak peningkatan 1 persen di NASDAQ akan meningkatkan persentase game yang dimenangkan. Sekarang, saya mengakui bahwa model Poisson mungkin masuk akal karena data untuk game yang dimenangkan adalah jumlah dan bukan kontinu. Saya menjalankan regresi dengan mengatakan banyak, banyak variabel kontrol.
Apakah saya tidak akan melakukan transformasi log pada game yang dimenangkan dan alih-alih hanya menggunakan game? Ketika saya mendapatkan koefisien, apakah saya melakukan semacam perhitungan efek marginal (seperti yang dapat dilakukan untuk probit)?
Bagaimana cara menafsirkan koefisien ini?
Bagaimana cara membandingkan interpretasi Poisson dengan OLS - baik OLS yang diubah log atau OLS yang tidak?
Saya tahu pertanyaan semacam ini telah diajukan sebelumnya, tetapi saya masih belum mengerti.
sumber
Jawaban:
Bukan untuk menjadi kritis, tapi ini adalah contoh yang aneh. Tidak jelas apakah Anda benar-benar melakukan analisis deret waktu, atau apa yang NASDAQ akan lakukan dengan jumlah pertandingan yang dimenangkan oleh beberapa tim. Jika Anda tertarik untuk mengatakan sesuatu tentang jumlah game yang dimenangkan tim, saya pikir akan lebih baik menggunakan regresi logistik biner, mengingat Anda mungkin tahu berapa banyak game yang dimainkan. Regresi Poisson paling tepat untuk berbicara tentang jumlah ketika total yang mungkin tidak dibatasi dengan baik , atau setidaknya tidak diketahui.
Bagaimana Anda akan menafsirkan beta Anda sebagian tergantung pada tautan yang digunakan - dimungkinkan untuk menggunakan tautan identitas, meskipun tautan log lebih umum (dan biasanya lebih sesuai). Jika Anda menggunakan tautan log, Anda mungkin tidak akan mengambil log dari variabel respons Anda - tautan pada dasarnya melakukan itu untuk Anda. Mari kita ambil contoh abstrak, Anda memiliki model Poisson menggunakan tautan log sebagai berikut:
(EDIT: Saya menghapus "topi" dari betas di bagian selanjutnya, karena mereka jelek, tetapi mereka masih harus dipahami.)
Dengan regresi OLS normal, Anda memprediksi rata-rata distribusi Gaussian dari variabel respons yang bergantung pada nilai-nilai kovariat. Dalam hal ini, Anda memprediksi rata-rata distribusi Poisson dari variabel respons yang bergantung pada nilai-nilai kovariat. Untuk OLS, jika kasing yang diberikan 1 unit lebih tinggi pada kovariat Anda, Anda berharap, semua hal menjadi sama, rata-rata dari distribusi bersyarat menjadiβ1 unit lebih tinggi. Di sini, jika case yang diberikan 1 unit lebih tinggi, ceteris paribus , Anda mengharapkan rata-rata kondisionaleβ1 kali lebih tinggi. Misalnya, katakanlahβ1= 2 , maka dalam regresi normal adalah 2 unit lebih tinggi (yaitu, +2), dan ini adalah 7,4 kali lebih tinggi (yaitu, x 7,4). Dalam kedua kasus tersebut,β0 adalah mencegat Anda ; dalam persamaan kami di atas, pertimbangkan situasi kapanx = 0 , lalu exp(β1)x= 1 , dan sisi kanan mengurangi exp (β0 ), yang memberi Anda makna y ketika semua kovariat sama dengan 0.
Ada beberapa hal yang dapat membingungkan tentang ini. Pertama, memprediksi rata-rata distribusi Poisson tidak sama dengan memprediksi rata-rata Gaussian. Dengan distribusi normal, nilai tengah adalah nilai tunggal yang paling mungkin. Tetapi dengan Poisson, rerata seringkali merupakan nilai yang tidak mungkin (misalnya, jika rerata prediksi Anda adalah 2,7, itu bukan hitungan yang bisa ada). Selain itu, biasanya rata-rata tidak terkait dengan tingkat dispersi (yaitu, SD), tetapi dengan distribusi Poisson, varians selalu sama dengan rata-rata (meskipun, sering tidak dalam prakteknya, mengarah ke kompleksitas tambahan). Akhirnya, eksponensial itu membuatnya lebih rumit; jika, alih-alih perubahan relatif, Anda ingin mengetahui nilai yang tepat, Anda harus mulai dari 0 (yaitu,eβ0 ) dan gandakan jalanmu x waktu. Untuk memprediksi nilai tertentu, lebih mudah untuk menyelesaikan ekspresi di dalam tanda kurung di persamaan bawah dan kemudian eksponensial; ini membuat arti dari beta kurang jelas, tetapi matematika lebih mudah dan mengurangi kemungkinan kesalahan.
sumber