Goodness of fit dan model mana untuk memilih regresi linier atau Poisson

19

Saya memerlukan beberapa saran mengenai dua dilema utama dalam penelitian saya, yang merupakan studi kasus dari 3 farmasi dan inovasi besar. Jumlah paten per tahun adalah variabel dependen.

Pertanyaan saya adalah

  • Apa kriteria paling penting untuk model yang baik? Apa yang lebih / kurang penting? Apakah sebagian besar atau semua variabel akan signifikan? Apakah ini masalah "F STATISTIK"? Apakah itu nilai "Adjusted R kuadrat"?

  • Kedua, bagaimana saya bisa memutuskan model yang paling tepat untuk penelitian? Selain paten yang merupakan variabel jumlah (jadi mungkin jumlah Poisson) Saya memiliki variabel penjelas seperti pengembalian aset, anggaran penelitian dan pengembangan, mitra berulang (% bukan variabel biner), ukuran perusahaan (karyawan), dan beberapa lagi. Haruskah saya melakukan regresi linier atau Poisson?

Nitzan
sumber
5
Kjetil telah memberikan jawaban terperinci yang bagus. Pendapat yang lebih cepat dan singkat yang sesuai dengan argumennya adalah bahwa apa yang Anda beri label "kedua" adalah pertanyaan yang sangat penting. Apa yang Anda sebutkan pertama adalah insidental.
Nick Cox

Jawaban:

31

Paling penting adalah logika di balik model. Variabel "jumlah paten Anda per tahun" adalah variabel jumlah, jadi ditunjukkan regresi Poisson. Itu adalah GLM (model linier umum) dengan (biasanya) fungsi log link, sedangkan regresi linier yang biasa adalah GLM Gaussian dengan link identitas. Di sini, ini benar-benar fungsi tautan log yang paling penting, lebih penting daripada distribusi kesalahan (Poisson atau Gaussian).

Variabel "Paten" adalah variabel luas : lihat properti intensif dan ekstensif . Untuk variabel intensif , seperti suhu, model linier (dengan tautan identitas) seringkali sesuai. Tetapi dengan variabel yang luas itu berbeda. Pikirkan bahwa salah satu perusahaan farmasi Anda terbagi menjadi dua perusahaan yang berbeda. Kemudian paten harus dibagi di antara dua perusahaan baru. Apa yang terjadi dengan kovariabel, dalam regresi Anda? Variabel seperti jumlah karyawan dan anggaran RD harus dipisah juga.x

Secara luas, dalam konteks ini, variabel intensif adalah variabel yang independen terhadap ukuran perusahaan, sedangkan variabel luas tergantung (biasanya, linier) pada ukuran perusahaan. Jadi, dalam arti tertentu, jika kita memiliki banyak variabel luas yang berbeda dalam persamaan regresi, kita mengukur efek ukuran berulang kali . Itu tampak berlebihan, jadi kita harus mencoba, jika mungkin, mengekspresikan variabel dalam bentuk intensif , seperti anggaran RD per karyawan (atau dalam persen dari total anggaran), demikian juga pendapatan, dll. Variabel seperti jumlah karyawan harus dibiarkan sebagai luas. Lihat jawaban @ onestop untuk Berurusan dengan regresi berkorelasi untuk diskusi lain tentang masalah variabel ekstensif / intensif ini.

Mari kita lihat ini secara aljabar: adalah Paten, Anggaran (per karyawan), Karyawan di perusahaan asli, sementara dan adalah variabel yang sesuai setelah pemisahan. Asumsikan, seperti di atas, bahwa adalah satu-satunya kovariabel yang luas (dengan , tentu saja, juga luas).P,B,EP1,B1,E1P2,B2,E2EP

Kemudian, sebelum pemisahan, kita memiliki model, tautan identitas, dengan bagian acak yang ditinggalkan: Biarkan pecahan pecahan menjadi jadi untuk perusahaan 1 setelah pemisahan kita mendapatkan sejak tapi . Demikian juga untuk perusahaan dua. Jadi model tergantung pada cara yang cukup rumit pada ukuran perusahaan, hanya koefisien regresi pada

P=μ+β1E+β2B
α,1α
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEindependen dari ukuran perusahaan, ukuran mempengaruhi semua parameter lainnya. Itu membuat interpretasi hasil menjadi sulit, terutama jika dalam data Anda, Anda memiliki perusahaan dengan ukuran yang berbeda-beda, lalu bagaimana Anda akan menafsirkan koefisien tersebut? Perbandingan dengan penelitian lain berdasarkan data lain, dll., Menjadi sangat rumit.

Sekarang, mari kita lihat apakah menggunakan fungsi tautan log dapat membantu. Sekali lagi, kami menulis model ideal tanpa syarat gangguan. Variabelnya seperti di atas.

Pertama, model sebelum pemisahan: Setelah pemisahan, untuk perusahaan satu, kita mendapatkan: Ini terlihat hampir benar, kecuali untuk satu masalah, bagian dari ketergantungan pada tidak cukup berhasil. Jadi kita melihat bahwa jumlah karyawan, yang kovariabel dalam bentuk luas, harus digunakan pada skala log. Lalu, coba lagi, kita dapatkan:

P=exp(μ+β1E+β2B)
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

Model sebelum pemisahan: Setelah pemisahan: mana adalah intersep baru. Sekarang, kami telah menempatkan model dalam bentuk di mana semua parameter (kecuali intersep) memiliki interpretasi yang independen dari ukuran perusahaan.

P=exp(μ+β1logE+β2B)
μ
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
μ

Itu membuat interpretasi hasil jauh lebih mudah, dan juga perbandingan dengan studi menggunakan data lain, tren dengan waktu, dan sebagainya. Anda tidak dapat mencapai formulir ini dengan parameter dengan interpretasi independen ukuran dengan tautan identitas.

Kesimpulan: Gunakan GLM dengan fungsi tautan log, mungkin regresi Poisson, atau negatif-binomial, atau ... Fungsi tautan adalah urutan yang lebih penting!

Singkatnya, ketika membangun model regresi untuk variabel respon yang luas , seperti variabel jumlah.

  1. Cobalah untuk mengekspresikan kovariabel dalam bentuk intensif.

  2. Kovariabel yang harus dibiarkan luas: catat (aljabar di atas tergantung pada paling tidak ada satu kovariabel yang luas).

  3. Gunakan fungsi tautan log.

Kemudian, kriteria lain, seperti yang didasarkan pada kesesuaian, dapat digunakan untuk keputusan sekunder, seperti distribusi istilah gangguan.

kjetil b halvorsen
sumber
3
Saya pikir regresi Poisson adalah regresi GLS dengan fungsi tautan log?
Sonton Bob
1
Biasanya, ya, tetapi Anda juga dapat mempertimbangkan tautan Poisson dengan identitas (atau lainnya, seperti akar kuadrat). Tetapi argumen saya di sini menunjukkan bahwa biasanya, Anda menginginkan tautan log.
kjetil b halvorsen
@ kjetil b halvorsen, apa itu dalam koreksi istilah ? μ(1β)μ
garej