Menguji kesetaraan koefisien dari dua regresi yang berbeda

44

Ini tampaknya menjadi masalah mendasar, tetapi saya baru sadar bahwa saya sebenarnya tidak tahu bagaimana cara menguji kesetaraan koefisien dari dua regresi yang berbeda. Adakah yang bisa menjelaskan ini?

Secara lebih formal, misalkan saya menjalankan dua regresi berikut: dan mana merujuk ke matriks desain regresi , dan ke vektor koefisien dalam regresi . Perhatikan bahwa dan berpotensi sangat berbeda, dengan dimensi yang berbeda, dll. Saya tertarik misalnya apakah .y 2 = X 2 β 2 + ε 2 X i i β i i X 1 X 2 β 11β 21

y1=X1β1+ϵ1
y2=X2β2+ϵ2
XiiβiiX1X2β^11β^21

Jika ini berasal dari regresi yang sama, ini akan sepele. Tetapi karena mereka berasal dari yang berbeda, saya tidak yakin bagaimana melakukannya. Adakah yang punya ide atau bisa memberi saya beberapa petunjuk?

Masalah saya secara terperinci: Intuisi pertama saya adalah melihat interval kepercayaan, dan jika tumpang tindih, maka saya akan mengatakan mereka pada dasarnya sama. Prosedur ini tidak datang dengan ukuran tes yang benar, meskipun (yaitu setiap interval kepercayaan individu memiliki , katakanlah, tetapi melihat mereka bersama-sama tidak akan memiliki probabilitas yang sama). Intuisi "kedua" saya adalah melakukan uji-t normal. Yaitu, ambilα=0.05

β11β21sd(β11)

di mana diambil sebagai nilai hipotesis nol saya. Namun, ini tidak memperhitungkan ketidakpastian estimasi , dan jawabannya mungkin tergantung pada urutan regresi (yang saya sebut 1 dan 2). β 21β21β21

Gagasan ketiga saya adalah melakukannya seperti dalam uji standar untuk persamaan dua koefisien dari regresi yang sama, yaitu take

β11β21sd(β11β21)

Komplikasi muncul karena keduanya berasal dari regresi yang berbeda. Catat itu

Var(β11β21)=Var(β11)+Var(β21)2Cov(β11,β21)
tetapi sejak mereka berasal dari regresi yang berbeda, bagaimana saya mendapatkan ?Cov(β11,β21)

Ini mendorong saya untuk mengajukan pertanyaan ini di sini. Ini harus menjadi prosedur standar / tes standar, tetapi saya tidak dapat menemukan apa pun yang cukup mirip dengan masalah ini. Jadi, jika ada yang bisa mengarahkan saya ke prosedur yang benar, saya akan sangat berterima kasih!

coffeinjunky
sumber
2
Ini tampaknya berkaitan dengan pemodelan persamaan struktural / simultan. Salah satu cara untuk memecahkan masalah ini adalah menyesuaikan kedua persamaan secara bersamaan, misalnya dengan kemungkinan maksimum, dan kemudian menggunakan uji rasio kemungkinan dari model yang dibatasi (model parameter yang sama) terhadap model yang tidak dibatasi. Secara praktis ini dapat dilakukan dengan perangkat lunak SEM (Mplus, lavaan dll.)
tomka
2
Apakah Anda tahu tentang Seemingly Unrelated Regression (SUR)?
Dimitriy V. Masterov
2
Saya pikir pertanyaan kenaikan gaji Anda, yaitu bagaimana mendapatkan cov dari kedua koefisien, diselesaikan oleh SEM, yang akan memberi Anda matriks var-cov dari semua koefisien. Maka Anda mungkin bisa menggunakan tes Wald dengan cara yang Anda sarankan daripada tes LRT. Selain itu Anda juga dapat menggunakan re-sampling / bootstrap, yang mungkin lebih langsung.
tomka
3
Ya, Anda benar tentang itu, @ Tomka. Dalam model SUR (yang secara longgar Anda dapat mempertimbangkan kasus khusus model SEM), saya bisa mendapatkan tes yang sesuai. Terima kasih telah mengarahkan saya ke arah itu! Saya pikir saya tidak memikirkannya karena sepertinya sedikit seperti menembak burung gereja dengan meriam, tetapi saya memang tidak bisa memikirkan cara yang lebih baik. Jika Anda menuliskan jawaban, saya akan menandainya sebagai benar. Kalau tidak, saya akan segera menuliskannya sendiri, dengan penjelasan teoretis yang cepat dan berpotensi dengan contoh.
coffeinjunky
1
SUR cukup mudah diimplementasikan. Inilah satu contoh dengan Stata . Dengan R, Anda menginginkan pakaian sistem .
Dimitriy V. Masterov

Jawaban:

30

Meskipun ini bukan analisis umum, itu benar-benar menarik. Jawaban yang diterima cocok dengan cara Anda mengajukan pertanyaan, tetapi saya akan memberikan teknik lain yang cukup diterima yang mungkin setara atau tidak (saya akan menyerahkan pikiran yang lebih baik untuk mengomentari itu).

Pendekatan ini menggunakan tes Z berikut:

Z=β1β2(SEβ1)2+(SEβ2)2

Di mana adalah kesalahan standar .βSEββ

Persamaan ini disediakan oleh Clogg, CC, Petkova, E., & Haritou, A. (1995). Metode statistik untuk membandingkan koefisien regresi antara model. American Journal of Sociology , 100 (5), 1261-1293. dan dikutip oleh Paternoster, R., Brame, R., Mazerolle, P., & Piquero, A. (1998). Menggunakan uji statistik yang benar untuk persamaan koefisien regresi. Kriminologi , 36 (4), 859-866. persamaan 4, yang tersedia gratis dari paywall. Saya telah mengadaptasi formula Peternoster untuk menggunakan daripadab ββbkarena ada kemungkinan bahwa Anda mungkin tertarik pada DV yang berbeda karena alasan yang mengerikan dan ingatan saya tentang Clogg dkk. adalah bahwa rumus mereka menggunakan . Saya juga ingat memeriksa silang rumus ini terhadap Cohen, Cohen, Barat, dan Aiken, dan akar pemikiran yang sama dapat ditemukan di sana dalam interval kepercayaan perbedaan antara koefisien, persamaan 2.8.6, hal 46-47.β

russellpierce
sumber
Jawaban yang luar biasa! Pertanyaan tindak lanjut: apakah ini juga berlaku untuk kombinasi linear dari Model 1 dan dari Model 2? Seperti,β 2 Z = A β 1 - B β 2β1β2
Z=Aβ1Bβ2(SEAβ1)2+(SEBβ2)2
Sibbs Gambling
1
Juga saya perhatikan makalah ini membahas kasus di mana satu model bersarang di dalam yang lain, dan DV dari dua model adalah sama. Bagaimana jika kedua kondisi ini tidak terpenuhi? Sebagai gantinya, saya memiliki matriks desain kedua model yang sama, tetapi mereka memiliki DV yang berbeda. Apakah formula ini masih berlaku? Terima kasih banyak!
Perjudian Sibbs
1
@SibbsGambling: Anda mungkin ingin mengajukan pertanyaan untuk menarik lebih banyak perhatian.
russellpierce
β1β2
12

Untuk orang-orang dengan pertanyaan serupa, izinkan saya memberikan garis besar jawaban yang sederhana.

y1y2

(y1y2)=(X1  00  X2)(β1β2)+(e1e2)

Ini akan mengarah ke matriks varians-kovarians yang memungkinkan untuk menguji kesetaraan dari kedua koefisien.

coffeinjunky
sumber
11
Saya menerapkan cara yang Anda sarankan dan membandingkannya dengan cara di atas. Saya menemukan perbedaan utama adalah apakah asumsi bahwa varians kesalahannya sama atau tidak. Cara Anda mengasumsikan bahwa varians kesalahannya sama dan cara di atas tidak menganggapnya.
KH Kim
2
Ini bekerja dengan baik untuk saya. Di Stata, saya melakukan sesuatu seperti: expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id); Menggunakan akun standar kesalahan berkerumun untuk fakta bahwa e1 dan e2 tidak independen untuk pengamatan yang sama setelah menumpuk dataset.
wkschwartz
1
  • Var(β1β2)=Var(β1)+Var(β2)

  • covar(β1,β2)0

  • (Clogg, CC, Petkova, E., & Haritou, A. (1995). Metode statistik untuk membandingkan koefisien regresi antara model. American Journal of Sociology, 100 (5), 1261-1293.) Menyajikan jawaban dalam kasus khusus persamaan bersarang (mis. untuk mendapatkan persamaan kedua, pertimbangkan persamaan pertama dan tambahkan beberapa variabel penjelas) Mereka mengatakan itu mudah untuk diterapkan.

  • Jika saya memahaminya, dalam kasus khusus ini, tes Haussman juga dapat diimplementasikan. Perbedaan utama adalah bahwa tes mereka menganggap benar persamaan kedua (penuh), sedangkan tes Haussman menganggap benar persamaan pertama.

  • Perhatikan bahwa Clogg et al (1995) tidak cocok untuk data panel. Tetapi tes mereka telah digeneralisasi oleh (Yan, J., Aseltine Jr, RH, & Harel, O. (2013). Membandingkan koefisien regresi antara model linear bersarang untuk data cluster dengan data estimasi umum. Jurnal Statistik Pendidikan dan Perilaku, 38 (2), 172-189.) Dengan paket yang disediakan di R: geepack Lihat: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1

Dan (untuk paket-R): https://cran.r-project.org/web/packages/geepack/index.html

Alexandre Cazenave-Lacroutz
sumber