Regresi linier multivariat vs beberapa model regresi univariat

11

Dalam pengaturan regresi univariat, kami mencoba memodelkan

y=Xβ+noise

di mana vektor pengamatan dan matriks desain dengan prediktor. Solusinya adalah . n X R n × m m β 0 = ( X T X ) - 1 X yyRnnXRn×mmβ0=(XTX)1Xy

Dalam pengaturan regresi multivarian, kami mencoba memodelkan

Y=Xβ+noise

di mana adalah matriks dari pengamatan dan variabel laten yang berbeda. Solusinya adalah . n p β 0 = ( X T X ) - 1 X YyRn×pnpβ0=(XTX)1XY

Pertanyaan saya adalah bagaimana adalah bahwa berbeda daripada melakukan regresi linear univariat yang berbeda? Saya membaca di sini bahwa dalam kasus terakhir kita mempertimbangkan korelasi antara variabel dependen, tetapi saya tidak melihatnya dari matematika.p

Roy
sumber
1
Lihat teorema Frisch-Waugh-Lovell.
rsm
1
@ amorfati: Jadi jika saya mengerti dengan benar, mereka sama. Mengapa orang memperlakukan mereka secara berbeda?
Roy

Jawaban:

6

Dalam pengaturan regresi linear multivariat klasik, kami memiliki model:

Y=Xβ+ϵ

di mana mewakili variabel independen, mewakili beberapa variabel respons, dan adalah istilah kebisingan Gaussian iid. Noise memiliki mean nol, dan dapat dikorelasikan antar variabel respon. Solusi kemungkinan maksimum untuk bobot setara dengan solusi kuadrat terkecil (terlepas dari korelasi kebisingan) [1] [2]:Y ϵXYϵ

β^=(XTX)1XTY

Ini sama dengan menyelesaikan secara independen masalah regresi terpisah untuk setiap variabel respon. Ini dapat dilihat dari fakta bahwa kolom ke- dari (berisi bobot untuk variabel keluaran ke- ) dapat diperoleh dengan mengalikan oleh kolom ke- (berisi nilai-nilai variabel respons ke- ).ß i ( X T X ) - 1 X T i Y iiβ^i(XTX)1XTiYi

Namun, regresi linier multivariat berbeda dari penyelesaian masalah regresi individu secara terpisah karena prosedur inferensi statistik memperhitungkan korelasi antara variabel-variabel respon berganda (misalnya lihat [2], [3], [4]). Misalnya, matriks kovarians noise muncul dalam distribusi sampel, statistik uji, dan perkiraan interval.

Perbedaan lain muncul jika kami mengizinkan masing-masing variabel respons untuk memiliki set kovariat sendiri:

Yi=Xiβi+ϵi

di mana mewakili variabel respons ke- , dan dan mewakili set kovariat dan istilah noise yang terkait. Seperti di atas, persyaratan noise dapat dikorelasikan antar variabel respon. Dalam pengaturan ini, ada estimator yang lebih efisien daripada kuadrat terkecil, dan tidak dapat direduksi untuk menyelesaikan masalah regresi terpisah untuk setiap variabel respon. Misalnya, lihat [1]. i X i ϵ iYiiXiϵi

Referensi

  1. Zellner (1962) . Metode yang efisien untuk memperkirakan regresi yang tampaknya tidak terkait dan tes untuk bias agregasi.
  2. Helwig (2017) . Regresi linier multivariat [Slide]
  3. Fox dan Weisberg (2011) . Model linier multivarian dalam R. [Lampiran untuk: R Pendamping untuk Regresi Terapan]
  4. Maitra (2013) . Model Regresi Linier Multivariat. [Slide]
pengguna20160
sumber
1
Terima kasih, sekarang lebih jelas. Apakah Anda memiliki referensi untuk formulasi ini? Saya hanya menemukan bentuk kuadrat terkecil. Juga, apakah Anda tahu paket Python alat itu?
Roy
1
Kedua permintaan referensi. Apakah seseorang menganggap korelasinya hanya sebagai kovarians dari hasil, atau apakah seseorang mempelajari semacam kovarians kondisional?
generic_user
Saya tidak 100% yakin bahwa @ user20160 merujuk ini, tetapi saya pikir apa yang mereka pikirkan adalah memperkirakan persamaan / persamaan estimasi umum. EE / GEE konsisten ketika struktur kovarians salah ditentukan dan Anda juga dapat mengatur struktur kovarians yang diharapkan. Namun, model ini diperkirakan secara iteratif dibandingkan dengan OLS dengan formulir tertutup. Anda harus dapat memperkirakan GEE / EE dengan Python tapi saya tidak tahu paketnya.
iacobus
1
@ Roy Saya menulis ulang jawaban dan menambahkan referensi. Posting asli saya mengasumsikan kasus yang sekarang menjadi paragraf terakhir dari posting yang direvisi. Saya akan mencoba menambahkan lebih detail nanti.
user20160