Dalam pengaturan regresi univariat, kami mencoba memodelkan
di mana vektor pengamatan dan matriks desain dengan prediktor. Solusinya adalah . n X ∈ R n × m m β 0 = ( X T X ) - 1 X y
Dalam pengaturan regresi multivarian, kami mencoba memodelkan
di mana adalah matriks dari pengamatan dan variabel laten yang berbeda. Solusinya adalah . n p β 0 = ( X T X ) - 1 X Y
Pertanyaan saya adalah bagaimana adalah bahwa berbeda daripada melakukan regresi linear univariat yang berbeda? Saya membaca di sini bahwa dalam kasus terakhir kita mempertimbangkan korelasi antara variabel dependen, tetapi saya tidak melihatnya dari matematika.
Jawaban:
Dalam pengaturan regresi linear multivariat klasik, kami memiliki model:
di mana mewakili variabel independen, mewakili beberapa variabel respons, dan adalah istilah kebisingan Gaussian iid. Noise memiliki mean nol, dan dapat dikorelasikan antar variabel respon. Solusi kemungkinan maksimum untuk bobot setara dengan solusi kuadrat terkecil (terlepas dari korelasi kebisingan) [1] [2]:Y ϵX Y ϵ
Ini sama dengan menyelesaikan secara independen masalah regresi terpisah untuk setiap variabel respon. Ini dapat dilihat dari fakta bahwa kolom ke- dari (berisi bobot untuk variabel keluaran ke- ) dapat diperoleh dengan mengalikan oleh kolom ke- (berisi nilai-nilai variabel respons ke- ).ß i ( X T X ) - 1 X T i Y ii β^ i (XTX)−1XT i Y i
Namun, regresi linier multivariat berbeda dari penyelesaian masalah regresi individu secara terpisah karena prosedur inferensi statistik memperhitungkan korelasi antara variabel-variabel respon berganda (misalnya lihat [2], [3], [4]). Misalnya, matriks kovarians noise muncul dalam distribusi sampel, statistik uji, dan perkiraan interval.
Perbedaan lain muncul jika kami mengizinkan masing-masing variabel respons untuk memiliki set kovariat sendiri:
di mana mewakili variabel respons ke- , dan dan mewakili set kovariat dan istilah noise yang terkait. Seperti di atas, persyaratan noise dapat dikorelasikan antar variabel respon. Dalam pengaturan ini, ada estimator yang lebih efisien daripada kuadrat terkecil, dan tidak dapat direduksi untuk menyelesaikan masalah regresi terpisah untuk setiap variabel respon. Misalnya, lihat [1]. i X i ϵ iYi i Xi ϵi
Referensi
sumber