Regresi dengan beberapa variabel dependen?

61

Apakah mungkin untuk memiliki persamaan regresi (berganda) dengan dua atau lebih variabel dependen? Tentu, Anda bisa menjalankan dua persamaan regresi terpisah, satu untuk setiap DV, tetapi sepertinya itu tidak akan menangkap hubungan apa pun antara kedua DV tersebut?

Jeff
sumber
Seperti dalam SUR atau 3SLS?
Seorang pria tua di laut.

Jawaban:

35

Ya itu mungkin. Yang Anda minati disebut "Regresi Berganda Multivarian" atau hanya "Regresi Multivarian". Saya tidak tahu perangkat lunak apa yang Anda gunakan, tetapi Anda bisa melakukan ini di R.

Berikut tautan yang memberikan contoh.

http://www.public.iastate.edu/~maitra/stat501/lectures/MultivariateRegression.pdf

Brett
sumber
2
Orang mungkin menambahkan bahwa menyesuaikan regresi terpisah memang setara dengan formulasi multivariat dengan matriks variabel dependen. Dalam R dengan paket mvtnorm diinstal (1: model multivariat, 2: model univariat terpisah): perpustakaan (mvtnorm); X <- rmvnorm (100, c (1, 2), matriks (c (4, 2, 2, 3), ncol = 2)); Y <- X% *% matriks (1: 4, ncol = 2) + rmvnorm (100, c (0, 0), diag (c (20, 30))); lm (Y ~ X [, 1] + X [, 2]); lm (Y [, 1] ~ X [, 1] + X [, 2]); lm (Y [, 2] ~ X [, 1] + X [, 2])
caracal
3
Jika setara, apa tujuannya?
Joshua Rosenberg
1
@ JoshuaRosenberg salah satu alasan untuk menjalankan regresi multivariat atas regresi terpisah dengan variabel dependen tunggal adalah kemampuan untuk melakukan tes koefisien di seluruh variabel hasil yang berbeda. Misalnya, Anda dapat melakukan uji-F untuk melihat apakah prediktor memiliki efek yang sama pada satu variabel hasil seperti pada variabel hasil lainnya.
AlexK
10

@ Tanggapan Brett baik-baik saja.

Jika Anda tertarik untuk menggambarkan struktur dua blok Anda, Anda juga bisa menggunakan regresi PLS . Pada dasarnya, ini adalah kerangka kerja regresi yang bergantung pada ide untuk membangun kombinasi linear (ortogonal) berturut-turut dari variabel-variabel yang dimiliki oleh masing-masing blok sedemikian sehingga kovariansnya maksimal. Di sini kami menganggap bahwa satu blok berisi variabel penjelas, dan blok lainnya merespon variabel, seperti yang ditunjukkan di bawah ini:YXY

teks alternatif

Kami mencari "variabel laten" yang memperhitungkan informasi maksimum (secara linear) yang termasuk dalam blok sambil memungkinkan untuk memprediksiBlok X Y dengan kesalahan minimal. The u j dan v j adalah beban (yaitu, kombinasi linear) yang berhubungan dengan masing-masing dimensi. Kriteria optimasi berbunyiXYujvj

maxuh∣=1,vh∣=1cov(Xh1uh,Yvh)(maxcov(ξh,ωh))

di mana adalah singkatan dari deflasi (yaitu, residualized) , setelah regresi .Xh1Xhth

Korelasi antara skor faktorial pada dimensi pertama ( dan ) mencerminkan besarnya - Link.ξ1ω1XY

chl
sumber
Saya pikir multipleX-multipleY PLS pada dasarnya melakukan beberapa "multipleX-singleY" PLS. Jadi hubungan antara variabel Y tidak dibahas.
lanselibai
4

Regresi multivariat dilakukan dalam SPSS menggunakan opsi GLM-multivariat.

Masukkan semua hasil Anda (DV) ke dalam kotak hasil, tetapi semua prediktor berkelanjutan Anda ke dalam kotak kovariat. Anda tidak perlu apa pun di kotak faktor. Lihatlah tes multivarian. Tes univariat akan sama dengan regresi berganda yang terpisah.

Seperti kata orang lain, Anda juga bisa menentukan ini sebagai model persamaan struktural, tetapi tesnya sama.

(Menariknya, yah, saya pikir ini menarik, ada sedikit perbedaan UK-AS dalam hal ini. Di Inggris, regresi berganda biasanya tidak dianggap sebagai teknik multivariat, maka regresi multivariat hanya multivariat bila Anda memiliki banyak hasil / DV. )

Jeremy Miles
sumber
2
tambahan di @Jeremy Miles menjawab: www-01.ibm.com/support/docview.wss?uid=swg21476743
Epaminondas
2

Saya akan melakukan ini dengan terlebih dahulu mengubah variabel regresi ke variabel yang dihitung PCA, dan kemudian saya akan regresi dengan variabel yang dihitung PCA. Tentu saja saya akan menyimpan vektor eigen untuk dapat menghitung nilai pca yang sesuai ketika saya memiliki contoh baru yang ingin saya klasifikasikan.

mariana lebih lembut
sumber
2
Ini tampaknya berbeda secara konseptual daripada jawaban di atas. Saya masih tidak jelas bagaimana mengubah variabel saya menjadi koefisien PCA memungkinkan saya untuk mundur pada 2+ variabel dependen?
Jeff
@ Jeff jawaban ini sebenarnya secara konseptual mirip dengan regresi multivariat. Di sini, sarannya adalah untuk melakukan dua langkah diskrit secara berurutan (yaitu, temukan variabel komposit linier berbobot lalu kemunduran); regresi multivarian melakukan dua langkah secara bersamaan . Regresi multivarian akan lebih kuat, karena WLCV dibentuk untuk memaksimalkan regresi. Namun, prosedur dua langkah dapat memberikan lebih banyak kejelasan tentang proses, atau lebih disukai bagi peneliti.
gung - Reinstate Monica
1
@ung Hmm semacam ini masuk akal bagi saya jika Anda melakukan PCA pada variabel dependen dan kemudian mundur hanya pada komponen utama pertama ... Tapi kemudian Anda masih membuang banyak varian.
Jeff
1
@ Jeff, PC itu ortogonal. Anda dapat menjalankan regresi independen pada masing-masing. Namun, ini kurang kuat b / c dekomposisi tidak persis sama, & uji regresi multivariat sebenarnya bukan serangkaian regs pada PC.
gung - Reinstate Monica
@ung ya, Anda dapat menjalankan regresi independen N, tetapi kemudian Anda berakhir dengan N set koefisien beta. saya tidak mengerti bagaimana cara menyelesaikan masalah?
Jeff
1

Seperti disebutkan oleh caracal, Anda dapat menggunakan paket mvtnorm di R. Dengan anggapan Anda membuat model lm (bernama "model") dari salah satu respons dalam model Anda, dan menyebutnya "model", berikut adalah cara mendapatkan distribusi prediktif multivarian. dari beberapa respons "resp1", "resp2", "resp3" disimpan dalam bentuk matriks Y:

library(mvtnorm)
model = lm(resp1~1+x+x1+x2,datas) #this is only a fake model to get
                                  #the X matrix out of it
Y = as.matrix(datas[,c("resp1","resp2","resp3")])
X =  model.matrix(delete.response(terms(model)), 
           data, model$contrasts)
XprimeX  = t(X) %*% X
XprimeXinv = solve(xprimex)
hatB =  xprimexinv %*% t(X) %*% Y
A = t(Y - X%*%hatB)%*% (Y-X%*%hatB)
F = ncol(X)
M = ncol(Y)
N = nrow(Y)
nu= N-(M+F)+1 #nu must be positive
C_1 =  c(1  + x0 %*% xprimexinv %*% t(x0)) #for a prediction of the factor setting x0 (a vector of size F=ncol(X))
varY = A/(nu) 
postmean = x0 %*% hatB
nsim = 2000
ysim = rmvt(n=nsim,delta=postmux0,C_1*varY,df=nu) 

Sekarang, kuantil dari ysim adalah interval toleransi beta-ekspektasi dari distribusi prediktif, Anda tentu saja dapat langsung menggunakan distribusi sampel untuk melakukan apa pun yang Anda inginkan.

Untuk menjawab Andrew F., derajat kebebasan karenanya nu = N- (M + F) +1 ... N menjadi # pengamatan, M # tanggapan dan F # parameter per model persamaan. nu harus positif.

(Anda mungkin ingin membaca karya saya di dalam dokumen ini :-))

Pierre Lebrun
sumber
0

Apakah Anda sudah menemukan istilah "korelasi kanonik"? Di sana Anda memiliki set variabel di independen maupun di sisi dependen. Tapi mungkin ada lebih banyak konsep modern yang tersedia, deskripsi yang saya miliki adalah semua tahun delapan puluhan / sembilan puluhan ...

Gottfried Helms
sumber
1
Korelasi kanonik adalah korelasi antara skor faktor yang dihitung dari struktur dua blok, seperti CCA atau PLS. Inilah yang saya jelaskan dalam respons saya (regresi PLS), meskipun PLS lebih tepat daripada CCA ketika variabel memainkan peran asimetris, yang mungkin menjadi kasus di sini. Ini karena ada proses deflasi asimetris dan kami bekerja dengan kovarians sebagai gantinya (dengan CCA, kami mengempiskan kedua blok pada saat yang sama, dan kami berupaya memaksimalkan korelasi, alih-alih kovarian).
chl
@ chl: upps- hari ini (akhir januari) saya kembali ke pertanyaan / percakapan pertengahan November ini ... Maaf saya tidak memeriksa sebelumnya - ada sesuatu dengan kursus saya dan kemudian saya lupa stat.exchange. .. Jika saya memiliki sesuatu yang bernilai saya akan kembali hari berikutnya.
Gottfried Helms
-3

Ini disebut model persamaan struktural atau model persamaan simultan.

Shige
sumber
3
Saya bisa saja salah, tetapi saya tidak berpikir ini adalah hal yang sama. Dari grafik SEM yang saya lihat, sepertinya SEM menggunakan persamaan regresi berganda untuk menentukan nilai-nilai faktor laten, dan kemudian regresi lain dijalankan pada nilai faktor-faktor laten untuk menentukan faktor tingkat tinggi. Mungkin ini salah, tapi saya belum pernah melihat grafik SEM yang menghubungkan beberapa IVs ke beberapa DVs - semuanya hierarkis.
Jeff
Gambar 8 dalam makalah ini: biomedcentral.com/1471-2288/3/27 Anda dapat melakukannya, tetapi ada gunanya. Itu sama dengan MANOVA.
Jeremy Miles