Jelaskan perbedaan antara regresi berganda dan regresi multivariat, dengan penggunaan simbol / matematika yang minimal

Jawaban:

54

Sangat cepat, saya akan mengatakan: 'berganda' berlaku untuk jumlah prediktor yang memasuki model (atau ekuivalen dengan matriks desain) dengan hasil tunggal (respons Y), sedangkan 'multivariat' mengacu pada matriks vektor respons. Tidak dapat mengingat penulis yang memulai bagian pengantar tentang pemodelan multivarian dengan pertimbangan itu, tetapi saya pikir itu adalah Brian Everitt dalam buku teksnya An R dan S-Plus Companion to Multivariate Analysis . Untuk diskusi menyeluruh tentang ini, saya akan menyarankan untuk melihat buku terbarunya, Multivariable Modeling dan Multivariate Analysis for the Behavioral Sciences .

Untuk 'variate', saya akan mengatakan ini adalah cara yang umum untuk merujuk ke variabel acak apa pun yang mengikuti distribusi yang diketahui atau dihipotesiskan, misalnya kita berbicara tentang gaussian sebagai serangkaian pengamatan yang diambil dari distribusi normal (dengan parameter dan ). Dalam istilah probabilistik, kami mengatakan bahwa ini adalah beberapa realisasi acak X, dengan ekspektasi matematis , dan sekitar 95% di antaranya diperkirakan terletak pada kisaran .Xiμσ2μ[μ2σ;μ+2σ]

chl
sumber
1
Bahkan coursera.org/learn/machine-learning/home/week/2 menggunakan istilah regresi multivariat alih-alih regresi berganda ...
Franck Dernoncourt
Saya pikir kebingungan yang sama muncul dengan orang yang menggunakan istilah GLM untuk General Linear Model (misalnya, dalam studi neuroimaging) vs Generalized Linear Model. Saya telah melihat banyak contoh "regresi logistik multivariat" di mana hanya ada satu hasil, dan saya tidak berpikir ini penting selama istilah tersebut didefinisikan dengan jelas oleh penulis.
chl
39

Berikut adalah dua contoh terkait erat yang menggambarkan ide. Contohnya agak sentris AS tetapi ide-idenya dapat diekstrapolasi ke negara lain.

Contoh 1

Misalkan suatu universitas ingin memperbaiki kriteria penerimaannya sehingga mereka menerima siswa yang 'lebih baik'. Juga, anggaplah bahwa Indeks Prestasi Kumulatif (IPK) siswa adalah yang ingin digunakan universitas sebagai metrik kinerja bagi siswa. Mereka memiliki beberapa kriteria dalam pikiran seperti IPK sekolah menengah (HSGPA), skor SAT (SAT), Gender dll.

Solusi: Regresi Berganda

Dalam konteks di atas, ada satu variabel dependen (IPK) dan Anda memiliki beberapa variabel independen (HSGPA, SAT, Jenis Kelamin dll). Anda ingin mengetahui variabel independen mana yang merupakan prediktor yang baik untuk variabel dependen Anda. Anda akan menggunakan regresi berganda untuk membuat penilaian ini.

Contoh 2

Alih-alih situasi di atas, misalkan kantor penerimaan ingin melacak kinerja siswa sepanjang waktu dan ingin menentukan salah satu kriteria mereka yang mendorong kinerja siswa sepanjang waktu. Dengan kata lain, mereka memiliki skor IPK selama empat tahun dimana seorang siswa tetap bersekolah (katakanlah, IPK1, IPK2, IPK3, IPK) dan mereka ingin tahu mana salah satu variabel independen yang memprediksi skor IPK lebih baik pada tahun-oleh- dasar tahun. Kantor penerimaan berharap untuk menemukan bahwa variabel independen yang sama memprediksi kinerja di semua empat tahun sehingga pilihan mereka kriteria penerimaan memastikan bahwa kinerja siswa secara konsisten tinggi di semua empat tahun.

Solusi: Regresi Multivarian

Dalam contoh 2, kami memiliki beberapa variabel dependen (mis., GPA1, GPA2, GPA3, GPA4) dan beberapa variabel independen. Dalam situasi seperti itu, Anda akan menggunakan regresi multivarian.


sumber
2
Selalu ada satu yang menjawab pertanyaan dengan benar :)
Tjorriemorrie
100% jawaban terbaik yang benar-benar dapat Anda pahami
Alvis
21

Regresi sederhana berkaitan dengan satu variabel dependen ( ) dan satu variabel independen ( ):yxy=f(x)

Regresi berganda (alias regresi multivariabel) berkaitan dengan satu variabel dependen dan beberapa variabel independen:y=f(x1,x2,...,xn)

Regresi multivarian berkaitan dengan beberapa variabel dependen dan beberapa variabel independen: . Anda mungkin mengalami masalah di mana variabel dependen dan independen disusun sebagai matriks variabel (misalnya dan ), jadi ekspresi dapat ditulis sebagai , di mana huruf kapital menunjukkan matriks.y1,y2,...,ym=f(x1,x2,...,xn)y11,y12,...x11,x12,...Y=f(X)

Bacaan lebih lanjut:

stackoverflowuser2010
sumber
Saya mengerti definisinya. Tetapi apa efek dari memperlakukan regresi multi-varian sebagai sistem regresi uni-variate?
LKS
@ LKS: Anda mungkin ingin menanyakan hal itu dalam pertanyaan yang sepenuhnya terpisah.
stackoverflowuser2010
Apakah jawaban dalam Quora merujuk pada halaman ini? : P
Habeeb Perwad
4

Saya pikir wawasan kunci (dan pembeda) di sini selain dari jumlah variabel di kedua sisi persamaan adalah bahwa untuk kasus regresi multivariat, tujuannya adalah untuk memanfaatkan fakta bahwa ada (umumnya) korelasi antara variabel respon (atau hasil). Misalnya, dalam uji coba medis, prediktor mungkin berat, usia, dan ras, dan variabel hasil adalah tekanan darah dan kolesterol. Secara teori, kita dapat membuat dua model "regresi berganda", yang satu menurunkan tekanan darah pada berat badan, usia, dan ras, dan model kedua mengurangi kolesterol pada faktor-faktor yang sama. Namun, sebagai alternatif, kita dapat membuat model regresi multivariat tunggal yang memprediksi keduanyatekanan darah dan kolesterol secara bersamaan berdasarkan pada tiga variabel prediktor. Gagasannya adalah bahwa model regresi multivariat mungkin lebih baik (lebih prediktif) sejauh dapat belajar lebih banyak dari korelasi antara tekanan darah dan kolesterol pada pasien.

thecity2
sumber
Poin yang bagus. Saya bertanya-tanya apakah regresi multivariat dapat dilakukan dengan R. Menggunakan Manova, saya bisa melakukan multivariat ANOVA, tetapi tidak bisa mendapatkan koefisien seperti regresi univariat.
KarthikS
1

Dalam regresi multivariat ada lebih dari satu variabel dependen dengan varians (atau distribusi) yang berbeda. Variabel prediktor mungkin lebih dari satu atau beberapa. Jadi itu mungkin regresi berganda dengan matriks variabel dependen, yaitu beberapa varian. Tetapi ketika kita mengatakan regresi berganda, yang kami maksud hanya satu variabel dependen dengan distribusi tunggal atau varian. Variabel prediktor lebih dari satu. Untuk meringkas banyak merujuk pada lebih dari satu variabel prediktor tetapi multivariat mengacu pada lebih dari satu variabel dependen.

Bhabesh Mahanta
sumber