Saya baru saja melihat-lihat buku yang luar biasa ini: Analisis statistik multivariat terapan oleh Johnson dan Wichern . Ironisnya, saya masih belum dapat memahami motivasi untuk menggunakan model multivariat (regresi) daripada model univariat terpisah (regresi). Saya membaca stats.statexchange posting 1 dan 2 yang menjelaskan (a) perbedaan antara regresi berganda dan multivariat dan (b) interpretasi hasil regresi multivariat, tetapi saya tidak dapat mengubah penggunaan model statistik multivariat dari semua informasi yang saya dapatkan online tentang mereka.
Pertanyaan saya adalah:
- Mengapa kita perlu regresi multivarian? Apa keuntungan dari mempertimbangkan hasil secara bersamaan daripada secara individu, untuk menarik kesimpulan.
- Kapan harus menggunakan model multivariat dan kapan harus menggunakan beberapa model univariat (untuk beberapa hasil).
- Ambil contoh yang diberikan di situs UCLA dengan tiga hasil: locus of control, konsep-diri, dan motivasi. Sehubungan dengan 1. dan 2., dapatkah kita membandingkan analisis ketika kita melakukan tiga regresi berganda univariat versus satu regresi berganda multivariat? Bagaimana cara membenarkan satu sama lain?
- Saya belum menemukan banyak makalah ilmiah yang menggunakan model statistik multivariat. Apakah ini karena asumsi normalitas multivariat, kompleksitas pemasangan model / interpretasi atau alasan spesifik lainnya?
Jawaban:
Apakah Anda membaca contoh lengkap di situs UCLA yang Anda tautkan?
Mengenai 1:
Menggunakan model multivariat membantu Anda (secara formal, inferensial) membandingkan koefisien di seluruh hasil.
Dalam contoh terkait, mereka menggunakan model multivariat untuk menguji apakah
write
koefisien berbeda secara signifikan untuklocus_of_control
hasil vs untukself_concept
hasil. Saya bukan psikolog, tetapi mungkin menarik untuk bertanya apakah kemampuan menulis Anda memengaruhi / memprediksi dua variabel psikis yang berbeda dengan cara yang sama. (Atau, jika kami tidak percaya nol, masih menarik untuk bertanya apakah Anda telah mengumpulkan cukup data untuk menunjukkan dengan meyakinkan bahwa efeknya benar-benar berbeda.)Jika Anda menjalankan analisis univariat terpisah, akan lebih sulit untuk membandingkan
write
Koefisien di kedua model. Kedua estimasi akan berasal dari dataset yang sama, sehingga keduanya akan dikorelasikan. Model multivariat memperhitungkan korelasi ini.Juga, tentang 4:
Ada yang beberapa model multivariat sangat umum-digunakan, seperti Tindakan berulang ANOVA . Dengan desain studi yang sesuai, bayangkan Anda memberikan masing-masing beberapa obat untuk setiap pasien, dan mengukur kesehatan setiap pasien setelah setiap obat. Atau bayangkan Anda mengukur hasil yang sama dari waktu ke waktu, seperti dengan data longitudinal, katakan ketinggian anak-anak dari waktu ke waktu. Kemudian Anda memiliki beberapa hasil untuk setiap unit (bahkan ketika itu hanya pengulangan dari jenis pengukuran yang "sama"). Anda mungkin ingin melakukan setidaknya beberapa kontras sederhana: membandingkan efek obat A vs obat B, atau efek rata-rata obat A dan B vs plasebo. Untuk ini, Tindakan Berulang ANOVA adalah model / analisis statistik multivariat yang sesuai.
sumber
write
koefisien misalnya) akan dikorelasikan dan model multivariat menyumbang yang sama. Di sinilah saya ingin mendapatkan lebih banyak pemahaman. locus_of_control dan self_concept dapat digabung menjadi ukuran tunggal menggunakan analisis faktor atau teknik lain dan ukuran yang dihasilkan dapat dimodelkan, jika ada motivasi yang sesuai. Jika keduanya mengukur dua psyc berbeda. fenomena, apa yang kita dapatkan dengan memodelkannya secara bersamaan?Pikirkan semua kesimpulan yang salah dan terkadang berbahaya yang datang dari sekadar mengalikan probabilitas, peristiwa berpikir itu independen. Karena semua yang dibangun dalam perlindungan berlebihan, kami menempatkan ahli pembangkit listrik tenaga nuklir kami menggunakan asumsi independensi memberi tahu kami bahwa kemungkinan kecelakaan nuklir besar sangat kecil. Tetapi seperti yang kita lihat di Three Mile Island, manusia membuat kesalahan yang berkorelasi terutama ketika mereka panik karena satu kesalahan awal yang dengan cepat dapat memperparah dirinya. Mungkin sulit untuk membangun model multivariat yang realistis yang menjadi ciri perilaku manusia tetapi menyadari efek dari model yang mengerikan (kesalahan independen) jelas.
Ada banyak contoh lain yang mungkin. Saya akan mengambil bencana Shuttle Challenger sebagai contoh lain yang mungkin. Pertanyaannya adalah apakah akan diluncurkan atau tidak dalam kondisi suhu rendah. Ada beberapa data yang menunjukkan bahwa cincin-O bisa gagal pada suhu rendah. Tetapi tidak ada banyak data dari misi yang lulus untuk menjelaskan seberapa tinggi risikonya. NASA selalu memperhatikan keselamatan para astronot dan banyak redudansi direkayasa ke dalam pesawat ruang angkasa dan meluncurkan kendaraan untuk membuat misi aman.
Namun sebelum tahun 1986 ada beberapa kegagalan sistem dan kegagalan dekat mungkin karena tidak mengidentifikasi semua mode kegagalan yang mungkin (tugas yang sulit). Pemodelan reliabilitas adalah bisnis yang sulit. Tapi itu cerita lain. Dalam kasus pesawat ulang-alik, pabrikan cincin-o (Morton Thiokol) telah melakukan beberapa pengujian cincin-o yang mengindikasikan kemungkinan kegagalan pada suhu rendah.
Tetapi data pada sejumlah misi memang menunjukkan beberapa hubungan antara suhu dan kegagalan tetapi karena redundansi membuat beberapa administrator berpikir bahwa kegagalan o-ring tidak akan terjadi, mereka menekan NASA untuk meluncurkan.
Tentu saja ada banyak faktor lain yang menyebabkan keputusan itu. Ingat bagaimana Presiden Reagan sangat ingin menempatkan seorang guru di luar angkasa sehingga menunjukkan bahwa sekarang sudah cukup aman sehingga orang - orang biasa yang bukan astronot dapat dengan aman bepergian dengan pesawat ulang-alik. Jadi tekanan politik adalah faktor besar lain yang mempengaruhi keputusan tersebut. Dalam hal ini dengan data yang cukup dan model multivariat risiko dapat ditunjukkan dengan lebih baik. NASA menggunakan untuk mencoba berbuat salah di sisi hati-hati. Dalam kasus ini menunda peluncuran selama beberapa hari sampai cuaca menghangat di Florida akan lebih bijaksana.
Komisi, insinyur, ilmuwan, dan ahli statistik pascabencana melakukan banyak analisis dan makalah diterbitkan. Pandangan mereka mungkin berbeda dari pandangan saya. Edward Tufte menunjukkan dalam salah satu seri bukunya tentang grafik bahwa grafik yang bagus mungkin lebih meyakinkan. Tetapi pada akhirnya meskipun semua analisis ini memiliki manfaat, saya pikir politik masih akan menang.
Moral dari kisah-kisah ini bukanlah bahwa bencana-bencana ini memotivasi penggunaan metode multivariat, melainkan bahwa analisis yang buruk yang mengabaikan ketergantungan kadang-kadang menyebabkan perkiraan risiko yang terlalu rendah. Ini dapat menyebabkan kepercayaan berlebihan yang bisa berbahaya. Seperti yang ditunjukkan jwimberley dalam komentar pertama di utas ini, "Model univariat terpisah mengabaikan korelasi."
sumber
Pertimbangkan kutipan ini dari hal. 36 dari buku Darcy Olsen, The Right to Try [1]:
Ibu Max, Jenn, sedang membangun gambaran yang koheren tentang perbaikannya, dengan mengumpulkan bukti dari berbagai hasil yang secara individual dapat dianggap sebagai 'suara bising', tetapi itu secara bersama - sama cukup menarik. ( Prinsip sintesis bukti ini adalah bagian dari alasan dokter anak sebagai aturan tidak pernah menolak kesimpulan naluriah orang tua bahwa "ada sesuatu yang salah dengan anak saya." Orang tua memiliki akses ke 'analisis longitudinal multivariat' dari anak-anak mereka yang jauh lebih kaya daripada 'oligovariat' analisis cross-sectional dapat diakses oleh dokter selama pertemuan klinis tunggal yang singkat.)
Mencapai sintesis bukti semacam itu adalah dasar pemikiran untuk analisis hasil multivariat dalam uji klinis. Metode Statistik dalam Penelitian Medis memiliki masalah khusus beberapa tahun yang lalu [2] yang ditujukan untuk 'Joint Modeling' hasil multivariat.
sumber
Mari kita membuat analogi sederhana, karena hanya itu yang bisa saya coba sumbangkan. Alih-alih regresi univariat versus multivariat, mari pertimbangkan distribusi univariat (marginal) versus multivariat (bersama). Katakanlah saya memiliki data berikut dan saya ingin menemukan "pencilan". Sebagai pendekatan pertama, saya mungkin menggunakan dua distribusi marjinal ("univariat") dan menggambar garis pada 2,5% lebih rendah dan 2,5% masing-masing secara terpisah. Poin yang berada di luar garis yang dihasilkan dianggap outlier.
Tetapi dua hal: 1) apa yang kita pikirkan tentang titik-titik yang berada di luar garis untuk satu sumbu tetapi di dalam garis untuk sumbu lainnya? Apakah mereka "outlier parsial" atau sesuatu? Dan 2) kotak yang dihasilkan tidak terlihat seperti benar-benar melakukan apa yang kita inginkan. Alasannya, tentu saja, kedua variabel tersebut berkorelasi, dan apa yang kita inginkan secara intuitif adalah menemukan outlier yang tidak biasa mengingat variabel dalam kombinasi.
Dalam hal ini, kita melihat distribusi bersama, dan saya telah memberi kode warna pada titik-titik dengan apakah jarak Mahalanobis mereka dari pusat berada di dalam 5% atas atau tidak. Titik hitam lebih terlihat seperti outlier, meskipun beberapa outlier berada di dalam kedua set garis hijau dan beberapa non outlier (merah) berada di luar kedua set garis hijau.
Dalam kedua kasus, kami membatasi 95% versus 5%, tetapi teknik kedua bertanggung jawab untuk distribusi bersama. Saya percaya regresi multivariat seperti ini, di mana Anda mengganti "regresi" untuk "distribusi". Saya tidak sepenuhnya mendapatkannya, dan tidak perlu (yang saya pahami) untuk melakukan regresi multivariat sendiri, tetapi ini adalah cara saya berpikir tentang hal itu.
[Analogi ini memiliki masalah: jarak Mahalanobis mengurangi dua variabel menjadi satu angka - sesuatu seperti cara regresi univariat mengambil satu set variabel independen dan dapat, dengan teknik yang tepat, memperhitungkan kovarian di antara variabel independen, dan hasil dalam variabel dependen tunggal - sementara hasil regresi multivariat dalam beberapa variabel dependen. Jadi ini semacam mundur, tapi mudah-mudahan ke depan-cukup untuk memberikan intuisi.]
sumber
1) Alam tidak selalu sederhana. Faktanya, sebagian besar fenomena (hasil) yang kita pelajari bergantung pada banyak variabel, dan secara kompleks. Model inferensial berdasarkan pada satu variabel pada suatu waktu kemungkinan besar akan memiliki bias yang tinggi.
2) Model univariat adalah model paling sederhana yang dapat Anda buat, menurut definisi. Tidak masalah jika Anda sedang menyelidiki masalah untuk pertama kalinya, dan Anda ingin memahami satu-satunya fitur yang paling penting. Tetapi jika Anda menginginkan pemahaman yang lebih dalam tentang itu, suatu pemahaman yang sebenarnya dapat Anda manfaatkan karena Anda memercayai apa yang Anda lakukan, Anda akan menggunakan analisis multivariat. Dan di antara yang multivarian, Anda harus memilih yang mengerti pola korelasi, jika Anda peduli dengan akurasi model.
3) Maaf tidak ada waktu untuk membaca ini.
4) Kertas menggunakan teknik multivariat sangat umum hari ini - bahkan sangat umum di beberapa bidang. Pada percobaan CERN menggunakan data Large Hadron Collider (untuk mengambil contoh dari fisika partikel) lebih dari setengah dari ratusan makalah yang diterbitkan setiap tahun menggunakan teknik multivariat dengan satu atau lain cara.
https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0
sumber
Jawaban saya tergantung pada apa yang ingin Anda lakukan dengan regresi. Jika Anda mencoba membandingkan efek dari koefisien yang berbeda, maka regresi mungkin bukan alat yang tepat untuk Anda. Jika Anda mencoba membuat prediksi menggunakan koefisien berbeda yang telah Anda buktikan independen, maka mungkin regresi berganda adalah yang harus Anda gunakan.
Apakah faktor-faktor tersebut berkorelasi? Jika demikian, regresi multivarian dapat memberi Anda model yang buruk dan Anda harus menggunakan metode seperti VIF atau regresi ridge untuk memangkas korelasi silang. Anda tidak boleh membandingkan koefisien sampai faktor-faktor yang berkorelasi silang dihilangkan. Melakukan hal itu akan menyebabkan bencana. Jika mereka tidak berkorelasi silang, maka koefisien multivariat harus sebanding dengan koefisien univariat, dan ini seharusnya tidak mengejutkan.
Hasilnya mungkin juga tergantung pada paket perangkat lunak yang Anda gunakan. Saya tidak bercanda. Paket perangkat lunak yang berbeda memiliki metode yang berbeda untuk menghitung regresi multivariat. (Jangan percaya padaku? Lihat bagaimana paket regresi R standar menghitung R 2 dengan dan tanpa memaksa asal sebagai intersep. Rahang Anda harus menyentuh lantai.) Anda perlu memahami bagaimana paket perangkat lunak melakukan regresi. Bagaimana cara mengimbangi korelasi silang? Apakah itu menjalankan solusi sekuensial atau matriks? Saya pernah frustrasi dengan ini di masa lalu. Saya sarankan untuk melakukan regresi berganda pada paket perangkat lunak yang berbeda dan lihat apa yang Anda dapatkan.
Contoh bagus lainnya di sini:
Ada begitu banyak jebakan yang menggunakan regresi berganda sehingga saya mencoba untuk tidak menggunakannya. Jika Anda menggunakannya, berhati-hatilah dengan hasilnya dan periksa kembali. Anda harus selalu memplot data secara visual untuk memverifikasi korelasinya. (Hanya karena program perangkat lunak Anda mengatakan tidak ada korelasi, tidak berarti tidak ada korelasi . Korelasi yang Menarik ) Selalu periksa hasil Anda terhadap akal sehat. Jika satu faktor menunjukkan korelasi kuat dalam regresi univariat, tetapi tidak ada dalam multivariat, Anda perlu memahami alasannya sebelum membagikan hasilnya (faktor gender di atas adalah contoh yang baik).
sumber