Mengapa kita perlu regresi multivariat (bukan sekelompok regresi univariat)?

28

Saya baru saja melihat-lihat buku yang luar biasa ini: Analisis statistik multivariat terapan oleh Johnson dan Wichern . Ironisnya, saya masih belum dapat memahami motivasi untuk menggunakan model multivariat (regresi) daripada model univariat terpisah (regresi). Saya membaca stats.statexchange posting 1 dan 2 yang menjelaskan (a) perbedaan antara regresi berganda dan multivariat dan (b) interpretasi hasil regresi multivariat, tetapi saya tidak dapat mengubah penggunaan model statistik multivariat dari semua informasi yang saya dapatkan online tentang mereka.

Pertanyaan saya adalah:

  1. Mengapa kita perlu regresi multivarian? Apa keuntungan dari mempertimbangkan hasil secara bersamaan daripada secara individu, untuk menarik kesimpulan.
  2. Kapan harus menggunakan model multivariat dan kapan harus menggunakan beberapa model univariat (untuk beberapa hasil).
  3. Ambil contoh yang diberikan di situs UCLA dengan tiga hasil: locus of control, konsep-diri, dan motivasi. Sehubungan dengan 1. dan 2., dapatkah kita membandingkan analisis ketika kita melakukan tiga regresi berganda univariat versus satu regresi berganda multivariat? Bagaimana cara membenarkan satu sama lain?
  4. Saya belum menemukan banyak makalah ilmiah yang menggunakan model statistik multivariat. Apakah ini karena asumsi normalitas multivariat, kompleksitas pemasangan model / interpretasi atau alasan spesifik lainnya?
Karthik
sumber
18
Model univariat terpisah mengabaikan korelasi.
jwimberley
3
Ya ada banyak fenomena di dunia yang tidak dapat dimodelkan oleh variabel acak independen.
Michael R. Chernick
2
@ jwimberley Bisakah Anda memperluas konsekuensi mengabaikan korelasi ini dalam jawaban?
Jake Westfall
2
Hanya catatan pada judul: pengurangan dimensionalitas (PCA, analisis faktor, metode nonlinier, dll) dan pengelompokan juga biasanya dianggap sebagai metode "multivarian". Tampaknya pertanyaan Anda berfokus secara khusus pada regresi multivarian (vs sekelompok regresi univariat), jadi saya sarankan Anda memasukkannya langsung ke judul Anda. +1 btw.
Amoeba berkata Reinstate Monica
2
Contoh sederhana tentang bagaimana MANOVA dapat bermanfaat sebagai lawan ANOVA: stats.stackexchange.com/questions/129123 . Situasi sebaliknya di mana MANOVA masih menguntungkan tetapi karena alasan yang berbeda: stats.stackexchange.com/questions/61921 . Jadi MANOVA dapat: (i) memberi lebih banyak daya, (ii) mengendalikan tingkat kesalahan keseluruhan.
Amuba mengatakan Reinstate Monica

Jawaban:

22

Apakah Anda membaca contoh lengkap di situs UCLA yang Anda tautkan?

Mengenai 1:
Menggunakan model multivariat membantu Anda (secara formal, inferensial) membandingkan koefisien di seluruh hasil.
Dalam contoh terkait, mereka menggunakan model multivariat untuk menguji apakah writekoefisien berbeda secara signifikan untuk locus_of_controlhasil vs untuk self_concepthasil. Saya bukan psikolog, tetapi mungkin menarik untuk bertanya apakah kemampuan menulis Anda memengaruhi / memprediksi dua variabel psikis yang berbeda dengan cara yang sama. (Atau, jika kami tidak percaya nol, masih menarik untuk bertanya apakah Anda telah mengumpulkan cukup data untuk menunjukkan dengan meyakinkan bahwa efeknya benar-benar berbeda.)
Jika Anda menjalankan analisis univariat terpisah, akan lebih sulit untuk membandingkanwriteKoefisien di kedua model. Kedua estimasi akan berasal dari dataset yang sama, sehingga keduanya akan dikorelasikan. Model multivariat memperhitungkan korelasi ini.

Juga, tentang 4:
Ada yang beberapa model multivariat sangat umum-digunakan, seperti Tindakan berulang ANOVA . Dengan desain studi yang sesuai, bayangkan Anda memberikan masing-masing beberapa obat untuk setiap pasien, dan mengukur kesehatan setiap pasien setelah setiap obat. Atau bayangkan Anda mengukur hasil yang sama dari waktu ke waktu, seperti dengan data longitudinal, katakan ketinggian anak-anak dari waktu ke waktu. Kemudian Anda memiliki beberapa hasil untuk setiap unit (bahkan ketika itu hanya pengulangan dari jenis pengukuran yang "sama"). Anda mungkin ingin melakukan setidaknya beberapa kontras sederhana: membandingkan efek obat A vs obat B, atau efek rata-rata obat A dan B vs plasebo. Untuk ini, Tindakan Berulang ANOVA adalah model / analisis statistik multivariat yang sesuai.

civilstat
sumber
1
Anda memberi jawaban yang bagus. Saya benar-benar sadar bahwa ada dunia contoh dan argumen lain yang bisa dibuat. Saya suka bahwa Anda mengambil informasi dari tautan UCLA untuk menampilkan OP. Terus terang saya awalnya tersinggung oleh pertanyaan itu tetapi saya memutuskan untuk memberikan jawaban ketika saya menyadari bahwa OP dengan tulus ingin argumen yang baik di sini dan tidak mendorong gagasan untuk mengabaikan metode multivariat. Pilihan saya adalah untuk menunjukkan contoh-contoh di mana mengabaikan korelasi memiliki hasil yang sangat buruk dan fatal.
Michael R. Chernick
1
Saya menyambut jawaban Anda dan semoga jawaban yang dipikirkan dengan lebih baik akan membuat ini menjadi utas yang berharga.
Michael R. Chernick
Terima kasih atas jawaban Anda, @civilstat. Pada poin 1, jika kami menjalankan dua model univariat independen, Anda telah menyebutkan bahwa koefisien variabel input (untuk writekoefisien misalnya) akan dikorelasikan dan model multivariat menyumbang yang sama. Di sinilah saya ingin mendapatkan lebih banyak pemahaman. locus_of_control dan self_concept dapat digabung menjadi ukuran tunggal menggunakan analisis faktor atau teknik lain dan ukuran yang dihasilkan dapat dimodelkan, jika ada motivasi yang sesuai. Jika keduanya mengukur dua psyc berbeda. fenomena, apa yang kita dapatkan dengan memodelkannya secara bersamaan?
KarthikS
2
@ManuelFazio Lihat kalimat berikutnya di situs UCLA: "Jadi mengapa melakukan regresi multivariat? Seperti yang kami sebutkan sebelumnya, salah satu keuntungan menggunakan mvreg adalah Anda dapat melakukan tes koefisien di seluruh variabel hasil yang berbeda." Jika Anda menjalankan regresi terpisah, Anda akan mendapatkan koefisien dan SE yang sama untuk setiap hasil , tetapi Anda tidak akan mendapatkan estimasi korelasi antara koefisien di seluruh hasil . Anda akan memerlukan korelasi ini jika, misalnya, Anda ingin mendapatkan CI untuk perbedaan dalam koefisien baca untuk hasil motivasi vs hasil self_concept.
civilstat
1
@civilstat Ah, memalukan bagi saya, asumsi independensi begitu tertanam dalam pikiran saya sehingga tidak berbunyi setelah saya membaca kalimat itu. Terima kasih atas penjelasan yang diperluas!
zipzapboing
11

Pikirkan semua kesimpulan yang salah dan terkadang berbahaya yang datang dari sekadar mengalikan probabilitas, peristiwa berpikir itu independen. Karena semua yang dibangun dalam perlindungan berlebihan, kami menempatkan ahli pembangkit listrik tenaga nuklir kami menggunakan asumsi independensi memberi tahu kami bahwa kemungkinan kecelakaan nuklir besar sangat kecil. Tetapi seperti yang kita lihat di Three Mile Island, manusia membuat kesalahan yang berkorelasi terutama ketika mereka panik karena satu kesalahan awal yang dengan cepat dapat memperparah dirinya. Mungkin sulit untuk membangun model multivariat yang realistis yang menjadi ciri perilaku manusia tetapi menyadari efek dari model yang mengerikan (kesalahan independen) jelas.

Ada banyak contoh lain yang mungkin. Saya akan mengambil bencana Shuttle Challenger sebagai contoh lain yang mungkin. Pertanyaannya adalah apakah akan diluncurkan atau tidak dalam kondisi suhu rendah. Ada beberapa data yang menunjukkan bahwa cincin-O bisa gagal pada suhu rendah. Tetapi tidak ada banyak data dari misi yang lulus untuk menjelaskan seberapa tinggi risikonya. NASA selalu memperhatikan keselamatan para astronot dan banyak redudansi direkayasa ke dalam pesawat ruang angkasa dan meluncurkan kendaraan untuk membuat misi aman.

Namun sebelum tahun 1986 ada beberapa kegagalan sistem dan kegagalan dekat mungkin karena tidak mengidentifikasi semua mode kegagalan yang mungkin (tugas yang sulit). Pemodelan reliabilitas adalah bisnis yang sulit. Tapi itu cerita lain. Dalam kasus pesawat ulang-alik, pabrikan cincin-o (Morton Thiokol) telah melakukan beberapa pengujian cincin-o yang mengindikasikan kemungkinan kegagalan pada suhu rendah.

Tetapi data pada sejumlah misi memang menunjukkan beberapa hubungan antara suhu dan kegagalan tetapi karena redundansi membuat beberapa administrator berpikir bahwa kegagalan o-ring tidak akan terjadi, mereka menekan NASA untuk meluncurkan.

Tentu saja ada banyak faktor lain yang menyebabkan keputusan itu. Ingat bagaimana Presiden Reagan sangat ingin menempatkan seorang guru di luar angkasa sehingga menunjukkan bahwa sekarang sudah cukup aman sehingga orang - orang biasa yang bukan astronot dapat dengan aman bepergian dengan pesawat ulang-alik. Jadi tekanan politik adalah faktor besar lain yang mempengaruhi keputusan tersebut. Dalam hal ini dengan data yang cukup dan model multivariat risiko dapat ditunjukkan dengan lebih baik. NASA menggunakan untuk mencoba berbuat salah di sisi hati-hati. Dalam kasus ini menunda peluncuran selama beberapa hari sampai cuaca menghangat di Florida akan lebih bijaksana.

Komisi, insinyur, ilmuwan, dan ahli statistik pascabencana melakukan banyak analisis dan makalah diterbitkan. Pandangan mereka mungkin berbeda dari pandangan saya. Edward Tufte menunjukkan dalam salah satu seri bukunya tentang grafik bahwa grafik yang bagus mungkin lebih meyakinkan. Tetapi pada akhirnya meskipun semua analisis ini memiliki manfaat, saya pikir politik masih akan menang.

Moral dari kisah-kisah ini bukanlah bahwa bencana-bencana ini memotivasi penggunaan metode multivariat, melainkan bahwa analisis yang buruk yang mengabaikan ketergantungan kadang-kadang menyebabkan perkiraan risiko yang terlalu rendah. Ini dapat menyebabkan kepercayaan berlebihan yang bisa berbahaya. Seperti yang ditunjukkan jwimberley dalam komentar pertama di utas ini, "Model univariat terpisah mengabaikan korelasi."

Michael R. Chernick
sumber
Terima kasih atas contoh luar biasa Anda, @MichaelChernick. Asumsi kemerdekaan menjadi perhatian, saya mengerti. Saya lebih ingin tahu tentang hubungan antar hasil dan kebutuhan untuk memodelkannya secara bersamaan.
KarthikS
Mari kita ambil sendiri contoh bencana pesawat ulang-alik Challenger. Di sini hasil univariat adalah biner - apakah aman atau tidak untuk meluncurkan pesawat ulang-alik. Pertimbangkan model yang mencoba melakukan banyak hal, seperti memprediksi keselamatan, mengukur penyimpangan lintasan dan memprediksi tekanan dalam ruangan untuk pesawat ulang-alik. Salah satu pendekatan mungkin untuk membangun model terpisah untuk masing-masing dari mereka, dan yang lainnya dapat mempertimbangkan untuk satu-untuk-semua model yang tidak hanya mencoba untuk menangkap efek input (suhu, kelembaban, dll), tetapi juga memeriksa secara simultan efek pada hasil.
KarthikS
1
Terima kasih @MichaelChernick. Saya tidak yakin apakah saya sepenuhnya memahami argumen Anda. Saya memahami bahwa banyak dari kita menggunakan regresi univariat dan multivariat untuk regresi linier sederhana dengan input tunggal dan lebih dari satu variabel input (di mana efek simultan lebih dari satu input diperiksa dalam hal ini). Tetapi saya telah membingkai pertanyaan ini untuk model dengan satu hasil (univariat) atau lebih dari satu hasil (multivarian). Jika kasing Challenger tidak merujuk ke kasing kasus hasil multivarian, dapatkah Anda menyinggung kasing yang valid. Terima kasih telah melanjutkan diskusi.
KarthikS
Saya terkejut bahwa Anda telah memberi hadiah pada pertanyaan ini. Bounty lebih sering dilakukan ketika telah menerima sedikit komentar dan jika itu berisi jawaban mereka tidak mencakup beberapa aspek penting dari pertanyaan. Utas ini memiliki tiga jawaban bagus dan banyak komentar (juga benar-benar bagus seperti yang pertama dari jwimberley
Michael R. Chernick
Saya tidak yakin apa lagi yang Anda inginkan. Pertanyaannya sangat luas dan sepertinya lebih merupakan diskusi daripada teknis. Bagi saya hampir seperti Anda mencoba membuat seseorang mengatakan analisis univariat saja tidak apa-apa dalam situasi yang kompleks. Saya tidak akan mencoba untuk mendapatkan hadiah dan akan menarik untuk melihat dalam tujuh hari ke depan siapa pun yang mencobanya dan jika mereka melakukannya Anda akan menerimanya. Bencana Challenger dapat dilihat sebagai hasil univariat tetapi saya tidak berpikir dengan imajinasi apa pun dapat dijawab secara menyeluruh dengan metode univariat saja.
Michael R. Chernick
7

Pertimbangkan kutipan ini dari hal. 36 dari buku Darcy Olsen, The Right to Try [1]:

Tetapi sekitar enam belas minggu setelah infus [eteplirsen] dimulai, Jenn mulai memperhatikan perubahan pada [putranya] Max. "Anak itu berhenti ingin menggunakan kursi rodanya," katanya. Beberapa minggu kemudian, dia meminta untuk bermain di luar - sesuatu yang tidak pernah dia lakukan selama bertahun-tahun. Kemudian Max mulai mendapatkan kembali keterampilan motorik halusnya. Dia bisa membuka wadah lagi - keterampilan yang telah hilang ketika [distrofi otot Duchenne] telah berkembang.

Ibu Max, Jenn, sedang membangun gambaran yang koheren tentang perbaikannya, dengan mengumpulkan bukti dari berbagai hasil yang secara individual dapat dianggap sebagai 'suara bising', tetapi itu secara bersama - sama cukup menarik. ( Prinsip sintesis bukti ini adalah bagian dari alasan dokter anak sebagai aturan tidak pernah menolak kesimpulan naluriah orang tua bahwa "ada sesuatu yang salah dengan anak saya." Orang tua memiliki akses ke 'analisis longitudinal multivariat' dari anak-anak mereka yang jauh lebih kaya daripada 'oligovariat' analisis cross-sectional dapat diakses oleh dokter selama pertemuan klinis tunggal yang singkat.)

p>0.05

Mencapai sintesis bukti semacam itu adalah dasar pemikiran untuk analisis hasil multivariat dalam uji klinis. Metode Statistik dalam Penelitian Medis memiliki masalah khusus beberapa tahun yang lalu [2] yang ditujukan untuk 'Joint Modeling' hasil multivariat.

  1. Olsen, Darcy. Hak untuk Mencoba: Bagaimana Pemerintah Federal Mencegah Orang Amerika Mendapatkan Perawatan yang Menyelamatkan Nyawa yang Mereka Butuhkan. Edisi pertama. New York, NY: Harper, cetakan HarperCollins Publishers, 2015.
  2. Rizopoulos, Dimitris, dan Emmanuel Lesaffre. "Pengantar Masalah Khusus tentang Teknik Model Bersama." Metode Statistik dalam Penelitian Medis 23, no. 1 (1 Februari 2014): 3–10. doi: 10.1177 / 0962280212445800.
David C. Norris
sumber
6

Mari kita membuat analogi sederhana, karena hanya itu yang bisa saya coba sumbangkan. Alih-alih regresi univariat versus multivariat, mari pertimbangkan distribusi univariat (marginal) versus multivariat (bersama). Katakanlah saya memiliki data berikut dan saya ingin menemukan "pencilan". Sebagai pendekatan pertama, saya mungkin menggunakan dua distribusi marjinal ("univariat") dan menggambar garis pada 2,5% lebih rendah dan 2,5% masing-masing secara terpisah. Poin yang berada di luar garis yang dihasilkan dianggap outlier.

Tetapi dua hal: 1) apa yang kita pikirkan tentang titik-titik yang berada di luar garis untuk satu sumbu tetapi di dalam garis untuk sumbu lainnya? Apakah mereka "outlier parsial" atau sesuatu? Dan 2) kotak yang dihasilkan tidak terlihat seperti benar-benar melakukan apa yang kita inginkan. Alasannya, tentu saja, kedua variabel tersebut berkorelasi, dan apa yang kita inginkan secara intuitif adalah menemukan outlier yang tidak biasa mengingat variabel dalam kombinasi.

Dalam hal ini, kita melihat distribusi bersama, dan saya telah memberi kode warna pada titik-titik dengan apakah jarak Mahalanobis mereka dari pusat berada di dalam 5% atas atau tidak. Titik hitam lebih terlihat seperti outlier, meskipun beberapa outlier berada di dalam kedua set garis hijau dan beberapa non outlier (merah) berada di luar kedua set garis hijau.

Dalam kedua kasus, kami membatasi 95% versus 5%, tetapi teknik kedua bertanggung jawab untuk distribusi bersama. Saya percaya regresi multivariat seperti ini, di mana Anda mengganti "regresi" untuk "distribusi". Saya tidak sepenuhnya mendapatkannya, dan tidak perlu (yang saya pahami) untuk melakukan regresi multivariat sendiri, tetapi ini adalah cara saya berpikir tentang hal itu.

[Analogi ini memiliki masalah: jarak Mahalanobis mengurangi dua variabel menjadi satu angka - sesuatu seperti cara regresi univariat mengambil satu set variabel independen dan dapat, dengan teknik yang tepat, memperhitungkan kovarian di antara variabel independen, dan hasil dalam variabel dependen tunggal - sementara hasil regresi multivariat dalam beberapa variabel dependen. Jadi ini semacam mundur, tapi mudah-mudahan ke depan-cukup untuk memberikan intuisi.]

masukkan deskripsi gambar di sini

Wayne
sumber
1
Saya suka ini. Saya akan menggunakan elips luar untuk mendefinisikan outlier. Seperti yang saya lihat ilustrasi Anda suatu titik bisa jauh dari rata-rata baik di arah x atau y tetapi masih berada dalam elips yang tidak jauh dari garis regresi.
Michael R. Chernick
3

1) Alam tidak selalu sederhana. Faktanya, sebagian besar fenomena (hasil) yang kita pelajari bergantung pada banyak variabel, dan secara kompleks. Model inferensial berdasarkan pada satu variabel pada suatu waktu kemungkinan besar akan memiliki bias yang tinggi.

2) Model univariat adalah model paling sederhana yang dapat Anda buat, menurut definisi. Tidak masalah jika Anda sedang menyelidiki masalah untuk pertama kalinya, dan Anda ingin memahami satu-satunya fitur yang paling penting. Tetapi jika Anda menginginkan pemahaman yang lebih dalam tentang itu, suatu pemahaman yang sebenarnya dapat Anda manfaatkan karena Anda memercayai apa yang Anda lakukan, Anda akan menggunakan analisis multivariat. Dan di antara yang multivarian, Anda harus memilih yang mengerti pola korelasi, jika Anda peduli dengan akurasi model.

3) Maaf tidak ada waktu untuk membaca ini.

4) Kertas menggunakan teknik multivariat sangat umum hari ini - bahkan sangat umum di beberapa bidang. Pada percobaan CERN menggunakan data Large Hadron Collider (untuk mengambil contoh dari fisika partikel) lebih dari setengah dari ratusan makalah yang diterbitkan setiap tahun menggunakan teknik multivariat dengan satu atau lain cara.

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0

famargar
sumber
Saya pikir Anda bermaksud mengatakan, model univariat adalah satu dengan hanya input dan multivariat adalah model dengan beberapa input. Pertanyaan saya adalah tentang beberapa hasil secara bersamaan dianalisis dalam model.
KarthikS
1
Anda mencampuradukkan regresi multivariat / univariat dengan regresi berganda / tunggal.
Firebug
1

Jawaban saya tergantung pada apa yang ingin Anda lakukan dengan regresi. Jika Anda mencoba membandingkan efek dari koefisien yang berbeda, maka regresi mungkin bukan alat yang tepat untuk Anda. Jika Anda mencoba membuat prediksi menggunakan koefisien berbeda yang telah Anda buktikan independen, maka mungkin regresi berganda adalah yang harus Anda gunakan.

Apakah faktor-faktor tersebut berkorelasi? Jika demikian, regresi multivarian dapat memberi Anda model yang buruk dan Anda harus menggunakan metode seperti VIF atau regresi ridge untuk memangkas korelasi silang. Anda tidak boleh membandingkan koefisien sampai faktor-faktor yang berkorelasi silang dihilangkan. Melakukan hal itu akan menyebabkan bencana. Jika mereka tidak berkorelasi silang, maka koefisien multivariat harus sebanding dengan koefisien univariat, dan ini seharusnya tidak mengejutkan.

Hasilnya mungkin juga tergantung pada paket perangkat lunak yang Anda gunakan. Saya tidak bercanda. Paket perangkat lunak yang berbeda memiliki metode yang berbeda untuk menghitung regresi multivariat. (Jangan percaya padaku? Lihat bagaimana paket regresi R standar menghitung R 2 dengan dan tanpa memaksa asal sebagai intersep. Rahang Anda harus menyentuh lantai.) Anda perlu memahami bagaimana paket perangkat lunak melakukan regresi. Bagaimana cara mengimbangi korelasi silang? Apakah itu menjalankan solusi sekuensial atau matriks? Saya pernah frustrasi dengan ini di masa lalu. Saya sarankan untuk melakukan regresi berganda pada paket perangkat lunak yang berbeda dan lihat apa yang Anda dapatkan.

Contoh bagus lainnya di sini:

Perhatikan bahwa dalam persamaan ini, koefisien regresi (atau koefisien B) mewakili kontribusi independen setiap variabel independen terhadap prediksi variabel dependen. Cara lain untuk mengungkapkan fakta ini adalah dengan mengatakan bahwa, misalnya, variabel X1 berkorelasi dengan variabel Y, setelah mengendalikan semua variabel independen lainnya. Jenis korelasi ini juga disebut sebagai korelasi parsial (istilah ini pertama kali digunakan oleh Yule, 1907). Mungkin contoh berikut akan menjelaskan masalah ini. Anda mungkin akan menemukan korelasi negatif yang signifikan antara panjang dan tinggi rambut dalam populasi (yaitu, orang pendek memiliki rambut lebih panjang). Pada awalnya ini mungkin tampak aneh; namun, jika kita menambahkan variabel Gender ke dalam persamaan regresi berganda, korelasi ini mungkin akan hilang. Ini karena wanita, rata-rata, memiliki rambut lebih panjang daripada pria; rata-rata mereka juga lebih pendek daripada pria. Dengan demikian, setelah kami menghapus perbedaan gender ini dengan memasukkan Jenis Kelamin ke dalam persamaan, hubungan antara panjang dan tinggi rambut menghilang karena panjang rambut tidak memberikan kontribusi unik terhadap prediksi ketinggian, di atas dan di luar apa yang dibagikan dalam prediksi dengan variabel Jenis Kelamin . Dengan kata lain, setelah mengendalikan Gender variabel, korelasi parsial antara panjang dan tinggi rambut adalah nol. hubungan antara panjang dan tinggi rambut menghilang karena panjang rambut tidak membuat kontribusi unik untuk prediksi tinggi, di atas dan di luar apa yang dibagikan dalam prediksi dengan Gender variabel. Dengan kata lain, setelah mengendalikan Gender variabel, korelasi parsial antara panjang dan tinggi rambut adalah nol. hubungan antara panjang dan tinggi rambut menghilang karena panjang rambut tidak membuat kontribusi unik untuk prediksi tinggi, di atas dan di luar apa yang dibagikan dalam prediksi dengan Gender variabel. Dengan kata lain, setelah mengendalikan Gender variabel, korelasi parsial antara panjang dan tinggi rambut adalah nol. http://www.statsoft.com/Textbook/Multiple-Regression

Ada begitu banyak jebakan yang menggunakan regresi berganda sehingga saya mencoba untuk tidak menggunakannya. Jika Anda menggunakannya, berhati-hatilah dengan hasilnya dan periksa kembali. Anda harus selalu memplot data secara visual untuk memverifikasi korelasinya. (Hanya karena program perangkat lunak Anda mengatakan tidak ada korelasi, tidak berarti tidak ada korelasi . Korelasi yang Menarik ) Selalu periksa hasil Anda terhadap akal sehat. Jika satu faktor menunjukkan korelasi kuat dalam regresi univariat, tetapi tidak ada dalam multivariat, Anda perlu memahami alasannya sebelum membagikan hasilnya (faktor gender di atas adalah contoh yang baik).

Maddenker
sumber
" Lihat bagaimana paket regresi R standar menghitung R2 dengan dan tanpa memaksa asal sebagai intersep. " Meskipun berpotensi membingungkan bagi mereka yang tidak mengharapkannya, apa yang dilakukan R dalam situasi itu adalah pendekatan standar yang diterapkan dalam setiap perangkat lunak statistik secara harfiah. paket tempat saya telah memeriksa ini.
Jake Westfall
Menarik. Saya telah melihat makalah yang diterbitkan dari analis yang tidak memahami perbedaan ini. Pernahkah Anda melihat diskusi online tentang topik yang bagus? Haruskah saya mengirimkan pertanyaan baru ke CV?
Maddenker