Apakah ada perbedaan antara 'mengendalikan untuk' dan 'mengabaikan' variabel lain dalam regresi berganda?

50

Koefisien variabel penjelas dalam regresi berganda memberi tahu kita hubungan variabel penjelas dengan variabel terikat. Semua ini, sambil 'mengendalikan' untuk variabel penjelas lainnya.

Bagaimana saya melihatnya sejauh ini:

Sementara masing-masing koefisien sedang dihitung, variabel-variabel lain tidak diperhitungkan, jadi saya menganggap mereka diabaikan.

Jadi apakah saya benar ketika saya berpikir bahwa istilah 'dikontrol' dan 'diabaikan' dapat digunakan secara bergantian?

Siddharth Gopi
sumber
2
Saya tidak begitu tertarik dengan pertanyaan ini sampai saya melihat dua orang yang menginspirasi @gung untuk Anda tawarkan.
DWin
1
Anda tidak mengetahui percakapan yang kami lakukan di tempat lain yang memotivasi pertanyaan ini, @DWin. Terlalu banyak untuk mencoba menjelaskan ini dalam komentar, jadi saya meminta OP untuk membuatnya menjadi pertanyaan formal. Saya benar-benar berpikir secara eksplisit mengeluarkan perbedaan b / t mengabaikan & mengendalikan variabel lain dalam regresi adalah pertanyaan yang bagus, & saya senang itu dibahas di sini.
gung - Reinstate Monica
2
lihat juga diagram pertama di sini
Glen_b
1
Apakah data yang digunakan dalam pertanyaan ini tersedia sehingga kami dapat menjalankannya sendiri sebagai sampel yang mendidik.
Larry

Jawaban:

88

YX1X2YX1

  1. X1YX2
    Y=β0+β1X1+β2X2
  2. X1Y X2

    Y=β0+β1X1

X1Yβ^1X1X2

masukkan deskripsi gambar di sini

X1X2X2X2 X2X2X2=1X2=2X2=3X1YX2 X2

masukkan deskripsi gambar di sini

Cara lain untuk berpikir tentang perbedaan antara mengabaikan dan mengendalikan variabel lain, adalah dengan mempertimbangkan perbedaan antara distribusi marginal dan distribusi kondisional . Pertimbangkan gambar ini:

masukkan deskripsi gambar di sini

( Ini diambil dari jawaban saya di sini: Apa intuisi di balik distribusi bersyarat Gaussian? )

YYXYX1=25X1=45X1

gung - Reinstate Monica
sumber
2
Gung, ini mencerahkan, saya senang saya membuat kesalahan dengan menggunakan kata 'abaikan' dalam jawaban saya untuk pertanyaan itu. Sekarang saya akan mencoba mencari tahu bagaimana tepatnya paket statistik 'mengontrol' untuk variabel lain. (Pikiran pertama saya adalah mereka menggunakan beberapa ukuran seperti koefisien korelasi pearson. Dengan banyak variabel penjelas, semuanya akan menjadi berantakan) Terima kasih atas jawaban ini!
Siddharth Gopi
1
Sama-sama, @garciaj, meskipun saya belum selesai ;-). Saya mencari sosok lain; Saya mungkin harus membuatnya dari awal.
gung - Reinstate Monica
4
Gagasan penting dalam gambar pertama adalah bahwa titik-titik itu terletak di ruang tiga dimensi, dengan lingkaran merah di bidang datar di layar komputer, segitiga biru di bidang paralel sedikit di depan layar & hijau plus di pesawat sedikit di depan itu. Bidang regresi miring ke bawah ke kanan, tetapi miring ke atas saat bergerak keluar dari layar ke arah Anda. Perhatikan bahwa fenomena ini terjadi karena X1 & X2 berkorelasi, jika tidak berkorelasi, perkiraan beta akan sama.
gung - Reinstate Monica
1
Dan korelasi semacam ini di antara para prediktor (misalnya, skenario @ung) adalah apa yang biasanya mendasari kasus paradoks Simpson . Di alam semesta dengan lebih dari tiga variabel, adalah bijaksana untuk mengingat bahwa itu mungkin mengintai inferensi Anda (d'oh!).
FairMiles
2
@ MSIS, ketika Anda mengontrol variabel dalam model, model mencoba untuk membuatnya konstan (tetap) demi memperkirakan segala sesuatu yang lain dalam model. Namun, ini hanya upaya & tunduk pada kesalahan acak, jadi itu tidak selalu identik dengan apa yang akan Anda dapatkan jika Anda menjalankan studi dengan variabel yang secara fisik tetap pada nilai yang diberikan.
gung - Reinstate Monica
8

Mereka tidak diabaikan. Jika mereka 'diabaikan' mereka tidak akan berada dalam model. Estimasi variabel penjelas bunga tergantung pada variabel lainnya. Perkiraan dibentuk "dalam konteks" atau "memungkinkan dampak" variabel-variabel lain dalam model.

DWIN
sumber
Estimasi ini tentu saja tunduk pada variabel lain. Tetapi kita harus memurnikannya dengan memperkenalkan apa yang disebut faktor-faktor lain dalam model. Namun, kadang-kadang faktor-faktor ini mungkin bersifat kategoris dan menyebabkan lebih banyak masalah daripada memberikan solusi yang valid.
Subhash C. Davar