Apa efek dari memiliki prediktor yang berkorelasi dalam model regresi berganda?

45

Saya belajar di kelas model linier saya bahwa jika dua prediktor berkorelasi dan keduanya termasuk dalam model, satu akan tidak signifikan. Sebagai contoh, asumsikan ukuran rumah dan jumlah kamar tidur berkorelasi. Ketika memperkirakan biaya rumah menggunakan dua prediktor ini, salah satunya dapat dijatuhkan karena keduanya memberikan banyak informasi yang sama. Secara intuitif, ini masuk akal, tetapi saya memiliki beberapa pertanyaan teknis:

  1. Bagaimana efek ini memanifestasikan dirinya dalam nilai-p dari koefisien regresi ketika hanya memasukkan satu atau termasuk kedua prediktor dalam model?
  2. Bagaimana varians koefisien regresi dapat dipengaruhi dengan memasukkan kedua prediktor dalam model atau hanya memiliki satu?
  3. Bagaimana saya tahu prediktor mana model yang akan dipilih menjadi kurang signifikan?
  4. Bagaimana cara memasukkan hanya satu atau termasuk kedua prediktor mengubah nilai / varians dari perkiraan biaya saya?
Vivek Subramanian
sumber
6
Jawaban atas beberapa pertanyaan Anda telah muncul di utas lain, seperti di stats.stackexchange.com/a/14528 , yang menggambarkan situasi di mana setiap satu dari serangkaian hanya prediktor yang berkorelasi ringan tampaknya tidak signifikan meskipun mereka secara kolektif termasuk di dalamnya. dalam model. Ini adalah serangkaian pertanyaan yang bagus tetapi mengarah pada sejumlah besar pertimbangan dan teknik; seluruh buku telah ditulis tentang mereka. Lihat, misalnya, Strategi Pemodelan Regresi Frank Harrell .
whuber
1
Dengan menggunakan ukuran rumah dan kamar tidur, Anda dapat melihat bahwa tidak signifikan tidak dijamin jika korelasi berbeda dari 1 atau -1. Sebenarnya ada rumah dengan 2 kamar tidur dan 3 kamar tidur dengan ukuran yang sama, dan biayanya mungkin (secara signifikan) berbeda, membuat kedua prediktor tersebut signifikan. Namun, ukuran dalam meter persegi dan ukuran dalam kaki persegi memiliki korelasi = 1 dan salah satunya dapat selalu dijatuhkan.
Pere

Jawaban:

38

Topik yang Anda tanyakan adalah multikolinieritas . Anda mungkin ingin membaca beberapa utas di CV yang dikategorikan di bawah tag . @ whuber's jawaban yang terhubung di atas khususnya juga bernilai waktu Anda


Pernyataan bahwa "jika dua prediktor berkorelasi dan keduanya termasuk dalam model, satu akan tidak signifikan", tidak benar. Jika ada efek nyata dari suatu variabel, probabilitas bahwa variabel akan signifikan adalah fungsi dari beberapa hal, seperti besarnya efek, besarnya varians kesalahan, varians dari variabel itu sendiri, jumlah data Anda miliki, dan jumlah variabel lain dalam model. Apakah variabel berkorelasi juga relevan, tetapi tidak menimpa fakta-fakta ini. Pertimbangkan demonstrasi sederhana berikut ini di R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

Korelasi antara kedua variabel paling rendah pada contoh pertama dan tertinggi pada ketiga, namun tidak satu pun variabel yang signifikan pada contoh pertama dan keduanya ada pada contoh terakhir. Besarnya efek identik dalam ketiga kasus, dan varians dari variabel dan kesalahan harus sama (mereka bersifat stokastik, tetapi diambil dari populasi dengan varians yang sama). Pola yang kita lihat di sini adalah terutama karena saya memanipulasi untuk setiap kasus. N


Konsep kunci untuk dipahami untuk menyelesaikan pertanyaan Anda adalah variance inflation factor (VIF). VIF adalah seberapa besar variasi koefisien regresi Anda lebih besar dari yang seharusnya jika variabel tersebut benar-benar tidak berkorelasi dengan semua variabel lain dalam model. Perhatikan bahwa VIF adalah faktor multiplikasi, jika variabel yang dimaksud tidak berkorelasi dengan VIF = 1. Pemahaman sederhana tentang VIF adalah sebagai berikut: Anda dapat memasukkan model yang memprediksi variabel (katakanlah, ) dari semua variabel lain dalam model Anda (katakanlah, ), dan dapatkan beberapa . VIF untuk akan menjadi . Katakanlah VIF untuk adalahX1X2R2X11/(1R2)X110(sering dianggap sebagai ambang batas untuk multikolinieritas yang berlebihan), maka varian distribusi sampling dari koefisien regresi untuk akan menjadi lebih besar daripada jika sepenuhnya tidak berkorelasi dengan semua variabel lain dalam model. X110×X1

Memikirkan apa yang akan terjadi jika Anda memasukkan kedua variabel berkorelasi vs. hanya satu adalah serupa, tetapi sedikit lebih rumit daripada pendekatan yang dibahas di atas. Ini karena tidak termasuk variabel berarti model menggunakan lebih sedikit derajat kebebasan, yang mengubah varians residual dan segala sesuatu yang dihitung dari itu (termasuk varians dari koefisien regresi). Selain itu, jika variabel yang tidak termasuk benar-benar dikaitkan dengan respons, varians dalam respons karena variabel itu akan dimasukkan ke dalam varian residual, menjadikannya lebih besar daripada yang seharusnya. Dengan demikian, beberapa hal berubah secara bersamaan (variabel berkorelasi atau tidak dengan variabel lain, dan varians residual), dan efek yang tepat dari menjatuhkan / termasuk variabel lain akan tergantung pada bagaimana mereka bertukar.


Berbekal pemahaman tentang VIF, berikut adalah jawaban untuk pertanyaan Anda:

  1. Karena varians distribusi sampling dari koefisien regresi akan lebih besar (oleh faktor VIF) jika berkorelasi dengan variabel lain dalam model, nilai-p akan lebih tinggi (yaitu, kurang signifikan) daripada yang seharusnya .
  2. Varian dari koefisien regresi akan lebih besar, seperti yang telah dibahas.
  3. Secara umum, ini sulit diketahui tanpa penyelesaian untuk model. Biasanya, jika hanya salah satu dari dua signifikan, itu akan menjadi salah satu yang memiliki kuat korelasi bivariat dengan . Y
  4. Bagaimana nilai yang diprediksi dan variansnya akan berubah cukup rumit. Itu tergantung pada seberapa kuatnya korelasi variabel-variabel itu dan bagaimana mereka tampaknya dikaitkan dengan variabel respons Anda dalam data Anda. Mengenai masalah ini, ada baiknya Anda membaca jawaban saya di sini: Apakah ada perbedaan antara 'mengendalikan' dan 'mengabaikan' variabel lain dalam regresi berganda?
gung - Reinstate Monica
sumber
5

Ini lebih dari komentar, tetapi saya ingin memasukkan grafik dan beberapa kode.

Saya pikir pernyataan "jika dua prediktor berkorelasi dan keduanya termasuk dalam model, satu akan menjadi tidak signifikan" adalah salah jika Anda maksudkan "hanya satu." Signifikansi biner statistik tidak dapat digunakan untuk pemilihan variabel.

Inilah contoh tandingan saya menggunakan regresi persentase lemak tubuh pada lingkar paha, ketebalan lipatan kulit *, dan lingkar lengan tengah:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

masukkan deskripsi gambar di sini

Seperti yang dapat Anda lihat dari tabel regresi, semuanya tidak signifikan, meskipun nilai-p sedikit berbeda.

Perintah Stata terakhir membuat grafik wilayah kepercayaan untuk 2 dari koefisien regresi (analog dua dimensi dari interval kepercayaan akrab) bersama dengan estimasi titik (titik merah). Elips percaya diri untuk ketebalan lipatan kulit dan koefisien lingkar paha panjang, sempit dan miring, yang mencerminkan kolinearitas pada regressor. Ada kovarian negatif yang tinggi di antara koefisien yang diestimasi. Elips mencakup bagian sumbu vertikal dan horizontal, yang berarti bahwa kita tidak dapat menolak hipotesis individu bahwa s adalah nol, meskipun kita dapat menolak nol bersama yang keduanya karena elips tidak mencakup asal. Dengan kata lain, baik paha dan trisep relevan untuk lemak tubuh, tetapi Anda tidak bisa menentukan yang mana pelakunya.β

Jadi, bagaimana kita tahu prediktor mana yang kurang signifikan? Variasi dalam regressor dapat diklasifikasikan menjadi dua jenis:

  1. Variasi unik untuk setiap regressor
  2. Variasi yang dibagikan oleh para regresi

Dalam memperkirakan koefisien dari masing-masing regressor, hanya yang pertama yang akan digunakan. Variasi umum diabaikan karena tidak dapat dialokasikan, meskipun digunakan dalam prediksi dan penghitungan . Ketika ada sedikit informasi unik, kepercayaan akan rendah dan varians koefisien akan tinggi. Semakin tinggi multikolinieritas, semakin kecil variasi yang unik, dan semakin besar variansnya. R2


* Lipatan kulit adalah lebar lipatan kulit yang diambil di atas otot triceps, dan diukur menggunakan caliper.

Dimitriy V. Masterov
sumber
Saya suka contoh Anda, tetapi secara tegas itu akan menjadi contoh tandingan jika pernyataan dalam pertanyaan awal mengatakan "jika [...], hanya satu yang tidak signifikan", tetapi tidak memiliki kata "hanya".
Amoeba berkata Reinstate Monica
@amoeba Itu poin yang bagus. Saya akan mengubah komentar saya.
Dimitriy V. Masterov
Dapatkah Anda memberikan beberapa rumus untuk menggambarkan lebih lanjut: "Dalam memperkirakan koefisien masing-masing regresi, hanya yang pertama yang akan digunakan. Variasi umum diabaikan karena tidak dapat dialokasikan"
mac
3

Seperti @whuber catat, ini adalah pertanyaan yang rumit. Namun, kalimat pertama dari posting Anda adalah penyederhanaan yang luas. Sering terjadi bahwa dua (atau lebih) variabel akan dikorelasikan dan keduanya terkait dengan variabel dependen. Apakah mereka signifikan atau tidak tergantung pada ukuran efek dan ukuran sel.

Dalam contoh Anda, anggaplah bahwa, untuk ukuran rumah tertentu, orang lebih suka kamar yang lebih sedikit (setidaknya di NYC, ini tidak masuk akal - ini akan menunjukkan bangunan yang lebih tua, dinding yang lebih padat dll, dan mungkin menjadi penanda untuk lingkungan). Maka keduanya bisa menjadi signifikan, berlawanan arah!

Atau, anggap kedua variabel itu adalah ukuran rumah dan lingkungan - ini akan berkorelasi, tentu saja, rumah yang lebih besar di lingkungan yang lebih baik - tetapi keduanya masih bisa signifikan dan keduanya terkait dengan harga rumah.

Juga, hanya menggunakan kompleksitas topeng "berkorelasi". Variabel dapat sangat terkait tanpa dikorelasikan.

Peter Flom - Pasang kembali Monica
sumber