Mengapa mungkin untuk mendapatkan statistik F yang signifikan (p <0,001) tetapi uji-t regresi yang tidak signifikan?

70

Dalam regresi linier berganda, mengapa mungkin untuk memiliki statistik F yang sangat signifikan (p <0,001) tetapi memiliki nilai p yang sangat tinggi pada semua uji t regresi?

Dalam model saya, ada 10 regresi. Satu memiliki nilai p 0,1 dan sisanya di atas 0,9


Untuk mengatasi masalah ini lihat pertanyaan tindak lanjut .

Ηλίας
sumber
2
Apakah konstanta juga tidak signifikan? Berapa banyak kasus yang terlibat? Berapa banyak variabel?
whuber
Bagaimana multikolinieritas didiagnosis? Ada banyak metode, beberapa lebih informatif daripada yang lain. Semakin banyak Anda memberi tahu kami, semakin baik jawaban komunitas.
Tugas
3
Pertanyaan ini telah menjadi FAQ. Beberapa jawaban di sini digabungkan dari utas yang pada dasarnya serupa.
whuber
3
Lihat juga di sini: bagaimana regresi menjadi signifikan namun semua prediktor menjadi tidak signifikan , & untuk diskusi tentang kasus yang berlawanan, lihat di sini: uji-t signifikan vs statistik-F tidak signifikan .
gung - Reinstate Monica
Saya memiliki masalah yang sama dan tidak ada jawaban di atas dapat membantu saya. Sekarang saya tahu jawabannya (paling tidak untuk masalah saya): nilai-F dari model 2 bisa signifikan, karena Anda mendapat 'konstanta' yang sama (variabel) seperti pada model 1 (yang nilai-F juga signifikan). Anda harus melihat tabel yang disebut 'Ringkasan Model' di kolom 'Sig. F Ubah 'untuk melihat apakah perubahan dalam R kuadrat signifikan (untuk model 2). Jika itu signifikan, nilai-b juga harus signifikan. Anda benar-benar dapat mengabaikan nilai-F.

Jawaban:

53

Seperti yang Rob katakan, ini terjadi ketika Anda memiliki variabel yang sangat berkorelasi. Contoh standar yang saya gunakan adalah memprediksi berat dari ukuran sepatu. Anda dapat memprediksi berat sama baiknya dengan ukuran sepatu kanan atau kiri. Tetapi bersama-sama itu tidak berhasil.

Contoh simulasi singkat

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))
csgillespie
sumber
9
Sangat menarik dan penting untuk dicatat bahwa kedua model Anda memprediksi dengan baik, dalam hal ini. Korelasi yang tinggi antara prediktor tidak selalu menjadi masalah untuk prediksi. Multikolinearitas hanya masalah ketika 1) analis mencoba menafsirkan secara tidak tepat koefisien regresi berganda; 2) model tidak dapat diperkirakan; dan 3) UK meningkat dan koefisiennya tidak stabil.
Brett
Saya mengerti bahwa kedua variabel sangat berkorelasi satu sama lain, sehingga hasil uji t tidak signifikan sedangkan hasil uji F signifikan. Tetapi bagaimana ini bisa terjadi? Maksud saya, apa alasan yang mendasari fakta ini?
yue86231
105

Dibutuhkan sangat sedikit korelasi di antara variabel independen untuk menyebabkan ini.

Untuk mengetahui alasannya, coba yang berikut ini:

  • Gambar 50 set sepuluh vektor dengan koefisien di dalam standar normal.(x1,x2,...,x10)

  • Hitung untuki=1,2,,9. Hal ini membuatyistandar secara individu normal, tetapi dengan beberapa korelasi antara mereka.ysaya=(xsaya+xsaya+1)/2saya=1,2,...,9ysaya

  • Hitung . Perhatikan bahwa w = w=x1+x2++x10.w=2(y1+y3+y5+y7+y9)

  • Tambahkan beberapa kesalahan independen yang didistribusikan secara normal ke . Dengan sedikit eksperimen saya menemukan bahwa z = w + ε dengan ε N ( 0 , 6 ) bekerja cukup baik. Dengan demikian, z adalah jumlah dari x i ditambah beberapa kesalahan. Itu juga merupakan jumlah dari beberapa yang y i ditambah kesalahan yang sama.wz=w+εεN(0,6)zxsayaysaya

Kami akan menganggap sebagai variabel independen dan z variabel dependen.ysayaz

Berikut adalah matriks sebar satu dataset tersebut, dengan di bagian atas dan kiri dan y saya melanjutkan dalam rangka.zysaya

Matriks Scatterplot

Korelasi yang diharapkan antara dan y j adalah 1 / 2 saat | i - j | = 1 dan 0 sebaliknya. Korelasi terwujud berkisar hingga 62%. Mereka muncul sebagai scatterplot yang lebih rapat di sebelah diagonal.ysayayj1/2|saya-j|=10

Lihatlah regresi terhadap y i :zysaya

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

Statistik F sangat signifikan tetapi tidak ada variabel independen, bahkan tanpa penyesuaian untuk semua dari mereka.

zysaya

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

Beberapa variabel ini sangat signifikan, bahkan dengan penyesuaian Bonferroni. (Ada banyak lagi yang bisa dikatakan dengan melihat hasil ini, tetapi itu akan membawa kita menjauh dari poin utama.)

zy2,y4,y6,y8z

ysaya

Satu kesimpulan yang dapat kita tarik dari ini adalah bahwa ketika terlalu banyak variabel dimasukkan dalam model mereka dapat menutupi yang benar-benar signifikan. Tanda pertama dari ini adalah statistik F keseluruhan yang sangat signifikan disertai dengan t-tes yang tidak terlalu signifikan untuk koefisien individu. (Bahkan ketika beberapa variabel secara individual signifikan, ini tidak secara otomatis berarti yang lain tidak. Itulah salah satu cacat dasar dari strategi regresi bertahap: mereka menjadi korban masalah penyembunyian ini.) Kebetulan, faktor inflasi variansdalam rentang regresi pertama dari 2,55 hingga 6,09 dengan rata-rata 4,79: tepat di garis batas mendiagnosis beberapa multikolinieritas menurut aturan praktis yang paling konservatif; jauh di bawah ambang batas sesuai dengan aturan lain (di mana 10 adalah batas atas).

whuber
sumber
5
Jawaban yang bagus A plus 1 dari saya. Saya ingin memberikan lebih banyak.
Michael Chernick
41

Multikolinearitas

  • R2
  • Tentu saja, multikolinearitas bukan hanya tentang ambang batas absolut. Kesalahan standar pada koefisien regresi akan meningkat ketika interkorelasi dengan peningkatan prediktor fokus.

Beberapa prediktor yang hampir signifikan

  • Bahkan jika Anda tidak memiliki multikolinieritas, Anda masih bisa mendapatkan prediktor yang tidak signifikan dan model signifikan secara keseluruhan jika dua atau lebih prediktor individu dekat dengan signifikan dan secara kolektif, prediksi keseluruhan melewati ambang signifikansi statistik. Misalnya, menggunakan alfa 0,05, jika Anda memiliki dua prediktor dengan nilai-p dari 0,06, dan 0,07, maka saya tidak akan terkejut jika keseluruhan model memiliki p <0,05.
Jeromy Anglim
sumber
Jawaban singkat yang bagus. Untuk menambah ini, saya akan menyarankan mengganggu data (atau menghapus prediktor) dan melihat apakah ada perubahan nyata dalam koefisien regresi. Misalnya, perhatikan perubahan tanda.
Mustafa S Eisa
38

Ini terjadi ketika prediktor sangat berkorelasi. Bayangkan sebuah situasi di mana hanya ada dua prediktor dengan korelasi yang sangat tinggi. Secara individual, keduanya juga berkorelasi erat dengan variabel respons. Akibatnya, uji-F memiliki nilai-p rendah (dikatakan bahwa prediktor bersama sangat signifikan dalam menjelaskan variasi dalam variabel respons). Tetapi uji-t untuk masing-masing prediktor memiliki nilai-p yang tinggi karena setelah memungkinkan untuk efek prediktor lain, tidak banyak yang bisa dijelaskan.

Rob Hyndman
sumber
Hai Rob, maaf sudah mengganggu Anda. Saya membaca jawaban Anda (karena saya sedang menghadapi situasi pertanyaan sekarang) tetapi saya tidak dapat mengerti apa yang Anda maksud dengan mengatakan "setelah memungkinkan untuk efek dari prediksi lain tidak ada banyak yang tersisa untuk dijelaskan.". Bolehkah saya meminta Anda untuk menjelaskan hal itu kepada saya? Terima kasih banyak.
yue86231
1
@ yue86231 Ini berarti bahwa meskipun kami memiliki satu nilai p untuk setiap prediktor, kami tidak dapat menginterpretasikan setiap nilai p dalam isolasi. Setiap uji t prediktor hanya dapat menunjukkan signifikansi suatu variabel setelah memperhitungkan varians yang dijelaskan oleh semua variabel lainnya. Koefisien regresi linier dan kesalahan standar dihasilkan pada saat yang bersamaan, sehingga dapat dikatakan, dan kedua prediktor tersebut saling mengurangi signifikansi satu sama lain.
Robert Kubrick
11

X1N(0,1)X2=SebuahX1+δY=bX1+cX2+ϵδϵX1N(0,1)

CHaiv(X2,Y)=E[(SebuahX1+δ)(bX1+cX2+ϵ)]=E[(SebuahX1+δ)({b+Sebuahc}X1+cδ+ϵ)]=Sebuah(b+Sebuahc)+c

Sebuah=1b=2c=-1

Anda mengatakan bahwa Anda memahami masalah variabel yang berkorelasi dan regresi menjadi tidak signifikan lebih baik; itu mungkin berarti Anda telah dikondisikan dengan sering menyebutkan multikolinieritas, tetapi Anda perlu meningkatkan pemahaman Anda tentang geometri kuadrat terkecil.

Tugas
sumber
10

Kata kunci yang dicari adalah "collinearity" atau "multicollinearity". Ini dapat dideteksi dengan menggunakan diagnostik seperti Variance Inflation Factors (VIFs) atau metode seperti yang dijelaskan dalam buku teks "Diagnostik Regresi: Mengidentifikasi Data yang Berpengaruh dan Sumber Collinearity" oleh Belsley, Kuh dan Welsch. VIF jauh lebih mudah dipahami, tetapi mereka tidak bisa berurusan dengan collinearity yang melibatkan intersep (yaitu, prediktor yang hampir konstan sendiri atau dalam kombinasi linear) - sebaliknya, diagnostik BKW jauh kurang intuitif tetapi dapat menangani collinearity yang melibatkan mencegat.

S. Kolassa - Reinstate Monica
sumber
9

Jawaban yang Anda dapatkan tergantung pada pertanyaan yang Anda ajukan. Selain poin yang sudah dibuat, parameter individual nilai F dan keseluruhan model nilai F menjawab pertanyaan yang berbeda, sehingga mereka mendapatkan jawaban yang berbeda. Saya telah melihat ini terjadi bahkan ketika nilai F individu tidak terlalu dekat dengan signifikan, terutama jika model memiliki lebih dari 2 atau 3 IV. Saya tidak tahu cara untuk menggabungkan nilai-p individu dan mendapatkan sesuatu yang bermakna, meskipun mungkin ada cara.

Peter Flom - Pasang kembali Monica
sumber
2
(-1) Ya - poster aslinya mencatat bahwa ia telah melihatnya juga terjadi. Pertanyaannya adalah apa sebenarnya beberapa hal yang dapat menyebabkan ini selain collinearity dan saya tidak melihat bagaimana ini merupakan jawaban.
Makro
4
@ Macro Downvote tampaknya sedikit keras, karena ada pengamatan yang berguna dan valid dalam jawaban ini: tes untuk signifikansi keseluruhan dan untuk signifikansi variabel individu "menjawab pertanyaan yang berbeda." Memang itu kualitatif, tetapi tidak lebih dari jawaban pertama dengan banyak upvotes; dan untuk jawaban itu ia menambahkan beberapa intuisi yang valid, bisa dibilang menjadikannya peningkatan atas jawaban itu.
whuber
1
Saya tidak pernah mengatakan tidak ada informasi atau intuisi yang diberikan oleh balasan ini. Jika saya memiliki jawaban yang baik untuk pertanyaan ini, saya akan menjawabnya sekarang - ini semacam pertanyaan yang sulit - saya hanya mengatakan bahwa tanggapan ini sepertinya tidak menjawab pertanyaan dalam arti kata apa pun.
Makro
9

Satu hal lain yang perlu diingat adalah bahwa pengujian pada masing-masing koefisien masing-masing mengasumsikan bahwa semua prediktor lain ada dalam model. Dengan kata lain setiap prediktor tidak signifikan selama semua prediktor lain ada dalam model. Harus ada interaksi atau saling ketergantungan antara dua atau lebih dari prediksi Anda.

Seperti orang lain bertanya di atas - bagaimana Anda mendiagnosis kurangnya multikolinieritas?

Dave Kincaid
sumber
4

Salah satu cara untuk memahami ini adalah geometri kuadrat terkecil seperti yang disarankan @StasK.

Lain adalah untuk menyadari itu berarti bahwa X terkait dengan Y ketika mengendalikan variabel-variabel lain, tetapi tidak sendirian. Anda mengatakan X berhubungan dengan varian unik dalam Y. Ini benar. Varians unik dalam Y, berbeda dari total varians. Jadi, varian apa yang dihapus oleh variabel lain?

Ini akan membantu jika Anda dapat memberi tahu kami variabel Anda.

Peter Flom - Pasang kembali Monica
sumber