Dalam regresi linier berganda, mengapa mungkin untuk memiliki statistik F yang sangat signifikan (p <0,001) tetapi memiliki nilai p yang sangat tinggi pada semua uji t regresi?
Dalam model saya, ada 10 regresi. Satu memiliki nilai p 0,1 dan sisanya di atas 0,9
Untuk mengatasi masalah ini lihat pertanyaan tindak lanjut .
Jawaban:
Seperti yang Rob katakan, ini terjadi ketika Anda memiliki variabel yang sangat berkorelasi. Contoh standar yang saya gunakan adalah memprediksi berat dari ukuran sepatu. Anda dapat memprediksi berat sama baiknya dengan ukuran sepatu kanan atau kiri. Tetapi bersama-sama itu tidak berhasil.
Contoh simulasi singkat
sumber
Dibutuhkan sangat sedikit korelasi di antara variabel independen untuk menyebabkan ini.
Untuk mengetahui alasannya, coba yang berikut ini:
Gambar 50 set sepuluh vektor dengan koefisien di dalam standar normal.( x1, x2, ... , x10)
Hitung untuki=1,2,…,9. Hal ini membuatyistandar secara individu normal, tetapi dengan beberapa korelasi antara mereka.ysaya= ( xsaya+ xi + 1) / 2-√ i = 1 , 2 , … , 9 ysaya
Hitung . Perhatikan bahwa w = √w = x1+ x2+ ⋯ + x10 .w = 2-√( y1+ y3+ y5+ y7+ y9)
Tambahkan beberapa kesalahan independen yang didistribusikan secara normal ke . Dengan sedikit eksperimen saya menemukan bahwa z = w + ε dengan ε ∼ N ( 0 , 6 ) bekerja cukup baik. Dengan demikian, z adalah jumlah dari x i ditambah beberapa kesalahan. Itu juga merupakan jumlah dari beberapa yang y i ditambah kesalahan yang sama.w z= w + ε ε ∼ N( 0 , 6 ) z xsaya ysaya
Kami akan menganggap sebagai variabel independen dan z variabel dependen.ysaya z
Berikut adalah matriks sebar satu dataset tersebut, dengan di bagian atas dan kiri dan y saya melanjutkan dalam rangka.z ysaya
Korelasi yang diharapkan antara dan y j adalah 1 / 2 saat | i - j | = 1 dan 0 sebaliknya. Korelasi terwujud berkisar hingga 62%. Mereka muncul sebagai scatterplot yang lebih rapat di sebelah diagonal.ysaya yj 1 / 2 | i-j | =1 0
Lihatlah regresi terhadap y i :z ysaya
Statistik F sangat signifikan tetapi tidak ada variabel independen, bahkan tanpa penyesuaian untuk semua dari mereka.
Beberapa variabel ini sangat signifikan, bahkan dengan penyesuaian Bonferroni. (Ada banyak lagi yang bisa dikatakan dengan melihat hasil ini, tetapi itu akan membawa kita menjauh dari poin utama.)
Satu kesimpulan yang dapat kita tarik dari ini adalah bahwa ketika terlalu banyak variabel dimasukkan dalam model mereka dapat menutupi yang benar-benar signifikan. Tanda pertama dari ini adalah statistik F keseluruhan yang sangat signifikan disertai dengan t-tes yang tidak terlalu signifikan untuk koefisien individu. (Bahkan ketika beberapa variabel secara individual signifikan, ini tidak secara otomatis berarti yang lain tidak. Itulah salah satu cacat dasar dari strategi regresi bertahap: mereka menjadi korban masalah penyembunyian ini.) Kebetulan, faktor inflasi variansdalam rentang regresi pertama dari 2,55 hingga 6,09 dengan rata-rata 4,79: tepat di garis batas mendiagnosis beberapa multikolinieritas menurut aturan praktis yang paling konservatif; jauh di bawah ambang batas sesuai dengan aturan lain (di mana 10 adalah batas atas).
sumber
Multikolinearitas
Beberapa prediktor yang hampir signifikan
sumber
Ini terjadi ketika prediktor sangat berkorelasi. Bayangkan sebuah situasi di mana hanya ada dua prediktor dengan korelasi yang sangat tinggi. Secara individual, keduanya juga berkorelasi erat dengan variabel respons. Akibatnya, uji-F memiliki nilai-p rendah (dikatakan bahwa prediktor bersama sangat signifikan dalam menjelaskan variasi dalam variabel respons). Tetapi uji-t untuk masing-masing prediktor memiliki nilai-p yang tinggi karena setelah memungkinkan untuk efek prediktor lain, tidak banyak yang bisa dijelaskan.
sumber
Anda mengatakan bahwa Anda memahami masalah variabel yang berkorelasi dan regresi menjadi tidak signifikan lebih baik; itu mungkin berarti Anda telah dikondisikan dengan sering menyebutkan multikolinieritas, tetapi Anda perlu meningkatkan pemahaman Anda tentang geometri kuadrat terkecil.
sumber
Kata kunci yang dicari adalah "collinearity" atau "multicollinearity". Ini dapat dideteksi dengan menggunakan diagnostik seperti Variance Inflation Factors (VIFs) atau metode seperti yang dijelaskan dalam buku teks "Diagnostik Regresi: Mengidentifikasi Data yang Berpengaruh dan Sumber Collinearity" oleh Belsley, Kuh dan Welsch. VIF jauh lebih mudah dipahami, tetapi mereka tidak bisa berurusan dengan collinearity yang melibatkan intersep (yaitu, prediktor yang hampir konstan sendiri atau dalam kombinasi linear) - sebaliknya, diagnostik BKW jauh kurang intuitif tetapi dapat menangani collinearity yang melibatkan mencegat.
sumber
Jawaban yang Anda dapatkan tergantung pada pertanyaan yang Anda ajukan. Selain poin yang sudah dibuat, parameter individual nilai F dan keseluruhan model nilai F menjawab pertanyaan yang berbeda, sehingga mereka mendapatkan jawaban yang berbeda. Saya telah melihat ini terjadi bahkan ketika nilai F individu tidak terlalu dekat dengan signifikan, terutama jika model memiliki lebih dari 2 atau 3 IV. Saya tidak tahu cara untuk menggabungkan nilai-p individu dan mendapatkan sesuatu yang bermakna, meskipun mungkin ada cara.
sumber
Satu hal lain yang perlu diingat adalah bahwa pengujian pada masing-masing koefisien masing-masing mengasumsikan bahwa semua prediktor lain ada dalam model. Dengan kata lain setiap prediktor tidak signifikan selama semua prediktor lain ada dalam model. Harus ada interaksi atau saling ketergantungan antara dua atau lebih dari prediksi Anda.
Seperti orang lain bertanya di atas - bagaimana Anda mendiagnosis kurangnya multikolinieritas?
sumber
Salah satu cara untuk memahami ini adalah geometri kuadrat terkecil seperti yang disarankan @StasK.
Lain adalah untuk menyadari itu berarti bahwa X terkait dengan Y ketika mengendalikan variabel-variabel lain, tetapi tidak sendirian. Anda mengatakan X berhubungan dengan varian unik dalam Y. Ini benar. Varians unik dalam Y, berbeda dari total varians. Jadi, varian apa yang dihapus oleh variabel lain?
Ini akan membantu jika Anda dapat memberi tahu kami variabel Anda.
sumber