Saya punya pertanyaan yang mungkin sederhana, tapi itu membingungkan saya sekarang, jadi saya berharap Anda dapat membantu saya.
Saya memiliki model regresi kuadrat terkecil, dengan satu variabel independen dan satu variabel dependen. Hubungannya tidak signifikan. Sekarang saya menambahkan variabel independen kedua. Sekarang hubungan antara variabel independen pertama dan variabel dependen menjadi signifikan.
Bagaimana cara kerjanya? Ini mungkin menunjukkan beberapa masalah dengan pemahaman saya, tetapi bagi saya, tapi saya tidak melihat bagaimana menambahkan variabel independen kedua ini dapat membuat yang pertama signifikan.
Jawaban:
Meskipun collinearity (dari variabel prediktor) adalah penjelasan yang mungkin, saya ingin menyarankan itu bukan penjelasan yang menerangi karena kita tahu collinearity terkait dengan "informasi umum" di antara para prediktor, sehingga tidak ada yang misterius atau kontra-intuitif tentang sisi tersebut. efek dari memperkenalkan prediktor berkorelasi kedua ke dalam model.
Mari kita perhatikan kasus dua prediktor yang benar-benar ortogonal : sama sekali tidak ada kolinearitas di antara mereka. Perubahan signifikansi yang luar biasa masih bisa terjadi.
Tentukan variabel prediktor dan X 2 dan biarkan Y beri nama predictand. Regresi Y terhadap X 1 akan gagal menjadi signifikan ketika variasi Y sekitar mean tidak lumayan berkurang ketika X 1 digunakan sebagai variabel independen. Ketika variasi itu sangat terkait dengan variabel kedua X 2 , situasi berubah. Ingatlah bahwa regresi berganda Y terhadap X 1 dan X 2 setara denganX1 X2 Y Y X1 Y X1 X2 Y X1 X2
Kemunduran dan X 1 secara terpisah terhadap X 2 .Y X1 X2
Regres residu terhadap residu X 1 .Y X1
Residual dari langkah pertama telah menghapus pengaruh . Ketika X 2 berkorelasi erat dengan Y , ini dapat mengekspos sejumlah kecil variasi yang sebelumnya telah disembunyikan. Jika ini variasi dikaitkan dengan X 1 , kita memperoleh hasil yang signifikan.X2 X2 Y X1
Semua ini mungkin diklarifikasi dengan contoh nyata. Untuk memulai, mari kita gunakanε
R
untuk menghasilkan dua variabel independen ortogonal bersama dengan beberapa kesalahan acak independen :(X1 X2
svd
Langkah ini memastikan dua kolom matriksx
(mewakili dan X 2 ) adalah ortogonal, mengesampingkan collinearity sebagai penjelasan yang mungkin dari setiap hasil selanjutnya.)Selanjutnya, buat sebagai kombinasi linear dari X dan kesalahan. Saya telah menyesuaikan koefisien untuk menghasilkan perilaku kontra-intuitif:Y X
Ini adalah realisasi dari model dengan n = 32 kasus.Y∼iidN(0.05X1+1.00X2,0.012) n=32
Lihatlah dua regresi yang dimaksud. Pertama , mundur terhadap X 1 saja:Y X1
Nilai p tinggi 0,710 menunjukkan bahwa sama sekali tidak signifikan.X1
Selanjutnya , mundur terhadap X 1 dan X 2 :Y X1 X2
Tiba-tiba, di hadapan , X 1 adalah sangat signifikan, seperti yang ditunjukkan oleh mendekati nol p-nilai untuk kedua variabel.X2 X1
Kita dapat memvisualisasikan perilaku ini dengan cara matriks sebar dari variabel , X 2 , dan Y bersama dengan residual digunakan dalam karakterisasi dua langkah regresi berganda di atas. Karena X 1 dan X 2 bersifat ortogonal, residu X 1 akan sama dengan X 1 dan karenanya tidak perlu digambar ulang. Kami akan menyertakan residu Y terhadap X 2 dalam matriks sebar, memberikan gambar ini:X1 X2 Y X1 X2 X1 X1 Y X2
Berikut ini adalah rendernya (dengan sedikit prettification):
Matriks grafis ini memiliki empat baris dan empat kolom, yang akan saya hitung mundur dari atas dan dari kiri ke kanan.
Memperhatikan:
sumber
Saya pikir masalah ini telah dibahas sebelumnya di situs ini secara menyeluruh, jika Anda tahu di mana mencarinya. Jadi saya mungkin akan menambahkan komentar nanti dengan beberapa tautan ke pertanyaan lain, atau dapat mengedit ini untuk memberikan penjelasan yang lebih lengkap jika saya tidak dapat menemukannya.
Ada dua kemungkinan dasar: Pertama, IV lainnya dapat menyerap beberapa variabilitas residual dan dengan demikian meningkatkan kekuatan uji statistik IV awal. Kemungkinan kedua adalah bahwa Anda memiliki variabel penekan. Ini adalah topik yang sangat berlawanan dengan intuisi, tetapi Anda dapat menemukan beberapa info di sini *, di sini , atau utas CV yang luar biasa ini .
* Perhatikan bahwa Anda perlu membaca semua jalan ke bawah untuk sampai ke bagian yang menjelaskan variabel penekan, Anda bisa langsung beralih ke sana, tetapi Anda akan lebih baik dilayani dengan membaca semuanya.
Sunting: seperti yang dijanjikan, saya menambahkan penjelasan yang lebih lengkap tentang poin saya mengenai bagaimana IV lainnya dapat menyerap beberapa variabilitas residual dan dengan demikian meningkatkan kekuatan uji statistik IV awal. @whuber menambahkan contoh yang mengesankan, tetapi saya pikir saya mungkin menambahkan contoh gratis yang menjelaskan fenomena ini dengan cara yang berbeda, yang dapat membantu beberapa orang memahami fenomena lebih jelas. Selain itu, saya menunjukkan bahwa IV kedua tidak harus lebih kuat terkait (walaupun, dalam praktiknya, hampir selalu akan terjadi fenomena ini).
R
Ini diakui tidak seperti contoh dramatis di pos @ whuber, tetapi mereka dapat membantu orang memahami apa yang sedang terjadi di sini.
sumber
Rasanya seperti pertanyaan OP dapat ditafsirkan dalam dua cara berbeda:
Secara matematis, bagaimana OLS bekerja, sehingga menambahkan variabel independen dapat mengubah hasil dengan cara yang tidak terduga?
Bagaimana cara memodifikasi model saya dengan menambahkan satu variabel mengubah efek variabel lain yang independen dalam model?
Ada beberapa jawaban bagus untuk pertanyaan # 1. Dan pertanyaan # 2 mungkin sangat jelas bagi para ahli sehingga mereka menganggap OP harus mengajukan pertanyaan # 1 sebagai gantinya. Tapi saya pikir pertanyaan # 2 layak mendapat jawaban, yang akan menjadi seperti:
Mari kita mulai dengan sebuah contoh. Katakan bahwa Anda memiliki ketinggian, usia, jenis kelamin, dll, dari sejumlah anak, dan Anda ingin melakukan regresi untuk memprediksi tinggi badan mereka.
Anda mulai dengan model naif yang menggunakan gender sebagai variabel independen. Dan itu tidak signifikan secara statistik. (Bagaimana mungkin, Anda mencampurkan anak usia 3 tahun dan remaja.)
Kemudian Anda menambahkan usia dan tiba-tiba bukan hanya usia yang signifikan, tetapi juga jenis kelamin. Bagaimana bisa?
Tentu saja, dalam contoh saya, Anda dapat dengan jelas melihat bahwa usia adalah faktor penting dalam ketinggian anak / remaja. Mungkin faktor terpenting yang Anda miliki datanya. Gender juga penting, terutama untuk anak-anak yang lebih besar dan orang dewasa, tetapi jenis kelamin saja adalah model yang buruk tentang seberapa tinggi seorang anak.
Usia plus jenis kelamin adalah model yang masuk akal (meskipun, tentu saja disederhanakan) yang memadai untuk tugas itu. Jika Anda menambahkan data lain - interaksi usia dan jenis kelamin, diet, tinggi orang tua, dll - Anda bisa membuat model yang lebih baik, yang tentu saja masih akan disederhanakan dibandingkan dengan sejumlah faktor yang benar-benar menentukan tinggi anak, tetapi sekali lagi semua model adalah versi realitas yang disederhanakan. (Peta dunia dengan skala 1: 1 tidak terlalu berguna untuk seorang musafir.)
Model asli Anda (hanya gender) terlalu disederhanakan - sangat disederhanakan sehingga pada dasarnya rusak. Tetapi itu tidak berarti bahwa gender tidak berguna dalam model yang lebih baik.
EDIT: menambahkan saran gung ulang: istilah interaksi usia dan jenis kelamin.
sumber
Utas ini sudah memiliki tiga jawaban bagus (masing-masing +1). Jawaban saya adalah komentar dan ilustrasi yang diperluas ke titik yang dibuat oleh @gung (yang membuat saya perlu waktu untuk mengerti):
"Peningkatan"
Gambar berikut menunjukkan kedua kemungkinan yang terdaftar oleh @gung. Pertimbangkan hanya bagian biru pada awalnya (yaitu abaikan semua garis merah):
Cara lain untuk mengatakannya adalah bahwa tes tersebut sekarang membandingkan panjang OF ke OG, dan bukan dengan OC seperti sebelumnya; OF kecil dan "tidak signifikan" dibandingkan dengan OC, tetapi cukup besar untuk menjadi "signifikan" dibandingkan dengan OG.
Ini adalah persis situasi yang disajikan oleh @whuber, @gung, dan @Wayne dalam jawaban mereka. Saya tidak tahu apakah efek ini memiliki nama standar dalam literatur regresi, jadi saya akan menyebutnya "peningkatan".
Penekanan
Tidak demikian dalam penindasan.
sumber