Hubungan linear antara variabel penjelas dalam regresi berganda

10

Saya sedang membaca bab regresi berganda Analisis Data dan Grafik Menggunakan R: Sebuah Pendekatan Berbasis Contoh dan agak bingung untuk mengetahui bahwa itu merekomendasikan memeriksa hubungan linear antara variabel penjelas (menggunakan sebar scatter) dan, jika ada t apapun, mengubah mereka sehingga mereka jangan menjadi lebih terkait linear. Berikut beberapa kutipannya:

6.3 Strategi untuk memasang model regresi berganda

(...)

Periksa matriks sebar yang melibatkan semua variabel penjelas. (Termasuk variabel dependen adalah, pada titik ini, opsional. ) Cari dulu untuk bukti non-linearitas dalam plot variabel penjelas terhadap satu sama lain.

(...)

Poin ini mengidentifikasi strategi pencarian model - mencari model di mana hubungan regresi antara variabel penjelas mengikuti bentuk linear "sederhana" . Jadi, jika beberapa plot berpasangan menunjukkan bukti non-linearitas, pertimbangkan penggunaan transformasi untuk memberikan hubungan yang lebih linier . Meskipun belum tentu terbukti mungkin, mengikuti strategi ini, untuk memodelkan hubungan regresi secara memadai, ini adalah strategi yang baik, untuk alasan yang diberikan di bawah ini, untuk mengikuti dalam memulai pencarian.

(...)

Jika hubungan antara variabel penjelas mendekati linier, mungkin setelah transformasi, maka mungkin untuk menafsirkan plot variabel prediktor terhadap variabel respons dengan keyakinan.

(...)

Mungkin tidak mungkin untuk menemukan transformasi dari satu atau lebih variabel penjelas yang memastikan hubungan (berpasangan) yang ditunjukkan dalam panel tampak linier. Ini dapat menciptakan masalah baik untuk interpretasi plot diagnostik untuk setiap persamaan regresi pas dan untuk interpretasi koefisien dalam persamaan pas. Lihat Cook dan Weisberg (1999).

Tidakkah saya harus khawatir tentang hubungan linier antara variabel dependen (karena risiko multikolinieritas) daripada secara aktif mengejar mereka? Apa keuntungan memiliki variabel terkait linear?

Para penulis memang membahas masalah multikolinearitas nanti dalam bab ini, tetapi rekomendasi ini tampaknya bertentangan dengan menghindari multikolinearitas.

RicardoC
sumber

Jawaban:

8

Ada dua poin di sini:

  1. Bagian ini merekomendasikan mengubah infus menjadi linieritas hanya ketika ada bukti nonlinier. Hubungan nonlinear di antara IV juga dapat menyebabkan kolinearitas dan, lebih terpusat, dapat mempersulit hubungan lainnya. Saya tidak yakin saya setuju dengan saran dalam buku ini, tetapi itu tidak konyol.

  2. Tentu saja hubungan linear yang sangat kuat dapat menjadi penyebab kolinearitas, tetapi korelasi yang tinggi tidak diperlukan atau tidak cukup untuk menyebabkan kolinearitas yang bermasalah. Metode yang baik untuk mendiagnosis kolinearitas adalah indeks kondisi.

Sunting dalam menanggapi komentar

Indeks kondisi dijelaskan secara singkat di sini sebagai "akar kuadrat dari nilai eigen maksimum dibagi dengan nilai eigen minimum". Ada beberapa posting di sini di CV yang membahas mereka dan kelebihannya. Teks-teks mani pada mereka adalah dua buku oleh David Belsley: Diagnosis Pengkondisian dan Diagnostik Regresi (yang memiliki edisi baru, 2005, juga).

Peter Flom - Pasang kembali Monica
sumber
1
+1 - jawaban yang bagus tetapi dapatkah Anda memperluas indeks kondisi? Saya belum menemukan cara yang memuaskan untuk berurusan dengan collinearity dalam variabel penjelas kandidat.
BGreene
Terima kasih atas jawaban yang informatif. Bisakah Anda jelaskan hubungan apa yang rumit dengan non-linearitas di antara expl. variabel? Dan apakah Anda sekarang apa yang penulis bicarakan ketika mereka mengatakan bahwa hubungan nonlinear antara expl. variabel dapat menyebabkan masalah dengan interpretasi koefisien dan plot diagnostik?
RicardoC
Saya tidak dapat memberikan contoh sekarang, tetapi saya telah melihatnya terjadi. Sepertinya ada hubungan nonlinear antara Y dan X
Peter Flom - Reinstate Monica
3

Hubungan linear antara masing-masing variabel penjelas dan variabel terikat akan memastikan juga hubungan linier antara variabel penjelas. Kebalikannya tentu saja tidak benar.

Memang benar bahwa transformasi yang dirancang untuk memberikan perkiraan linearitas akan meningkatkan kolinearitas. Namun, dengan tidak adanya transformasi semacam itu, collinearity disembunyikan. Bersikeras menjaga collinearlity sehingga tersembunyi dapat menghasilkan persamaan regresi yang rumit dan tidak dapat diinterpretasikan, di mana bentuk sederhana persamaan tersedia.

Misalkan ydekat dengan fungsi linier log(x1), dalam kasus di mana xrentang nilai yang berbeda dengan faktor 10 atau lebih. Kemudian jika xdigunakan sebagai regresi, variabel penjelas lainnya akan jika mungkin diminta untuk menjelaskan nonlinier dalam hubungan dengan x1. Hasilnya mungkin hubungan regresi yang sangat rumit, dengan koefisien yang tidak dapat ditafsirkan, sebagai pengganti bentuk sederhana dari persamaan regresi yang menangkap semua kekuatan penjelas yang tersedia.

Konsekuensi aneh yang mungkin timbul dari kegagalan untuk menemukan dan bekerja dengan variabel terkait linear diilustrasikan dengan baik dalam makalah baru-baru ini yang mengklaim feminitas efek nama badai dalam data kematian dari 94 badai Atlantik yang membuat pendaratan di AS selama 1950-2012. Lihat http://www.pnas.org/content/111/24/8782.abstract . Data tersedia sebagai bagian dari informasi tambahan. Perhatikan bahwa bekerja dengan log(deaths)dan menggunakan model linear teori normaL (fungsi R lm()) kira-kira setara dengan penggunaan Jung et al dari model regresi binomial negatif.

Jika salah satu regresi log(E[deaths])pada log(NDAM), tidak ada yang tersisa untuk variabel tekanan minimum, variabel keperempuanan, dan interaksi, untuk menjelaskan. Variabel log(NDAM), tidak NDAM, muncul dalam matriks sebar karena secara linier terkait dengan variabel tekanan minimum. Distribusinya juga jauh lebih miring, lebih dekat ke simetris.

Jung et al kemunduran log(E[deaths])pada NDAM(dinormalisasi kerusakan), ditambah variabel-variabel lainnya dan interaksi. Persamaan yang kemudian muncul digunakan untuk menceritakan sebuah kisah di mana feminitas nama memiliki efek yang besar.

Untuk melihat betapa anehnya itu digunakan NDAMsebagai variabel penjelas dalam regresi di mana variabel hasil log(E[deaths]), plot log(deaths+0.5)atau log(deaths+1)menentang NDAM. Kemudian ulangi plot dengan log(NDAM)di tempat NDAM. Kontras bahkan lebih mencolok jika Katrina dan Audrey, yang dihilangkan Jung dkk sebagai pencilan, dimasukkan dalam plot. Dengan bersikeras menggunakan NDAMsebagai variabel penjelas, alih-alih log(NDAM), Jung dkk melewatkan kesempatan untuk menemukan bentuk hubungan regresi yang sangat sederhana.

NB yaitu E[deaths]jumlah kematian yang diprediksi oleh model.

Dalam data Jung et al, transformasi yang diperlukan dapat diidentifikasi dari matriks sebar semua variabel. Coba mungkin fungsi R spm()dalam rilis terbaru dari paket mobil untuk R, with transform=TRUEdan (dengan deathssebagai variabel) family="yjPower". Atau bereksperimen dengan transformasi yang disarankan oleh matriks sebar awal. Secara umum, saran yang lebih disukai mungkin untuk mencari terlebih dahulu untuk variabel penjelas yang memenuhi persyaratan prediktor linier, kemudian memperhatikan variabel hasil, mungkin menggunakan fungsi mobil invTranPlot().

Lihat, di samping "Analisis Data dan Grafik Menggunakan R" yang dirujuk oleh penanya:

  • Weisberg: Regresi Linier Terapan. 4th edn, Wiley 2014, hlm.185-203.
  • Fox dan Weisberg: Sahabat R untuk Regresi Terapan. 2nd edn, Sage, 2011, hlm.127-148.
John Maindonald
sumber
1

Saya menemukan seluruh bagian ini agak samar jika tidak benar-benar dipertanyakan. Idealnya, Anda ingin variabel independen Anda menjadi tidak berkorelasi satu sama lain sehingga dapat memberikan informasi tambahan dan tambahan untuk model dalam memperkirakan variabel dependen. Anda mengangkat masalah multikolinieritas melalui korelasi tinggi antara variabel independen, dan Anda benar untuk mengangkat masalah itu dalam keadaan ini.

Lebih penting untuk memeriksa plot pencar dan hubungan linier terkait antara masing-masing variabel independen dan variabel dependen, tetapi tidak antara variabel independen. Ketika melihat plot pencar tersebut (independen pada sumbu X dan bergantung pada sumbu Y) pada saat seperti itu, mungkin ada peluang untuk mengubah variabel independen untuk mengamati kecocokan yang lebih baik apakah itu melalui log, eksponen, atau bentuk polinomial.

Sympa
sumber
1
Pada kalimat kedua Anda: Jika variabel independen sama sekali tidak berkorelasi, maka banyak alasan untuk regresi akan menjadi diperdebatkan. Setiap hubungan bivariat dari seorang prediktor dengan Y akan terlihat sama dengan hubungan ketika semua prediktor lainnya dikendalikan. Dalam hal itu, mengapa harus mengendalikan?
rolando2