Saya sedang membaca bab regresi berganda Analisis Data dan Grafik Menggunakan R: Sebuah Pendekatan Berbasis Contoh dan agak bingung untuk mengetahui bahwa itu merekomendasikan memeriksa hubungan linear antara variabel penjelas (menggunakan sebar scatter) dan, jika ada t apapun, mengubah mereka sehingga mereka jangan menjadi lebih terkait linear. Berikut beberapa kutipannya:
6.3 Strategi untuk memasang model regresi berganda
(...)
Periksa matriks sebar yang melibatkan semua variabel penjelas. (Termasuk variabel dependen adalah, pada titik ini, opsional. ) Cari dulu untuk bukti non-linearitas dalam plot variabel penjelas terhadap satu sama lain.
(...)
Poin ini mengidentifikasi strategi pencarian model - mencari model di mana hubungan regresi antara variabel penjelas mengikuti bentuk linear "sederhana" . Jadi, jika beberapa plot berpasangan menunjukkan bukti non-linearitas, pertimbangkan penggunaan transformasi untuk memberikan hubungan yang lebih linier . Meskipun belum tentu terbukti mungkin, mengikuti strategi ini, untuk memodelkan hubungan regresi secara memadai, ini adalah strategi yang baik, untuk alasan yang diberikan di bawah ini, untuk mengikuti dalam memulai pencarian.
(...)
Jika hubungan antara variabel penjelas mendekati linier, mungkin setelah transformasi, maka mungkin untuk menafsirkan plot variabel prediktor terhadap variabel respons dengan keyakinan.
(...)
Mungkin tidak mungkin untuk menemukan transformasi dari satu atau lebih variabel penjelas yang memastikan hubungan (berpasangan) yang ditunjukkan dalam panel tampak linier. Ini dapat menciptakan masalah baik untuk interpretasi plot diagnostik untuk setiap persamaan regresi pas dan untuk interpretasi koefisien dalam persamaan pas. Lihat Cook dan Weisberg (1999).
Tidakkah saya harus khawatir tentang hubungan linier antara variabel dependen (karena risiko multikolinieritas) daripada secara aktif mengejar mereka? Apa keuntungan memiliki variabel terkait linear?
Para penulis memang membahas masalah multikolinearitas nanti dalam bab ini, tetapi rekomendasi ini tampaknya bertentangan dengan menghindari multikolinearitas.
sumber
Hubungan linear antara masing-masing variabel penjelas dan variabel terikat akan memastikan juga hubungan linier antara variabel penjelas. Kebalikannya tentu saja tidak benar.
Memang benar bahwa transformasi yang dirancang untuk memberikan perkiraan linearitas akan meningkatkan kolinearitas. Namun, dengan tidak adanya transformasi semacam itu, collinearity disembunyikan. Bersikeras menjaga collinearlity sehingga tersembunyi dapat menghasilkan persamaan regresi yang rumit dan tidak dapat diinterpretasikan, di mana bentuk sederhana persamaan tersedia.
Misalkan
y
dekat dengan fungsi linierlog(x1)
, dalam kasus di manax
rentang nilai yang berbeda dengan faktor 10 atau lebih. Kemudian jikax
digunakan sebagai regresi, variabel penjelas lainnya akan jika mungkin diminta untuk menjelaskan nonlinier dalam hubungan dengan x1. Hasilnya mungkin hubungan regresi yang sangat rumit, dengan koefisien yang tidak dapat ditafsirkan, sebagai pengganti bentuk sederhana dari persamaan regresi yang menangkap semua kekuatan penjelas yang tersedia.Konsekuensi aneh yang mungkin timbul dari kegagalan untuk menemukan dan bekerja dengan variabel terkait linear diilustrasikan dengan baik dalam makalah baru-baru ini yang mengklaim feminitas efek nama badai dalam data kematian dari 94 badai Atlantik yang membuat pendaratan di AS selama 1950-2012. Lihat http://www.pnas.org/content/111/24/8782.abstract . Data tersedia sebagai bagian dari informasi tambahan. Perhatikan bahwa bekerja dengan
log(deaths)
dan menggunakan model linear teori normaL (fungsi Rlm()
) kira-kira setara dengan penggunaan Jung et al dari model regresi binomial negatif.Jika salah satu regresi
log(E[deaths])
padalog(NDAM)
, tidak ada yang tersisa untuk variabel tekanan minimum, variabel keperempuanan, dan interaksi, untuk menjelaskan. Variabellog(NDAM)
, tidakNDAM
, muncul dalam matriks sebar karena secara linier terkait dengan variabel tekanan minimum. Distribusinya juga jauh lebih miring, lebih dekat ke simetris.Jung et al kemunduran
log(E[deaths])
padaNDAM
(dinormalisasi kerusakan), ditambah variabel-variabel lainnya dan interaksi. Persamaan yang kemudian muncul digunakan untuk menceritakan sebuah kisah di mana feminitas nama memiliki efek yang besar.Untuk melihat betapa anehnya itu digunakan
NDAM
sebagai variabel penjelas dalam regresi di mana variabel hasillog(E[deaths])
, plotlog(deaths+0.5)
ataulog(deaths+1)
menentangNDAM
. Kemudian ulangi plot denganlog(NDAM)
di tempatNDAM
. Kontras bahkan lebih mencolok jika Katrina dan Audrey, yang dihilangkan Jung dkk sebagai pencilan, dimasukkan dalam plot. Dengan bersikeras menggunakanNDAM
sebagai variabel penjelas, alih-alihlog(NDAM)
, Jung dkk melewatkan kesempatan untuk menemukan bentuk hubungan regresi yang sangat sederhana.NB yaitu
E[deaths]
jumlah kematian yang diprediksi oleh model.Dalam data Jung et al, transformasi yang diperlukan dapat diidentifikasi dari matriks sebar semua variabel. Coba mungkin fungsi R
spm()
dalam rilis terbaru dari paket mobil untuk R, withtransform=TRUE
dan (dengandeaths
sebagai variabel)family="yjPower"
. Atau bereksperimen dengan transformasi yang disarankan oleh matriks sebar awal. Secara umum, saran yang lebih disukai mungkin untuk mencari terlebih dahulu untuk variabel penjelas yang memenuhi persyaratan prediktor linier, kemudian memperhatikan variabel hasil, mungkin menggunakan fungsi mobilinvTranPlot()
.Lihat, di samping "Analisis Data dan Grafik Menggunakan R" yang dirujuk oleh penanya:
sumber
Saya menemukan seluruh bagian ini agak samar jika tidak benar-benar dipertanyakan. Idealnya, Anda ingin variabel independen Anda menjadi tidak berkorelasi satu sama lain sehingga dapat memberikan informasi tambahan dan tambahan untuk model dalam memperkirakan variabel dependen. Anda mengangkat masalah multikolinieritas melalui korelasi tinggi antara variabel independen, dan Anda benar untuk mengangkat masalah itu dalam keadaan ini.
Lebih penting untuk memeriksa plot pencar dan hubungan linier terkait antara masing-masing variabel independen dan variabel dependen, tetapi tidak antara variabel independen. Ketika melihat plot pencar tersebut (independen pada sumbu X dan bergantung pada sumbu Y) pada saat seperti itu, mungkin ada peluang untuk mengubah variabel independen untuk mengamati kecocokan yang lebih baik apakah itu melalui log, eksponen, atau bentuk polinomial.
sumber