Saya memiliki model dataset Film dan saya menggunakan regresi:
model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)
Yang memberi output:
Sekarang saya mencoba mengerjakan sesuatu yang disebut Added Variable Plot pertama kali dan saya mendapat hasil sebagai berikut:
car::avPlots(model, id.n=2, id.cex=0.7)
Masalahnya adalah saya mencoba untuk memahami Plot Variabel Ditambahkan menggunakan google tapi saya tidak bisa memahami kedalamannya, melihat plot saya mengerti bahwa jenis representasi skewing berdasarkan masing-masing variabel input yang terkait dengan output.
Bisakah saya mendapatkan sedikit lebih banyak rincian seperti bagaimana itu membenarkan normalisasi data?
regression
data-visualization
multiple-regression
scatterplot
Abhishek Choudhary
sumber
sumber
avPlots
?Jawaban:
Sebagai ilustrasi saya akan mengambil model regresi yang kurang kompleks mana variabel prediktor dan dapat dikorelasikan. Katakanlah slope dan keduanya positif sehingga kita dapat mengatakan bahwa (i) meningkat ketika meningkat, jika dijaga konstan, karena positif; (ii) meningkat seiring meningkat, jika dinyatakan konstan, karena positif.Y=β1+β2X2+β3X3+ϵ X2 X3 X 2 β 3β2 β3 Y X2 X3 β2 Y X3 X2 β3
Perhatikan bahwa penting untuk menafsirkan koefisien regresi berganda dengan mempertimbangkan apa yang terjadi ketika variabel-variabel lain tetap konstan ("ceteris paribus"). Misalkan saya baru saja mundur terhadap dengan model . Perkiraan saya untuk koefisien kemiringan , yang mengukur efek pada dari peningkatan satu unit di tanpa memegang konstanta , mungkin berbeda dari perkiraan saya dari regresi berganda - yang juga mengukur efek pada dari peningkatan satu unit di , tapi ituY X2 Y=β′1+β′2X2+ϵ′ β′2 Y X2 X 3X3 β2 Y X2 X 3 ^ β ′tidak memegang konstan. Masalah dengan perkiraan saya adalah bahwa ia menderita bias variabel yang dihilangkan jika dan berkorelasi.X3 β′2^ X2X3X2 X3
Untuk memahami alasannya, bayangkan dan berkorelasi negatif. Sekarang ketika saya meningkatkan oleh satu unit, saya tahu nilai rata-rata harus meningkat sejak . Tapi seperti meningkat, jika kita tidak memegang konstan maka cenderung menurun, dan karena ini akan cenderung mengurangi nilai rata-rata dari . Jadi efek keseluruhan dari peningkatan satu unit dalam akan tampak lebih rendah jika saya mengizinkan juga bervariasi, karenanya . Hal-hal semakin buruk, semakin kuat danX2 X3 X2 Y β2>0 X2 X3 X3 β3>0 Y X2 X3 β′2<β2 X2 X3 X 3 β 3 β ' 2 < 0 X 2 Y berkorelasi, dan semakin besar efek hingga - dalam kasus yang sangat parah kita bahkan dapat menemukan walaupun kita tahu bahwa, paribus, memiliki pengaruh positif pada !X3 β3 β′2<0 X2 Y
Mudah-mudahan sekarang Anda bisa melihat mengapa menggambar grafik terhadap akan menjadi cara yang buruk untuk memvisualisasikan hubungan antara dan dalam model Anda. Dalam contoh saya, mata Anda akan tertarik ke garis yang paling cocok dengan kemiringan yang tidak mencerminkan dari model regresi Anda. Dalam kasus terburuk, model Anda dapat memprediksi bahwa meningkat seiring meningkat (dengan variabel lain dianggap konstan), namun titik-titik pada grafik menyarankan menurun ketika meningkat.Y X2 Y X2 β′2^ β2^ Y X2 Y X2
Masalahnya adalah bahwa dalam grafik sederhana terhadap , variabel lainnya tidak dianggap konstan. Ini adalah wawasan penting tentang manfaat dari plot variabel tambahan (juga disebut plot regresi parsial) - menggunakan teorema Frisch-Waugh-Lovell untuk "memisah-misahkan" efek dari prediktor lain. Sumbu horizonal dan vertikal pada plot mungkin paling mudah dipahami * sebagai " setelah prediktor lain dicatat" dan " setelah prediktor lain dicatat". Anda sekarang dapat melihat hubungan antara dan setelah semua prediktor lain dihitungY X2 X2 Y Y X2 . Jadi misalnya, kemiringan yang dapat Anda lihat di setiap plot sekarang mencerminkan koefisien regresi parsial dari model regresi berganda asli Anda.
Banyak nilai plot variabel yang ditambahkan muncul pada tahap diagnostik regresi, terutama karena residu dalam plot variabel yang ditambahkan adalah residu dari regresi berganda yang asli. Ini berarti outlier dan heteroskedastisitas dapat diidentifikasi dengan cara yang mirip dengan ketika melihat plot model regresi sederhana daripada beberapa. Poin yang berpengaruh juga dapat dilihat - ini berguna dalam regresi berganda karena beberapa poin yang berpengaruh tidak jelas dalam data asli sebelum Anda mempertimbangkan variabel lain. Dalam contoh saya, nilai cukup besar mungkin tidak terlihat tidak pada tempatnya dalam tabel data, tetapi jika nilai besar juga meskipun danX2 X3 X2 X3 berkorelasi negatif maka kombinasinya jarang. "Akuntansi untuk prediktor lain", nilai itu luar biasa besar dan akan lebih menonjol di plot variabel tambahan Anda.X2
sumber
Tentu saja, kemiringan mereka adalah koefisien regresi dari model asli (koefisien regresi parsial, semua prediktor lain dianggap konstan)
sumber