Apa yang dijelaskan oleh Plot Variabel Tambahan (Plot Regresi Parsial) dalam suatu regresi berganda?

17

Saya memiliki model dataset Film dan saya menggunakan regresi:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

Yang memberi output:

masukkan deskripsi gambar di sini

Sekarang saya mencoba mengerjakan sesuatu yang disebut Added Variable Plot pertama kali dan saya mendapat hasil sebagai berikut:

car::avPlots(model, id.n=2, id.cex=0.7)

Menambahkan Plot Variabel

Masalahnya adalah saya mencoba untuk memahami Plot Variabel Ditambahkan menggunakan google tapi saya tidak bisa memahami kedalamannya, melihat plot saya mengerti bahwa jenis representasi skewing berdasarkan masing-masing variabel input yang terkait dengan output.

Bisakah saya mendapatkan sedikit lebih banyak rincian seperti bagaimana itu membenarkan normalisasi data?

Abhishek Choudhary
sumber
4
@Silverfish telah memberikan jawaban yang bagus untuk pertanyaan Anda. Pada detail kecil apa yang harus dilakukan dengan dataset khusus Anda, model linier terlihat seperti ide yang sangat buruk. Voting secara nyata adalah variabel non-negatif yang sangat miring, jadi sesuatu seperti model Poisson diindikasikan. Lihat misalnya blog.stata.com/tag/poisson-regress Perhatikan bahwa model seperti itu tidak membuat Anda berasumsi bahwa distribusi marginal dari respons adalah Poisson persis seperti model linear standar yang membuat Anda mempostulatkan normalitas marginal.
Nick Cox
2
Salah satu cara untuk melihat bahwa model linier bekerja dengan buruk adalah dengan mencatat bahwa ia memprediksi nilai-nilai negatif untuk sebagian besar kasus. Lihat bagian kiri pas pada plot sisa pertama. =0
Nick Cox
Terima kasih Nick Cox, di sini saya menemukan bahwa ada sifat non-negatif yang sangat miring, saya harus mempertimbangkan model Poisson, jadi apakah ada tautan yang memberi saya ide yang tepat tentang model mana yang akan digunakan dalam skenario mana yang didasarkan pada dataset dan saya mencoba menggunakan Regresi polinomial untuk dataset saya, apakah itu akan menjadi pilihan yang tepat di sini ...
Abhishek Choudhary
1
Saya sudah memberikan tautan yang pada gilirannya memberikan referensi lebih lanjut. Maaf, tapi saya tidak mengerti bagian kedua dari pertanyaan Anda dengan referensi "skenario berdasarkan dataset" dan "regresi polinomial". Saya menduga Anda perlu mengajukan pertanyaan baru dengan lebih detail.
Nick Cox
Paket apa yang Anda instal sehingga R mengenali fungsinya avPlots?
Yes

Jawaban:

36

Sebagai ilustrasi saya akan mengambil model regresi yang kurang kompleks mana variabel prediktor dan dapat dikorelasikan. Katakanlah slope dan keduanya positif sehingga kita dapat mengatakan bahwa (i) meningkat ketika meningkat, jika dijaga konstan, karena positif; (ii) meningkat seiring meningkat, jika dinyatakan konstan, karena positif.Y=β1+β2X2+β3X3+ϵX2X3X 2 β 3β2β3YX2X3β2YX3X2β3

Perhatikan bahwa penting untuk menafsirkan koefisien regresi berganda dengan mempertimbangkan apa yang terjadi ketika variabel-variabel lain tetap konstan ("ceteris paribus"). Misalkan saya baru saja mundur terhadap dengan model . Perkiraan saya untuk koefisien kemiringan , yang mengukur efek pada dari peningkatan satu unit di tanpa memegang konstanta , mungkin berbeda dari perkiraan saya dari regresi berganda - yang juga mengukur efek pada dari peningkatan satu unit di , tapi ituYX2Y=β1+β2X2+ϵβ2YX2 X 3X3β2YX2X 3 ^ β tidak memegang konstan. Masalah dengan perkiraan saya adalah bahwa ia menderita bias variabel yang dihilangkan jika dan berkorelasi.X3β2^ X2X3X2X3

Untuk memahami alasannya, bayangkan dan berkorelasi negatif. Sekarang ketika saya meningkatkan oleh satu unit, saya tahu nilai rata-rata harus meningkat sejak . Tapi seperti meningkat, jika kita tidak memegang konstan maka cenderung menurun, dan karena ini akan cenderung mengurangi nilai rata-rata dari . Jadi efek keseluruhan dari peningkatan satu unit dalam akan tampak lebih rendah jika saya mengizinkan juga bervariasi, karenanya . Hal-hal semakin buruk, semakin kuat danX2X3X2Yβ2>0X2X3X3β3>0YX2X3β2<β2X2X3X 3 β 3 β ' 2 < 0 X 2 Y berkorelasi, dan semakin besar efek hingga - dalam kasus yang sangat parah kita bahkan dapat menemukan walaupun kita tahu bahwa, paribus, memiliki pengaruh positif pada !X3β3β2<0X2Y

Mudah-mudahan sekarang Anda bisa melihat mengapa menggambar grafik terhadap akan menjadi cara yang buruk untuk memvisualisasikan hubungan antara dan dalam model Anda. Dalam contoh saya, mata Anda akan tertarik ke garis yang paling cocok dengan kemiringan yang tidak mencerminkan dari model regresi Anda. Dalam kasus terburuk, model Anda dapat memprediksi bahwa meningkat seiring meningkat (dengan variabel lain dianggap konstan), namun titik-titik pada grafik menyarankan menurun ketika meningkat.YX2YX2β2^β2^YX2YX2

Masalahnya adalah bahwa dalam grafik sederhana terhadap , variabel lainnya tidak dianggap konstan. Ini adalah wawasan penting tentang manfaat dari plot variabel tambahan (juga disebut plot regresi parsial) - menggunakan teorema Frisch-Waugh-Lovell untuk "memisah-misahkan" efek dari prediktor lain. Sumbu horizonal dan vertikal pada plot mungkin paling mudah dipahami * sebagai " setelah prediktor lain dicatat" dan " setelah prediktor lain dicatat". Anda sekarang dapat melihat hubungan antara dan setelah semua prediktor lain dihitungYX2X2YYX2 . Jadi misalnya, kemiringan yang dapat Anda lihat di setiap plot sekarang mencerminkan koefisien regresi parsial dari model regresi berganda asli Anda.

Banyak nilai plot variabel yang ditambahkan muncul pada tahap diagnostik regresi, terutama karena residu dalam plot variabel yang ditambahkan adalah residu dari regresi berganda yang asli. Ini berarti outlier dan heteroskedastisitas dapat diidentifikasi dengan cara yang mirip dengan ketika melihat plot model regresi sederhana daripada beberapa. Poin yang berpengaruh juga dapat dilihat - ini berguna dalam regresi berganda karena beberapa poin yang berpengaruh tidak jelas dalam data asli sebelum Anda mempertimbangkan variabel lain. Dalam contoh saya, nilai cukup besar mungkin tidak terlihat tidak pada tempatnya dalam tabel data, tetapi jika nilai besar juga meskipun danX2X3X2X3berkorelasi negatif maka kombinasinya jarang. "Akuntansi untuk prediktor lain", nilai itu luar biasa besar dan akan lebih menonjol di plot variabel tambahan Anda.X2

Lebih teknis mereka akan menjadi residu dari menjalankan dua regresi berganda lainnya: residual dari regresi terhadap semua prediktor selain pergi pada sumbu vertikal, sedangkan residu dari regresi terhadap semua prediktor lainnya pergi pada sumbu horizontal. Inilah yang benar-benar oleh legenda " diberikan kepada orang lain" dan " diberikan kepada orang lain". Karena sisa rata-rata dari kedua regresi ini adalah nol, titik rata-rata ( diberikan kepada orang lain,YX2X2YX2X2Ydiberikan orang lain) hanya akan (0, 0) yang menjelaskan mengapa garis regresi dalam plot variabel yang ditambahkan selalu melewati titik asal. Tetapi saya sering menemukan bahwa menyebutkan sumbu hanyalah residu dari regresi lain membingungkan orang (tidak mengherankan mungkin karena kita sekarang berbicara tentang empat regresi berbeda!) Jadi saya telah mencoba untuk tidak memikirkan masalah ini. Pahami mereka sebagai " memberi orang lain" dan " memberi orang lain" dan Anda harus baik-baik saja.X2Y

Gegat
sumber
Tidak yakin bagaimana menanyakan hal ini, tetapi adakah yang bisa dikatakan tentang tren yang terlihat dalam plot? Misalnya apakah kebaikan cocok dari setiap tren berhubungan dengan seberapa independen masing-masing prediktor, atau sesuatu seperti itu?
naught101
2
Apakah ada metode untuk menerjemahkan satuan residu pada sumbu horizontal dan vertikal ke dalam unit variabel yang mendasarinya?
Nicholas G
Ini adalah jawaban yang sangat bagus. Tetapi apakah ada kesalahan ketik pada paragraf pertama Anda (variabel prediktor)? Haruskah mereka X2 dan X3?
detly
@tetly Terima kasih, berubah!
Silverfish
Gegat, apakah Anda tahu jawaban untuk pertanyaan @NicholasG? Apakah ada cara untuk membuat residu dapat ditafsirkan dalam satuan unit variabel-X?
Parseltongue
-1

adakah yang bisa dikatakan tentang tren yang terlihat dalam plot

Tentu saja, kemiringan mereka adalah koefisien regresi dari model asli (koefisien regresi parsial, semua prediktor lain dianggap konstan)

anonim
sumber