Saya menggunakan regresi linier berganda untuk menggambarkan hubungan antara Y dan X1, X2.
Dari teori saya mengerti bahwa regresi berganda mengasumsikan hubungan linier antara Y dan masing-masing X (Y dan X1, Y dan X2). Saya tidak menggunakan transformasi X.
Jadi, saya mendapatkan model dengan R = 0,45 dan semua X signifikan (P <0,05). Lalu aku merencanakan Y melawan X1. Saya tidak mengerti mengapa lingkaran berwarna merah yang merupakan prediksi model tidak membentuk garis. Seperti yang saya katakan sebelumnya, saya berharap bahwa setiap pasangan Y dan X dilengkapi oleh garis.
Plot dihasilkan dalam python dengan cara ini:
fig, ax = plt.subplots()
plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro');
ax.set_title('blue: true, red: OLS')
ax.set_xlabel('X')
ax.set_ylabel('Y')
plt.show()
regression
multiple-regression
python
linear
Klausos
sumber
sumber
Jawaban:
Misalkan persamaan regresi berganda Anda
di mana berarti "diprediksi ". yy^ y
Sekarang ambil hanya titik-titik yang . Lalu jika Anda merencanakan terhadap , poin-poin ini akan memenuhi persamaan:y x 1x2=1 y^ x1
Jadi mereka harus berbaring di garis kemiringan 2 dan dengan masuk 8.y
Sekarang ambil poin-poin itu untuk mana . Saat Anda merencanakan terhadap , maka poin-poin ini memenuhi:y x 1x2=2 y^ x1
Jadi itu garis kemiringan 2 dan dengan -intercept 13. Anda dapat memverifikasi sendiri bahwa jika maka Anda mendapatkan garis kemiringan 2 dan -intercept adalah 18.x 2 = 3 yy x2=3 y
Kita melihat bahwa titik-titik dengan nilai yang berbeda akan terletak pada garis yang berbeda, tetapi semua dengan gradien yang sama: arti dari koefisien dalam persamaan regresi asli adalah bahwa, ceteris paribus yaitu memegang prediktor lain konstan, peningkatan satu unit dalam meningkatkan respons rata-rata yang diperkirakan dua kali lipat dengan dua unit, sedangkan arti intersep dalam persamaan regresi adalah bahwa ketika dan maka respons rata-rata yang diprediksi adalah . Tetapi tidak semua poin Anda memiliki sama 2 x 1 x 1 y 3 x 1 = 0 x 2 = 0 3 x 2 3 x 2 = 0 x 2 x 2 y = 2 x 1 + 5 x 2 + 3x2 2x1 x1 y^ 3 x1=0 x2=0 3 x2 , yang berarti mereka berbaring di garis dengan intersep yang berbeda - garis hanya akan memiliki intersep untuk titik-titik yang . Jadi daripada melihat satu baris, Anda dapat melihat (jika hanya ada nilai-nilai tertentu yang terjadi, misalnya jika selalu bilangan bulat) serangkaian "coretan" diagonal. Pertimbangkan data berikut, di mana .3 x2=0 x2 x2 y^=2x1+5x2+3
Di sini ada "coretan" yang jelas. Sekarang jika saya mewarnai titik-titik yang sebagai lingkaran merah, sebagai segitiga emas dan sebagai kotak biru kita melihat mereka terletak pada tiga garis yang berbeda, semua kemiringan 2, dan -intercepts 8, 13 dan 18 sebagaimana dihitung di atas. Tentu saja, jika tidak dibatasi untuk mengambil nilai integer, atau situasinya rumit oleh variabel prediktor lain yang dimasukkan dalam regresi, maka goresan diagonal akan menjadi kurang jelas, tetapi masih akan menjadi kasus di mana setiap titik prediksi terletak pada baris terpisah berdasarkan nilai-nilai prediktor lain yang tidak ditampilkan pada grafik .x 2 = 2 x 2 = 3 y x 2x2=1 x2=2 x2=3 y x2
Jika Anda memplot grafik 3-dimensi terhadap dan , maka semua poin yang Anda prediksi semuanya terletak pada bidang dua dimensi dengan persamaan . The vs grafik saya jelaskan di atas adalah proyeksi dari yang grafik tiga dimensi ke dua dimensi - bayangkan lapisan diri dengan sumbu sehingga Anda mencari lurus ke bawah itu, sedangkan sumbu poin ke atas dan sumbu menunjuk ke kanan Anda.y x1 x2 y^=2x1+5x2+3 y x1 x2 y x1
Perhatikan bahwa semua titik terletak pada bidang datar tepat karena saya telah menggambar nilai sesuai (yaitu diprediksi) . Jika kita menggambar plot menggunakan nilai-nilai diamati maka ini akan terletak secara vertikal di atas atau di bawah titik-titik ini, tergantung pada apakah residualnya positif atau negatif.y y
Hubungan antara dan adalah linier ketika dikontrol untuk (yaitu untuk konstan , hubungan antara dan adalah garis lurus), yang sering digambarkan sebagai "partialling out" efek . Jika Anda ingin menggambar plot yang menunjukkan hubungan antara dan dengan mempertimbangkan variasi dalam maka Anda dapat menggunakan "plot regresi parsial" (juga disebut "plot variabel ditambahkan"), di mana hubungan antara dan akany^ x1 x2 x2 y^ x1 x2 y x1 x2 y x1 ditarik sebagai garis lurus tunggal.
Kode untuk plot R
sumber