Apa yang terjadi ketika saya memasukkan variabel kuadrat dalam regresi saya?

20

Saya mulai dengan regresi OLS saya:

y=β0+β1x1+β2D+ε
mana D adalah variabel dummy, perkiraan menjadi berbeda dari nol dengan nilai p yang rendah. Saya kemudian membentuk tes Ramsey RESET dan menemukan bahwa saya memiliki beberapa kesalahan persamaan, dengan demikian saya memasukkan kuadrat x:
y=β0+β1x1+β2x12+β3D+ε
  1. Apa yang dijelaskan istilah kuadrat? (Peningkatan non-linear pada Y?)
  2. Dengan melakukan ini, perkiraan D saya tidak berbeda dari nol lagi, dengan nilai p tinggi. Bagaimana cara menafsirkan istilah kuadrat dalam persamaan saya (secara umum)?

Sunting: Memperbaiki pertanyaan.

seini
sumber
1
Alasan yang mungkin: dan D tampaknya menjelaskan variabilitas yang sama pada yx12Dy
steadyfish
3
Satu hal yang mungkin membantu adalah memusatkan sebelum membuat istilah kuadrat Anda (lihat di sini ). Adapun interpretasi istilah kuadrat Anda, saya berpendapat bahwa yang terbaik adalah menafsirkan β 1 x 1 + β 2 x 2 1 secara keseluruhan (lihat di sini ). Hal lain adalah bahwa Anda mungkin perlu interaksi, yang berarti menambah β 4 x 1 D + β 5 x 2 1 D . x β1x1+β2x12 β4x1D+β5x12D
gung - Reinstate Monica
Saya tidak berpikir itu benar-benar duplikat dari pertanyaan itu; solusinya berbeda (variabel pemusatan bekerja di sini, tetapi tidak di sana, kecuali saya salah)
Peter Flom - Reinstate Monica
@ Peter, saya menafsirkan pertanyaan ini sebagai bagian dari "Mengapa ketika saya menambahkan variabel ke model saya, efek perkiraan / nilai untuk beberapa perubahan variabel lainnya?", Yang dibahas dalam pertanyaan lain. Di antara jawaban pertanyaan yang collinearity (yang gung tidak menyinggung hal dalam jawabannya untuk yang pertanyaan) / konten tumpang tindih antara prediktor (yaitu antara D dan ( x 1 , x 2 1 ) , yang saya duga adalah penyebab dalam kasus ini) . Logika yang sama berlaku di sini. Saya tidak yakin apa kontroversi itu tetapi tidak apa-apa jika Anda dan orang lain tidak setuju. Tepuk tangan. pD(x1,x12)
Makro

Jawaban:

21

Nah, pertama, variabel dummy diartikan sebagai perubahan intersep. Artinya, koefisien Anda memberi Anda perbedaan dalam intersep ketika D = 1 , yaitu ketika D = 1 , intersepnya adalah β 0 +β3D=1D=1 . Interpretasi itu tidak berubah ketika menambahkan kuadrat x 1 .β0+β3x1

Sekarang, titik menambahkan kuadrat ke seri adalah bahwa Anda menganggap bahwa hubungan itu hilang pada titik tertentu. Melihat persamaan kedua Anda

y=β0+β1x1+β2x12+β3D+ε

Mengambil turunan wrt hasilx1

δyδx1=β1+2β2x1

Memecahkan persamaan ini memberi Anda titik balik hubungan. Seperti yang dijelaskan oleh user1493368, ini memang mencerminkan bentuk-U terbalik jika β1<0

y^=1.3+0.42x10.32x12+0.14D

x1

δyδx1=0.4220.32x1

x1

δyδx1=0x10.66

Itulah titik di mana hubungan memiliki titik baliknya. Anda dapat melihat output Wolfram-Alpha untuk fungsi di atas, untuk beberapa visualisasi masalah Anda.

x1y

Δy=(β1+2β2x1)Δx

β1x12

Dx1 , itu menunjuk pada bias kesalahan spesifikasi.

altabq
sumber
Hai. Jika Anda memiliki beberapa prediktor, apakah Anda harus menggunakan turunan parsial atau total turunan (perbedaan)?
skan
1
Turunan parsial masih merupakan cara yang tepat untuk pergi ke sini. Interpretasi dari semua koefisien adalah ceteris paribus , yaitu, mempertahankan semua yang lain konstan. Itulah tepatnya yang Anda lakukan saat mengambil turunan parsial.
altabq
Lihat halaman UCLA IDRE ini untuk melengkapi jawaban hebat altabq.
Cyrille
19

Contoh yang baik termasuk kuadrat variabel berasal dari ekonomi tenaga kerja. Jika Anda menganggap negatif. Maksudnya di sini adalah harus ada dasar teoretis / justifikasi empiris untuk memasukkan kuadrat variabel. Variabel dummy, di sini, dapat dianggap mewakili gender pekerja. Anda juga dapat memasukkan istilah interaksi jenis kelamin dan usia untuk memeriksa apakah perbedaan gender bervariasi berdasarkan usia.y sebagai upah (atau log upah) dan xsebagai usia, maka termasuk x^2berarti Anda menguji hubungan kuadratik antara usia dan penghasilan upah. Upah meningkat dengan bertambahnya usia ketika orang menjadi lebih berpengalaman tetapi pada usia yang lebih tinggi, upah mulai meningkat pada tingkat yang menurun (orang menjadi lebih tua dan mereka tidak akan begitu sehat untuk bekerja seperti sebelumnya) dan pada suatu titik upah tidak tumbuh ( mencapai tingkat upah optimal) dan kemudian mulai turun (mereka pensiun dan penghasilan mereka mulai berkurang). Jadi, hubungan antara upah dan usia terbalik berbentuk U (efek siklus hidup). Secara umum, untuk contoh yang disebutkan di sini, koefisien on agediharapkan positif dan daripada onage^2

Metrik
sumber