Kalimat pertama dari halaman wiki ini mengklaim bahwa "Dalam ekonometrika, masalah endogenitas terjadi ketika variabel penjelas berkorelasi dengan istilah kesalahan. 1 "
Pertanyaan saya adalah bagaimana ini bisa terjadi? Bukankah beta regresi dipilih sedemikian sehingga istilah kesalahannya ortogonal ke ruang kolom dari matriks desain?
regression
penghuni utara
sumber
sumber
Jawaban:
Anda menggabungkan dua jenis istilah "kesalahan". Wikipedia sebenarnya memiliki artikel yang ditujukan untuk perbedaan antara kesalahan dan residu .
Dalam regresi OLS, residual (perkiraan kesalahan atau gangguan istilah Anda) memang dijamin tidak berkorelasi dengan variabel prediktor, dengan asumsi regresi berisi istilah intersep.ε^
Tetapi kesalahan "benar" mungkin berkorelasi dengan kesalahan tersebut , dan inilah yang dianggap sebagai endogenitas.ε
Untuk mempermudah, pertimbangkan model regresi (Anda mungkin melihat ini digambarkan sebagai " proses pembuatan data " yang mendasarinya, atau "DGP", model teoritis yang kami asumsikan menghasilkan nilai ):y
Tidak ada alasan, pada prinsipnya, mengapa tidak dapat dikorelasikan dengan dalam model kami, betapapun kami lebih suka untuk tidak melanggar asumsi OLS standar dengan cara ini. Sebagai contoh, mungkin saja bergantung pada variabel lain yang telah dihilangkan dari model kami, dan ini telah dimasukkan ke dalam istilah gangguan (the adalah tempat kita menggumpalkan semua hal selain yang memengaruhi ). Jika variabel yang dihilangkan ini juga berkorelasi dengan , maka pada gilirannya akan dikorelasikan dengan dan kami memiliki endogenitas (khususnya, bias variabel yang dihilangkan ).ε y ε x y x ε xx ε y ε x y x ε x
Ketika Anda memperkirakan model regresi Anda pada data yang tersedia, kami dapatkan
Karena cara OLS bekerja *, residual akan tidak berkorelasi dengan . Tapi itu tidak berarti kita telah menghindari endogenitas - itu hanya berarti bahwa kita tidak dapat mendeteksinya dengan menganalisis korelasi antara dan , yang akan menjadi (hingga kesalahan numerik) nol. Dan karena asumsi OLS telah dilanggar, kami tidak lagi dijamin properti yang bagus, seperti ketidakberpihakan, kami sangat menikmati OLS. Taksiran kami akan bias. x ε x β 2ε^ x ε^ x β^2
Ε x(∗) Fakta bahwa tidak berkorelasi dengan mengikuti segera dari "persamaan normal" yang kami gunakan untuk memilih perkiraan terbaik kami untuk koefisien.ε^ x
Jika Anda tidak terbiasa dengan pengaturan matriks, dan saya tetap menggunakan model bivariat yang digunakan dalam contoh saya di atas, maka jumlah residu kuadrat adalah dan untuk menemukan optimal dan yang meminimalkan ini kita menemukan persamaan normal, pertama persamaan pertama - Kondisi pesanan untuk perkiraan intersep:b 1 = β 1 b 2 = β 2S(b1,b2)=∑ni=1ε2i=∑ni=1(yi−b1−b2xi)2 b1=β^1 b2=β^2
yang menunjukkan bahwa jumlah (dan karenanya berarti) dari residual adalah nol, sehingga rumus untuk kovarians antara dan variabel apa pun kemudian direduksi menjadi . Kami melihat ini nol dengan mempertimbangkan kondisi orde pertama untuk kemiringan yang diperkirakan, yaitu itu x1ε^ x 1n−1∑ni=1xiε^i
Jika Anda terbiasa bekerja dengan matriks, kami dapat menggeneralisasi ini ke regresi berganda dengan mendefinisikan ; syarat orde pertama untuk meminimalkan pada optimal adalah:S ( b ) b = βS( b ) = ε′ε = ( y- Xb )′( y- Xb ) S( b ) b = β^
Ini menyiratkan setiap baris , dan karenanya setiap kolom , ortogonal ke . Kemudian jika matriks desain memiliki kolom yang (yang terjadi jika model Anda memiliki istilah intersep), kita harus memiliki sehingga residual memiliki jumlah nol dan rata-rata nol . Kovarians antara dan variabel pun lagi dan untuk setiap variabel termasuk dalam model kami, kami tahu jumlah ini adalah nol, karena X ε X Σ n i = 1 ε i = 0 ε x 1X′ X ε^ X ∑ni = 1ε^saya= 0 ε^ x x ε ε x1n−1∑ni=1xiε^i x ε^ adalah ortogonal untuk setiap kolom dari matriks desain. Karenanya ada nol kovarians, dan nol korelasi, antara dan variabel prediktor apa pun .ε^ x
Jika Anda lebih suka tampilan yang lebih geometris , keinginan kami bahwa terletak sedekat mungkin dengan dalam cara Pythagoras , dan fakta bahwa dibatasi pada ruang kolom dari matriks desain , mendiktekan bahwa harus menjadi proyeksi ortogonal dari diamati pada ruang kolom itu. Karenanya vektor residual adalah orthogonal untuk setiap kolom , termasuk vektor yang y y X y y ε =y - y X1nXy^ y y^ X y^ y ε^=y−y^ X 1n jika istilah intersep dimasukkan dalam model. Seperti sebelumnya, ini menyiratkan jumlah residual adalah nol, di mana ortogonalitas vektor residual dengan kolom memastikan itu tidak berkorelasi dengan masing-masing prediktor tersebut.X
Tapi tidak ada yang kami lakukan di sini yang mengatakan apa pun tentang kesalahan sebenarnya . Dengan asumsi ada istilah intersep dalam model kami, residual hanya tidak berkorelasi dengan sebagai konsekuensi matematis dari cara kami memilih untuk memperkirakan koefisien regresi . Cara kami memilih kami mempengaruhi nilai prediksi kami dan dan karenanya residual kami . Jika kita memilih oleh OLS, kita harus menyelesaikan persamaan normal dan ini menegakkan bahwa perkiraan residu kami tidak berkorelasi denganε x β β y ε = y - y β ε x β y E ( y ) ε = y - E ( y ) ε x ε xε ε^ x β^ β^ y^ ε^=y−y^ β^ ε^ x . Pilihan kami mempengaruhi tetapi tidak dan karenanya tidak membebankan kondisi pada kesalahan sebenarnya . Akan menjadi kesalahan untuk berpikir bahwa entah bagaimana "mewarisi" ketidakcocokannya dengan dari asumsi OLS bahwa harus tidak berkorelasi dengan . Ketidakcocokan muncul dari persamaan normal.β^ y^ E(y) ε=y−E(y) ε^ x ε x
sumber
Contoh sederhana:
Proses menghasilkan data adalah:
Jika kami menjalankan regresi itu, kami akan mendapatkan taksiran , , dan , dan dengan data yang cukup, mereka akan konvergen pada , , dan masing-masing. b 1 b 2ab1b2a^ b^1 b^2 a b1 b2
(Catatan teknis: Kami membutuhkan sedikit keacakan sehingga kami tidak membeli tepat satu roti untuk setiap burger yang kami beli di setiap kunjungan ke toko bahan makanan. Jika kami melakukan ini, dan akan menjadi collinear .)x 2x1 x2
Contoh bias variabel yang dihilangkan:
Sekarang mari kita perhatikan modelnya:
Amati bahwa . Karenanya Cov ( x 1 , u )ui=b2xi,2+ϵi
Apakah ini nol? Hampir pasti tidak! Pembelian burger dan pembelian roti hampir pasti berkorelasi! Karenanya, dan berkorelasi!x 2 u x 1x1 x2 kamu x1
Apa yang terjadi jika Anda mencoba menjalankan regresi?
Jika Anda mencoba menjalankan:
Perkiraan Anda hampir pasti merupakan perkiraan buruk dari karena estimasi regresi OLS akan dibangun sehingga dan tidak berkorelasi dalam sampel Anda. Tapi sebenarnya berkorelasi dengan dalam populasi!b1 a , b , u u x1ux1b^1 b1 Sebuah^, b^, kamu^ kamu^ x1 kamu x1
Apa yang akan terjadi dalam praktik jika Anda melakukan ini? Perkiraan Anda dari harga burger akan JUGA pickup harga roti. Katakanlah setiap kali Anda membeli burger $ 1, Anda cenderung membeli roti $ 0,50 (tetapi tidak setiap saat). Perkiraan Anda tentang harga burger mungkin $ 1,40. Anda akan mengambil saluran burger dan saluran roti dalam perkiraan harga burger Anda.b^1
sumber
Misalkan kita sedang membangun regresi dari berat seekor binatang pada ketinggiannya. Jelas, berat lumba-lumba akan diukur secara berbeda (dalam prosedur yang berbeda dan menggunakan instrumen yang berbeda) dari berat gajah atau ular. Ini berarti bahwa kesalahan model akan tergantung pada ketinggian, yaitu variabel penjelas. Mereka bisa bergantung dalam banyak cara berbeda. Misalnya, mungkin kita cenderung sedikit melebih-lebihkan bobot gajah dan sedikit meremehkan ular, dll.
Jadi, di sini kami menetapkan bahwa mudah untuk berakhir dengan situasi ketika kesalahan berkorelasi dengan variabel penjelas. Sekarang, jika kita mengabaikan ini dan melanjutkan ke regresi seperti biasa, kita akan melihat bahwa regresi residual yang tidak berkorelasi dengan matriks desain. Ini karena, dengan desain regresi memaksa residu menjadi tidak berkorelasi. Perhatikan, juga bahwa residual yang tidak pada kesalahan , mereka yang perkiraankesalahan. Jadi, terlepas dari apakah kesalahan itu sendiri berkorelasi atau tidak dengan variabel independen, estimasi kesalahan (residu) tidak akan berkorelasi dengan pembangunan solusi persamaan regresi.
sumber