Saya mencoba memahami notasi matriks, dan bekerja dengan vektor dan matriks.
Saat ini saya ingin memahami bagaimana vektor estimasi koefisien dalam regresi berganda dihitung.
Persamaan dasarnya tampaknya
Sekarang bagaimana saya menyelesaikan vektor sini?
Sunting : Tunggu, saya mandek. Saya di sini sekarang dan tidak tahu bagaimana melanjutkan:
Dengan untuk semua menjadi intersep:i
Bisakah Anda mengarahkan saya ke arah yang benar?
regression
Alexander Engelhardt
sumber
sumber
smallmatrix
, jadi tidak mencoba mengedit, karena solusi biasa dari memecah formula dalam beberapa baris tidak akan bekerja di sini.Jawaban:
Kita punya
Ini dapat ditunjukkan dengan menulis persamaan secara eksplisit dengan komponen. Misalnya, tulis alih-alih . Kemudian ambil turunan sehubungan dengan , , ..., dan susun semuanya untuk mendapatkan jawabannya. Untuk ilustrasi yang cepat dan mudah, Anda dapat mulai dengan . β β 1 β 2 β p p = 2(β1,…,βp)′ β β1 β2 βp p=2
Dengan pengalaman seseorang mengembangkan aturan umum, beberapa di antaranya diberikan, misalnya dalam dokumen itu .
Edit untuk memandu bagian tambahan dari pertanyaan
Dengan , kita punyap=2
Turunan sehubungan dengan adalahβ1
Demikian pula, turunan sehubungan dengan adalahβ2
Karenanya, turunan sehubungan dengan adalahβ=(β1,β2)′
Sekarang, perhatikan Anda dapat menulis ulang ekspresi terakhir sebagai
Tentu saja, semuanya dilakukan dengan cara yang sama untuk lebih besar .p
sumber
Anda juga dapat menggunakan formula dari buku masak Matrix . Kita punya
Sekarang ambil turunan dari setiap istilah. Anda mungkin ingin memperhatikan bahwa . Turunan dari istilah sehubungan dengan adalah nol. Istilah yang tersisay ′ y ββ′X′y=y′Xβ y′y β
adalah bentuk fungsi
dalam rumus (88) dalam buku di halaman 11, dengan , dan . Turunannya diberikan dalam rumus (89):A = X ′ X b = - 2 X ′ yx=β A=X′X b=−2X′y
begitu
Sekarang karena kami mendapatkan solusi yang diinginkan:(X′X)′=X′X
sumber
Berikut adalah teknik untuk meminimalkan jumlah kuadrat dalam regresi yang sebenarnya memiliki aplikasi ke pengaturan yang lebih umum dan yang menurut saya berguna.
Mari kita coba hindari kalkulus vektor-matriks sekaligus.
Misalkan kita tertarik untuk meminimalkan mana , dan . Kami berasumsi untuk kesederhanaan bahwa dan .y ∈ R n X ∈ R n × p β ∈ R p p ≤ n r a n k ( X ) = p
Untuk setiap , kita mendapatkan E=‖y-X β +X β -Xβ‖ 2 2 =‖y-X β ‖ 2 2 +‖X(β - β )‖ 2 2 -2(β- β )TXT(y- Xβ^∈Rp
Jika kita dapat memilih (menemukan!) Vektor sehingga istilah terakhir di sisi kanan adalah nol untuk setiap , maka kita akan selesai, karena itu akan menyiratkan bahwa . βminβE≥‖y-X β ‖ 2 2β^ β minβE≥∥y−Xβ^∥22
Tapi, untuk semua jika dan hanya jika dan persamaan terakhir ini benar jika dan hanya jika . Jadi diminimalkan dengan mengambil .β X T ( y - X β ) = 0 X T X β = X T y E β = ( X T X ) - 1 X T y(β−β^)TXT(y−Xβ^)=0 β XT(y−Xβ^)=0 XTXβ^=XTy E β^=(XTX)−1XTy
Meskipun ini mungkin tampak seperti "trik" untuk menghindari kalkulus, sebenarnya memiliki aplikasi yang lebih luas dan ada beberapa geometri yang menarik.
Salah satu contoh di mana teknik ini membuat derivasi jauh lebih sederhana daripada pendekatan kalkulus matriks-vektor adalah ketika kita menggeneralisasi ke kasus matriks. Biarkan , dan . Misalkan kita ingin meminimalkan di seluruh matriks parameter . Di sini adalah matriks kovarians.Y∈Rn×p X∈Rn×q B∈Rq×p
Pendekatan yang sepenuhnya analog dengan hal di atas dengan cepat menetapkan bahwa minimum diperoleh dengan mengambil Yaitu, dalam pengaturan regresi di mana respons adalah vektor dengan kovarians dan pengamatan independen, maka estimasi OLS diperoleh dengan melakukan regresi linier terpisah pada komponen respons.E
sumber
Salah satu cara yang dapat membantu Anda memahami adalah dengan tidak menggunakan aljabar matriks, dan membedakan dengan masing-masing sehubungan dengan masing-masing komponen, dan kemudian "menyimpan" hasilnya dalam vektor kolom. Jadi kita punya:
Sekarang Anda memiliki dari persamaan ini, satu untuk setiap beta. Ini adalah aplikasi sederhana dari aturan rantai:p
Sekarang kita dapat menulis kembali jumlah di dalam braket sebagai Jadi Anda mendapatkan:∑pj=1Xijβj=xTiβ
Sekarang kita memiliki dari persamaan ini, dan kita akan "menumpuknya" dalam vektor kolom. Perhatikan bagaimana adalah satu-satunya istilah yang bergantung pada , jadi kita dapat menumpuknya ke vektor dan kita mendapatkan:p Xik k xi
Sekarang kita dapat mengambil beta di luar jumlah (tetapi harus tetap pada RHS jumlah), dan kemudian mengambil invervse:
sumber