Apakah urutan variabel penjelas penting ketika menghitung koefisien regresi mereka?

24

Awalnya saya pikir urutannya tidak penting, tetapi kemudian saya membaca tentang proses ortogonisasi gram-schmidt untuk menghitung beberapa koefisien regresi, dan sekarang saya sedang berpikir dua kali.

Menurut proses gram-schmidt, variabel penjelas selanjutnya diindeks di antara variabel-variabel lainnya, semakin kecil vektor residualnya karena vektor residual variabel sebelumnya dikurangi dari itu. Akibatnya, koefisien regresi variabel penjelas juga lebih kecil.

Jika itu benar, maka vektor residual dari variabel yang dimaksud akan lebih besar jika diindeks lebih awal, karena vektor residual yang lebih sedikit akan dikurangi dari itu. Ini berarti bahwa koefisien regresi juga akan lebih besar.

Ok, jadi saya diminta untuk mengklarifikasi pertanyaan saya. Jadi saya telah memposting tangkapan layar dari teks yang membuat saya bingung sejak awal. Oke, ini dia.

Pemahaman saya adalah bahwa setidaknya ada dua opsi untuk menghitung koefisien regresi. Opsi pertama dilambangkan (3.6) pada tangkapan layar di bawah ini.

Cara pertama

Ini adalah pilihan kedua (saya harus menggunakan beberapa tangkapan layar).

Cara kedua

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Kecuali saya salah membaca sesuatu (yang pasti mungkin), tampaknya ketertiban penting dalam opsi kedua. Apakah itu penting dalam opsi pertama? Mengapa atau mengapa tidak? Atau apakah kerangka referensi saya sangat kacau sehingga ini bahkan bukan pertanyaan yang valid? Juga, apakah ini semua terkait dengan Tipe I Jumlah Kuadrat vs Tipe II Jumlah Kuadrat?

Terima kasih banyak sebelumnya, saya sangat bingung!

Ryan Zotti
sumber
1
Bisakah Anda menguraikan prosedur yang tepat bagaimana koefisien dihitung? Dari apa yang saya ketahui tentang gram-schmidt ortogonalisasi dan bagaimana hal itu dapat diterapkan pada masalah regresi, saya dapat berasumsi bahwa dengan menggunakan prosedur gs Anda dapat menyesuaikan diri dengan regresi, tetapi bukan koefisien aslinya. Perhatikan bahwa kecocokan regresi adalah proyeksi ruang kolom. Jika Anda orthogonalise kolom Anda mendapatkan basis ortogonal dari ruang yang mencakup kolom, maka cocok akan menjadi kombinasi linear dari basis ini, dan juga kombinasi linear dari kolom asli. Itu akan sama ...
mpiktas
tetapi koefisien akan berbeda. Ini sangat normal.
mpiktas
Saya kira saya bingung karena saya pikir saya membaca di "Elemen Pembelajaran Statistik" bahwa koefisien yang dihitung menggunakan proses gram-schmidt akan sama dengan yang dihitung menggunakan proses tradisional: B = (X'X) ^ - 1 Xy
Ryan Zotti
Berikut adalah kutipan dari buku yang berbicara tentang prosedur: "Kita dapat melihat perkiraan [koefisien] sebagai hasil dari dua aplikasi dari regresi sederhana. Langkah-langkahnya adalah: 1. mundur x pada 1 untuk menghasilkan sisa z = x - x ̄1; 2. mundur y pada residual z untuk memberikan koefisien βˆ1. Resep ini menggeneralisasi untuk kasus input p, seperti yang ditunjukkan dalam Algoritma 3.1. Perhatikan bahwa input z0,.,,, zj − 1 pada langkah 2 adalah ortogonal, maka koefisien regresi sederhana yang dihitung sebenarnya ada juga koefisien regresi berganda. "
Ryan Zotti
Agak berantakan ketika saya salin dan tempel ke bagian komentar di sini, jadi mungkin yang terbaik adalah langsung melihat sumbernya. Ini halaman 53 hingga 54 dari "Elemen Pembelajaran Statistik" yang tersedia secara bebas untuk diunduh di situs web Stanford: www-stat.stanford.edu/~tibs/ElemStatLearn .
Ryan Zotti

Jawaban:

22

Saya percaya kebingungan mungkin timbul dari sesuatu yang sedikit lebih sederhana, tetapi memberikan peluang bagus untuk meninjau beberapa hal terkait.

Perhatikan bahwa teks tersebut tidak mengklaim bahwa semua koefisien regresi dapat dihitung melalui vektor residual berturut-turut sebagai tetapi lebih dari itu hanya yang terakhir , , yang dapat dihitung dengan cara ini!β^iΒ p

β^i=?y,zizi2,
β^p

Skema ortogonisasi yang berurutan (bentuk Gram-Schmidt) adalah (hampir) menghasilkan sepasang matriks dan sehingga mana adalah dengan kolom ortonormal dan adalah segitiga atas. Saya mengatakan "hampir" karena algoritma ini hanya menentukan hingga norma-norma kolom, yang secara umum tidak akan menjadi satu, tetapi dapat dibuat memiliki norma satuan dengan menormalkan kolom dan membuat penyesuaian sederhana yang sesuai dengan koordinat matriks .G X = Z GZGZ n × p G = ( g i j ) p × p Z G.

X=ZG,
Zn×pG=(gij)p×pZG

Dengan asumsi, tentu saja, bahwa memiliki peringkat , solusi kuadrat terkecil yang unik adalah vektor yang memecahkan sistem p n β X T X β = X T yXRn×ppnβ^

XTXβ^=XTy.

Mengganti dan menggunakan (dengan konstruksi), kita mendapatkan yang setara dengan Z T Z = I G T G β = G T Z T yX=ZGZTZ=I

GTGβ^=GTZTy,
Gβ^=ZTy.

Sekarang, berkonsentrasilah pada baris terakhir dari sistem linear. Satu-satunya elemen bukan nol dari di baris terakhir adalah . Jadi, kita dapatkan Tidak sulit melihat (verifikasi ini sebagai pemeriksaan pemahaman!) Bahwadan ini menghasilkan solusi. ( Caveat lector : Saya telah menggunakan telah dinormalisasi untuk memiliki norma satuan, sedangkan dalam buku tidak memilikinya . Ini menjelaskan fakta bahwa buku tersebut memiliki norma kuadrat dalam penyebut, sedangkan saya hanya memiliki norma.)Ggpp

gppβ^p=y,zp.
gpp=zpzi

Untuk menemukan semua koefisien regresi, seseorang perlu melakukan langkah substitusi balik sederhana untuk dipecahkan bagi individu . Misalnya, untuk baris , dan sebagainya Seseorang dapat melanjutkan prosedur ini dengan bekerja "mundur" dari baris terakhir sistem hingga yang pertama, mengurangi jumlah bobot dari koefisien regresi yang sudah dihitung dan kemudian membaginya dengan istilah terkemuka untuk mendapatkan .(p-1)β^i(p1)

gp1,p1β^p1+gp1,pβ^p=zp1,y,
g i i β i
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

Poin di bagian ESL adalah kita dapat menyusun ulang kolom untuk mendapatkan matriks baru dengan kolom asli ke- sekarang menjadi yang terakhir. Jika kita kemudian menerapkan prosedur Gram-Schmidt pada matriks baru, kita mendapatkan orthogonalization baru sehingga solusi untuk koefisien asli ditemukan oleh solusi sederhana di atas. Ini memberi kami interpretasi untuk koefisien regresi . Ini adalah regresi univariat dari pada vektor residual yang diperoleh dengan "mundur" kolom yang tersisa dari matriks desain dari .X ( r ) r β r β r y x rXX(r)rβ^rβ^ryxr

Dekomposisi QR umum

Prosedur Gram-Schmidt hanyalah salah satu metode menghasilkan QR dekomposisi . Memang, ada banyak alasan untuk lebih menyukai pendekatan algoritmik lainnya daripada prosedur Gram-Schmidt.X

Refleksi Householder dan rotasi Givens memberikan pendekatan yang lebih stabil secara numerik untuk masalah ini. Perhatikan bahwa pengembangan di atas tidak berubah dalam kasus umum penguraian QR. Yakni, biarkan menjadi salah dekomposisi QR dari . Kemudian, dengan menggunakan penalaran dan manipulasi aljabar yang persis sama seperti di atas, kita memiliki solusi kuadrat-terkecil memenuhi yang disederhanakan menjadi Karena mR adalah segitiga atas, maka teknik substitusi backs yang sama berfungsi. Kami pertama-tama menyelesaikannya untuk

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^pdan kemudian bekerja mundur dari bawah ke atas. Pilihan yang digunakan algoritma dekomposisi QR umumnya bergantung pada pengontrolan ketidakstabilan numerik dan, dari perspektif ini, Gram-Schmidt umumnya bukan pendekatan kompetitif.

Gagasan penguraian ini sebagai matriks ortogonal dikali sesuatu yang lain dapat digeneralisasi sedikit lebih jauh juga untuk mendapatkan bentuk yang sangat umum untuk vektor pas , tetapi saya khawatir respons ini sudah menjadi terlalu lama .Xy^

kardinal
sumber
6

Saya telah melihat-lihat buku ini dan sepertinya latihan 3.4 mungkin berguna dalam memahami konsep menggunakan GS untuk menemukan semua koefisien regresi (bukan hanya koefisien akhir - jadi saya mengetikkan solusi. Semoga ini adalah solusi. berguna.βjβp

Latihan 3.4 dalam ESL

Tunjukkan bagaimana vektor koefisien kuadrat terkecil dapat diperoleh dari satu langkah tunggal dari prosedur Gram-Schmidt. Mewakili solusi Anda dalam hal dekomposisi QR dari . X

Larutan

Ingatlah bahwa dengan satu langkah tunggal prosedur Gram-Schmidt, kita dapat menulis matriks sebagai mana berisi kolom ortogonal , dan adalah matriks diagonal-atas dengan yang ada pada diagonal, dan . Ini adalah cerminan dari fakta bahwa menurut definisi,X

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

Sekarang, dengan dekomposisi , kita dapat menulis , di mana adalah matriks ortogonal dan adalah matriks segitiga atas. Kami memiliki dan , di mana adalah matriks diagonal dengan. QRX=QRQRQ=ZD1R=DΓDDjj=zj

Sekarang, dengan definisi , kita memiliki Sekarang, menggunakan dekomposisi , kami telahβ^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R adalah segitiga atas, kita dapat menulis sesuai dengan hasil kami sebelumnya. Sekarang, dengan substitusi balik, kita dapat memperoleh urutan koefisien regresi . Sebagai contoh, untuk menghitung , kita memiliki

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
dan kemudian menyelesaikan untuk . Proses ini dapat diulang untuk semua , sehingga mendapatkan koefisien regresi dalam satu langkah dari prosedur Gram-Schmidt.β^p1βj
Andrew Tulloch
sumber
3

Mengapa tidak mencobanya dan membandingkannya? Sesuaikan satu set koefisien regresi, kemudian ubah urutannya dan cocokkan lagi dan lihat apakah ada perbedaan (selain kesalahan pembulatan yang mungkin).

Seperti yang ditunjukkan oleh @mpiktas, tidak jelas apa yang Anda lakukan.

Saya dapat melihat menggunakan GS untuk menyelesaikan dalam persamaan kuadrat terkecil . Tapi kemudian Anda akan melakukan GS pada matriks , bukan data asli. Dalam hal ini koefisien harus sama (selain kemungkinan kesalahan pembulatan).( x x ) B = ( x y ) ( x x )B(xx)B=(xy)(xx)

Pendekatan lain dari GS dalam regresi adalah menerapkan GS ke variabel prediktor untuk menghilangkan kolinearitas di antara mereka. Kemudian variabel ortogonalized digunakan sebagai prediktor. Dalam hal ini urutan masalah dan koefisien akan berbeda karena interpretasi koefisien tergantung pada urutan. Pertimbangkan 2 prediktor dan dan lakukan GS pada mereka dalam urutan itu kemudian gunakan sebagai prediktor. Dalam hal itu koefisien pertama (setelah intersepsi) menunjukkan efek pada dengan sendirinya dan koefisien kedua adalah efek pada setelah disesuaikan untukx 2 x 1 y x 2 y x 1 x 2 y x 1 x 1 x 2x1x2x1yx2yx1. Sekarang jika Anda membalik urutan x maka koefisien pertama menunjukkan efek pada dengan sendirinya (mengabaikan daripada menyesuaikan untuk itu) dan yang kedua adalah efek menyesuaikan untuk .x2yx1x1x2

Greg Snow
sumber
Saya pikir paragraf terakhir Anda mungkin paling dekat dengan sumber kebingungan saya - GS memang membuat masalah pesanan. Itulah yang saya pikir. Saya masih agak bingung, karena buku yang saya baca, berjudul: "Elemen Pembelajaran Statistik" (sebuah publikasi Stanford yang tersedia secara bebas: www-stat.stanford.edu/~tibs/ElemStatLearn ) tampaknya menyarankan bahwa GS setara dengan pendekatan standar untuk menghitung koefisien; yaitu, B = (X'X) ^ - 1 X'y.
Ryan Zotti
Dan bagian dari apa yang Anda katakan agak membingungkan saya juga: "Saya bisa melihat menggunakan GS untuk menyelesaikan untuk B dalam persamaan kuadrat terkecil (x′x) ^ - 1 B = (x′y). Tapi kemudian Anda akan melakukan GS pada matriks (x′x), bukan data asli. " Saya pikir matriks x'x berisi data asli? ... Setidaknya itulah yang dikatakan Elemen Pembelajaran Statistik. Dikatakan x dalam x'x adalah N oleh p matriks di mana N adalah jumlah input (pengamatan) dan p adalah jumlah dimensi.
Ryan Zotti
Jika GS bukan prosedur standar untuk menghitung koefisien, lalu bagaimana pengobatan collinearity biasanya? Bagaimana redundansi (collinearity) biasanya didistribusikan di antara x? Bukankah collinearity secara tradisional membuat koefisien tidak stabil? Maka bukankah itu menunjukkan bahwa proses GS adalah proses standar? Karena proses GS juga membuat koefisien tidak stabil - vektor residual yang lebih kecil membuat koefisien tidak stabil.
Ryan Zotti
Setidaknya itulah yang dikatakan teks, "Jika xp berkorelasi tinggi dengan beberapa xk lainnya, vektor residual zp akan mendekati nol, dan dari (3,28) koefisien βˆp akan sangat tidak stabil."
Ryan Zotti
2
Perhatikan bahwa GS adalah bentuk penguraian QR.
kardinal