Regresi linear ketika Anda hanya tahu

13

Misalkan .Xβ=Y

Kita tidak tahu persis, hanya korelasinya dengan masing-masing prediktor, .YXtY

Solusi kuadrat-terkecil (OLS) adalah dan tidak ada masalah.β=(XtX)1XtY

Tapi anggaplah mendekati singular (multicollinearity), dan Anda perlu memperkirakan parameter ridge yang optimal. Semua metode tampaknya membutuhkan nilai tepat .XtXY

Apakah ada metode alternatif ketika hanya yang diketahui?XtY

Perasaan
sumber
pertanyaan yang menarik. Mungkin semacam algoritma EM akan bekerja ...
probabilityislogic
Saya tidak mengerti, tidak bisakah Anda menggunakan validasi silang untuk memperkirakan parameter ridge yang optimal?
Pardis
@Pardis: Tidak ada fungsi kerugian yang diberikan dalam pertanyaan sehingga kita tidak tahu apa artinya optimal . Bisakah Anda melihat masalah yang kita hadapi jika fungsi kerugiannya adalah MSE?
kardinal
1
@ JohnSmith: Anda menyinggung poin yang saya kendarai. Tidak ada indikasi bagaimana mengukur "optimalitas". Apa yang Anda lakukan secara efektif adalah memperkenalkan metrik (fungsi jarak) yang berbeda untuk mengukur "kualitas" prediksi atau kecocokan. Kami membutuhkan detail lebih banyak dari OP untuk bisa melangkah jauh, saya kira.
kardinal
1
@Pardis: Menemukan perkiraan bukanlah masalah, seperti yang Anda perhatikan. :) Namun, jika Anda memutuskan untuk melakukan crossvalidation, bagaimana Anda akan memperkirakan MSE out-of-sample, yaitu, pada flip kiri-keluar untuk setiap iterasi? :)
kardinal

Jawaban:

8

Ini pertanyaan yang menarik. Anehnya, dimungkinkan untuk melakukan sesuatu berdasarkan asumsi tertentu, tetapi ada potensi hilangnya informasi tentang varian residual. Tergantung pada X berapa banyak yang hilang.

Mari kita pertimbangkan dekomposisi nilai singular berikut dari dengan dan matriks dengan kolom ortonormal, matriks diagonal dengan nilai singular positif di diagonal dan a matriks ortogonal. Kemudian kolom membentuk basis ortonormal untuk ruang kolom dan adalah vektor koefisien untuk proyeksi ke ruang kolom ini ketika diperluas dalam X U n × p D d 1d 2. . . d p > 0 VX=UDVtXUn×pDd1d2...dp>0Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
YUDasar kolom. Dari rumus kita melihat bahwa hanya dapat dihitung dari pengetahuan dan .ZXXtY

Karena prediktor regresi ridge untuk diberikan dapat dihitung sebagai kita melihat bahwa koefisien untuk prediktor regresi ridge dalam basis kolom adalah Sekarang kita membuat asumsi distribusi bahwa memiliki rata-rata dimensi dan matriks kovarian . Maka memiliki -dimensi rata-rata dan matriks kovarian . Jika kita membayangkan seorang yang mandiriλ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
UYnξσ2InZpUtξσ2IpYBaruYXZBaru=UtYBaruZ E | | Y New - Y | | 2
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew dengan distribusi yang sama dengan (semuanya bersyarat pada dari sini) yang sesuai memiliki sama distribusi sebagai dan independen dan Di sini persamaan ketiga diikuti oleh ortogonalitas dan dan yang keempat berdasarkan fakta bahwaYXZNew=UtYNewZYNew-UZNewUZNew-U Z UErr0λ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^U memiliki kolom ortonormal. Kuantitas adalah kesalahan yang tidak bisa kami dapatkan informasi tentangnya, tetapi juga tidak bergantung pada . Untuk meminimalkan kesalahan prediksi di sisi kiri kita harus meminimalkan istilah kedua di sisi kanan.Err0λ

Dengan perhitungan standar Di sini dikenal sebagai derajat kebebasan efektif untuk regresi ridge dengan parameter . Estimator tidak bias adalah df(λ)λE| | Z-Z| | 2err(λ)=| | Z-Z| | 2=pi=1(1-d2i

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

Kami menggabungkan ini dengan estimator (tidak bias) dari mengingat kita tahu , yang kemudian perlu kita kurangi. Jelas, ini hanya dapat dilakukan jika kita tahu atau memiliki perkiraan yang masuk akal atau estimator dari .E | | Z New - Z | | 2 σ 2 σ 2 σ 2

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

Memperkirakan bisa lebih bermasalah. Dimungkinkan untuk menunjukkan bahwa Jadi jika dimungkinkan untuk memilih sangat kecil sehingga bias kuadrat dapat diabaikan, kita dapat mencoba memperkirakan sebagai Jika akan pekerjaan ini tergantung banyak pada . E | | Z - Z | | 2 = σ 2 ( p - p Σ i = 1 d 2 iσ2λσ2σ2=1

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2X
σ^2=1pd(λ)||ZZ^||2.
X

Untuk beberapa detail, lihat Bagian 3.4.1 dan Bab 7 di ESL atau mungkin Bab 2 yang lebih baik di GAM .

NRH
sumber
0

Tetapkan seperti pada pertanyaan dan untuk berbagai parameter dan set dari label sampel. Kemudian dapat dihitung karena tidak dapat digunakan saat memperluas keduanya norma.ββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

Ini mengarah ke algoritma berikut:

  • Menghitung untuk beberapa pilihan pelatihan set .e(λ,K)K
  • Plot hasilnya sebagai fungsi .λ
  • Terima nilai yang plotnya paling rata.λ
  • Gunakan sebagai estimasi akhir.β=[XTX+λI]1XTY
Arnold Neumaier
sumber
1
Saya menduga "di mana plotnya paling rata" akan berada di sangat kecil, seperti kira-kira 0 :)λ
jbowman
@jbowman: Ini hanya akan terjadi jika masalahnya dikondisikan dengan baik dan tidak memerlukan regularisasi, maka memang memadai. Dalam kasus yang dikondisikan buruk, prediksi item di luar akan menjadi buruk karena overfitting, dan karena itu akan menjadi besar. λ=0Ke(λ,K)
Arnold Neumaier
3
@ArnoldNeumaier: tidak dapat dihitung. Kami hanya tahu korelasi dengan masing-masing prediktor. ada di "domain prediktor", bukan di "domain Y" (Jika N adalah ukuran sampel dan p jumlah prediktor, kami hanya memiliki nilai p, satu untuk setiap prediktor). (XTY)K(XTY)
Jag
@ Jag: Maka tidak ada informasi yang cukup untuk memilih . Tapi pasti telah dikumpulkan entah bagaimana. Jika selama pengumpulannya Anda mempartisi sampel menjadi batch dan merakit secara terpisah untuk setiap batch maka satu dapat memesan satu batch masing-masing untuk validasi silang. λXTYkXTY
Arnold Neumaier
@ArnoldNeumaier: diberikan secara eksternal, jangan dikumpulkan. XTY
Jag