Memahami regresi ridge negatif

12

Saya mencari literatur tentang regresi ridge negatif .

Singkatnya, ini adalah generalisasi dari regresi ridge linier menggunakan negatif dalam rumus estimator:Kasus positif memiliki teori yang bagus: sebagai fungsi kerugian, sebagai kendala, seperti Bayes sebelumnya ... tapi saya merasa bingung dengan versi negatif dengan hanya rumus di atas. Kebetulan berguna untuk apa yang saya lakukan tetapi saya gagal menafsirkannya dengan jelas.λ

β^=(XX+λI)1Xy.

Apakah Anda tahu teks pengantar serius tentang ridge negatif? Bagaimana itu bisa ditafsirkan?

Benoit Sanchez
sumber
1
Saya tidak tahu ada teks pengantar yang membicarakannya, tetapi sumber ini mungkin mencerahkan, terutama diskusi di bagian bawah halaman 18: jstor.org/stable/4616538?seq=1page_scan_tab_contents
Ryan Simmons
1
Jika tautan tersebut mati di masa mendatang, kutipan lengkapnya adalah: Björkström, A. & Sundberg, R. "Pandangan umum tentang regresi kontinum". Scandinavian Journal of Statistics, 26: 1 (1999): pp.17-30
Ryan Simmons
2
Terima kasih banyak. Ini memberikan interpretasi yang jelas tentang ridge melalui CR ketika . (Nilai eigen terbesar dari matriks kovarians). Masih mencari interpretasi dengan ...λ<λ1λ>λ1
Benoit Sanchez
Perhatikan dalam pengembangan regresi ridge dari regularisasi Tikhonov bahwa regularisasi Tikhonov menjadi untuk regresi ridge. Selanjutnya, biasanya diganti oleh . Satu-satunya cara untuk membuat ini negatif adalah untuk menjadi imajiner, yaitu, kelipatan dari . OK, sekarang bagaimana? Kemana Anda ingin pergi dengannya? α 2 I α 2 λ α i = ΓTΓα2Iα2λαi=1
Carl
Punggungan negatif yang disebutkan di sini: stats.stackexchange.com/questions/328630/… dengan beberapa tautan
kjetil b halvorsen

Jawaban:

12

Berikut ini adalah ilustrasi geometris dari apa yang terjadi dengan punggungan negatif.

Saya akan mempertimbangkan penduga bentuk yang timbul dari fungsi kehilanganBerikut adalah ilustrasi yang agak standar tentang apa yang terjadi dalam kasus dua dimensi dengan . Nol lambda sesuai dengan solusi OLS, lambda tak terbatas menyusutkan estimasi beta menjadi nol:

β^λ=(XX+λI)1Xy
Lλ=yXβ2+λβ2.
λ[0,)

masukkan deskripsi gambar di sini

Sekarang perhatikan apa yang terjadi ketika , di mana adalah nilai singular terbesar . Untuk negatif yang sangat besar, tentu saja mendekati nol. Ketika lambda mendekati , istilah mendapatkan satu nilai singular mendekati nol, yang berarti bahwa invers memiliki satu nilai singular yang menuju minus tak terhingga. Nilai singular ini sesuai dengan komponen utama pertama , jadi dalam batas itu seseorang mendapat menunjuk ke arah PC1 tetapi dengan nilai absolut tumbuh hingga tak terbatas.λ(,smax2)smaxXβ^λsmax2(XX+λI)Xβ^λ

Apa yang benar-benar baik, adalah seseorang dapat menggambarnya pada angka yang sama dengan cara yang sama: beta diberikan oleh titik-titik di mana lingkaran menyentuh elips dari dalam :

masukkan deskripsi gambar di sini

Ketika , logika yang sama berlaku, memungkinkan untuk melanjutkan jalur punggungan di sisi lain penaksir OLS. Sekarang lingkaran menyentuh elips dari luar. batasnya, betas mendekati arah PC2 (tetapi itu terjadi jauh di luar sketsa ini):λ(smin2,0]

masukkan deskripsi gambar di sini

The berbagai adalah sesuatu yang celah energi : penduga ada tidak hidup pada kurva yang sama.(smax2,smin2)

UPDATE: Dalam komentar @MartinL menjelaskan bahwa untuk kerugian tidak memiliki minimum tetapi memiliki maksimum. Dan maksimum ini diberikan oleh . Inilah sebabnya mengapa konstruksi geometris yang sama dengan sentuhan lingkaran / elips terus bekerja: kami masih mencari titik gradien nol. Ketika , kerugian memang memiliki minimum dan itu diberikan oleh , persis seperti di normal kasing.λ<smax2Lλβ^λsmin2<λ0Lλβ^λλ>0

Tetapi ketika , kerugian tidak memiliki maksimum atau minimum; akan sesuai dengan titik pelana. Ini menjelaskan "celah energi".smax2<λ<smin2Lλβ^λ


The secara alami muncul dari punggung bukit regresi dibatasi tertentu, lihat Batas "Unit-varians" estimator regresi ridge ketika . Ini terkait dengan apa yang dikenal dalam literatur chemometrics sebagai "regresi kontinum", lihat jawaban saya di utas terkait.λ(,smax2)λ

The dapat diobati dengan cara yang persis sama seperti : fungsi kerugian tetap sama dan punggung estimator menyediakan minimum.λ(smin2,0]λ>0

amuba kata Reinstate Monica
sumber
1
Terima kasih untuk grafiknya yang menarik. Ketika , solusi yang Anda buat grafik adalah maksimum global dari fungsi biaya, bukan minimum global. Demikian pula, ketika , titik yang telah Anda gambar harus menjadi titik pelana dari fungsi biaya. λ<smax2smax2<λ<0
Martin L
1
Pertimbangkan hanya istilah kuadratik dalam fungsi biaya. Mereka dapat ditulis sebagai Misalkan , maka matriks dalam tanda kurung hanya memiliki nilai eigen negatif. Misalkan , dan matriks memiliki nilai eigen positif dan negatif. Nilai eigen ini memengaruhi apakah titik tersebut merupakan titik pelana, minimum, atau maksimum dari fungsi biaya.
βT(XTX+λI)β.
λ<smax2smax2<λ<0
Martin L
1
Itu sangat membantu, terima kasih banyak. Saya memperbarui jawaban saya.
Amoeba berkata Reinstate Monica
1
Terima kasih. Khususnya untuk menyadari bahwa titik sadel hanya berlaku ketika . Ketika , solusinya memang masih minimum global sejak itu, pasti positif. Komentar saya sebelumnya sebagian tidak benar. smax2<λ<smin2λ>smin2XTX+λI
Martin L