Saya punya beberapa pertanyaan tentang penalti punggungan dalam konteks kuadrat terkecil:
1) Ekspresi menunjukkan bahwa matriks kovarians X menyusut ke arah matriks diagonal, yang berarti bahwa (dengan asumsi bahwa variabel distandarisasi sebelum prosedur) korelasi antara variabel input akan diturunkan. Apakah interpretasi ini benar?
2) Jika ini adalah aplikasi penyusutan mengapa tidak diformulasikan dalam baris , dengan asumsi bahwa kita dapat membatasi lambda hingga kisaran [0,1] dengan normalisasi .
3) Apa yang bisa menjadi normalisasi untuk sehingga dapat dibatasi untuk rentang standar seperti [0,1].
4) Menambahkan konstanta ke diagonal akan mempengaruhi semua nilai eigen. Apakah lebih baik menyerang hanya nilai singular atau mendekati singular? Apakah ini setara dengan menerapkan PCA ke X dan mempertahankan komponen utama top-N sebelum regresi atau apakah ia memiliki nama yang berbeda (karena tidak mengubah perhitungan kovarian silang)?
5) Bisakah kita mengatur kovarians silang, atau apakah ada gunanya, yang berarti
di mana kecil akan menurunkan kovarians silang. Jelas ini menurunkan semua sama, tetapi mungkin ada cara yang lebih cerdas seperti hard / soft thresholding tergantung pada nilai kovarians.
sumber
Jawaban:
Pertanyaan bagus!
Ya, ini benar sekali. Anda dapat melihat penalti ridge sebagai salah satu cara yang mungkin untuk mengatasi masalah multikolinieritas yang muncul ketika banyak prediktor berkorelasi tinggi. Memperkenalkan penalti ridge secara efektif menurunkan korelasi ini.
Saya pikir ini sebagian tradisi, sebagian fakta bahwa rumus regresi ridge seperti yang dinyatakan dalam persamaan pertama Anda mengikuti dari fungsi biaya berikut:Jika , istilah kedua dapat dihapus, dan meminimalkan istilah pertama ("kesalahan rekonstruksi") mengarah ke rumus OLS standar untuk . Mempertahankan istilah kedua mengarah ke rumus untuk . Fungsi biaya ini secara matematis sangat mudah untuk ditangani, dan ini mungkin salah satu alasan untuk memilih lambda "non-normalisasi".
Salah satu cara yang memungkinkan untuk menormalkan adalah dengan menskalakannya dengan varian total , yaitu menggunakan bukannya . Ini tidak harus membatasi menjadi , tetapi akan membuatnya "tidak berdimensi" dan mungkin akan menghasilkan optimal menjadi kurang dari dalam semua kasus praktis (NB: ini hanya dugaan!).λ tr(X⊤X) λtr(X⊤X) λ λ [0,1] λ 1
"Menyerang hanya nilai eigen kecil" memang memiliki nama yang terpisah dan disebut regresi komponen utama. Koneksi antara PCR dan regresi ridge adalah bahwa dalam PCR Anda secara efektif memiliki "langkah hukuman" memotong semua nilai eigen setelah angka tertentu, sedangkan regresi ridge menerapkan "penalti lunak", menghukum semua nilai eigen, dengan yang lebih kecil semakin terkena sanksi. Ini dijelaskan dengan baik dalam The Elements of Statistics Learning oleh Hastie et al. (tersedia online gratis), bagian 3.4.1. Lihat juga jawaban saya dalam Hubungan antara regresi ridge dan regresi PCA .
Saya belum pernah melihat ini dilakukan, tetapi perhatikan bahwa Anda dapat mempertimbangkan fungsi biaya dalam bentukIni menyusutkan bukan ke nol, tetapi ke beberapa nilai yang telah ditentukan sebelumnya . Jika seseorang menghitung matematika, Anda akan sampai pada optimal yang diberikan oleh yang mungkin bisa dilihat sebagai "regularisasi lintas kovarians"?
sumber
Komentar lebih lanjut pada pertanyaan 4. Sebenarnya, regresi ridge tidak cukup efektif menangani nilai eigen kecil sementara sebagian besar meninggalkan nilai eigen besar sendirian.XTX
Untuk melihat ini, nyatakan estimator regresi ridge dalam hal dekomposisi nilai singular ,X
di mana saling ortogonal dan vektor juga saling ortogonal. Di sini nilai eigen adalah , .ui vi XTX σ2i i=1,2,…,n
Maka Anda bisa menunjukkan itu
Sekarang, pertimbangkan "faktor filter" . Jika , maka faktor filter adalah 1, dan kami mendapatkan solusi kuadrat terkecil konvensional. Jika dan , maka faktor filter pada dasarnya adalah 1. Jika , maka faktor ini pada dasarnya adalah 0. Dengan demikian istilah yang sesuai dengan nilai eigen kecil secara efektif drop out, sementara yang sesuai dengan nilai eigen yang lebih besar dipertahankan.σ2i/(σ2i+λ) λ=0 λ>0 σ2i≫λ σ2i≪λ
Sebagai perbandingan, regresi komponen utama hanya menggunakan faktor 1 (untuk nilai eigen yang lebih besar) atau 0 (untuk nilai eigen yang lebih kecil yang dijatuhkan) dalam rumus ini.
sumber
Pertanyaan 1, 2 dan 3 ditautkan. Saya suka berpikir bahwa ya, memperkenalkan hukuman Ridge dalam model regresi linear dapat diartikan sebagai penyusutan pada eigen-nilai . Untuk membuat interpretasi ini, pertama-tama kita harus membuat asumsi bahwa berpusat. Interpretasi ini berdasarkan pada kesetaraan berikut: dengan dan . Jika , maka dengan segera mengikuti bahwa .X X
Teknik yang Anda gambarkan sebagai "menyerang hanya nilai singular atau mendekati singular" juga dikenal sebagai Analisis Spektrum Singular (untuk tujuan regresi linier) (lihat Persamaan. 19), jika dengan "menyerang", maksud Anda "menghapus ". Kovarians silang tidak berubah.
Menghapus nilai singular yang rendah juga dilakukan oleh Regresi Komponen Utama . Dalam PCR, PCA dilakukan pada dan regresi linier diterapkan pada pemilihan komponen yang diperoleh. Perbedaannya dengan SSA adalah bahwa hal itu berdampak pada kovarians lintas.X
sumber