Saya telah membaca Elemen Pembelajaran Statistik dan saya tidak dapat memahami apa yang dimaksud dengan Bagian 3.7 "Penyusutan dan Seleksi Berganda Berganda". Ini berbicara tentang RRR (regresi tingkat rendah), dan saya hanya bisa mengerti bahwa premisnya adalah tentang model linear multivariat yang digeneralisasi di mana koefisien tidak diketahui (dan diperkirakan) tetapi diketahui tidak memiliki peringkat penuh. Hanya itu yang saya mengerti.
Sisa matematika di luar saya. Bahkan tidak membantu bahwa penulis mengatakan 'seseorang dapat menunjukkan' dan meninggalkan hal-hal sebagai latihan.
Dapatkah seseorang tolong bantu menjelaskan apa yang terjadi di sini, secara intuitif? Apakah bab ini seharusnya membahas metode baru? atau apa?
regression
multivariate-analysis
dimensionality-reduction
regularization
reduced-rank-regression
cgo
sumber
sumber
Jawaban:
1. Apa yang dimaksud dengan regresi penurunan-peringkat (RRR)?
Pertimbangkan regresi linier berganda multivariat, yaitu regresi dengan variabel independen dan variabel dependen q . Biarkan X dan Y menjadi pusat prediktor ( n × p ) dan respons ( n × q ) dataset. Kemudian regresi ordinary least square (OLS) biasa dapat dirumuskan sebagai meminimalkan fungsi biaya berikut:p q X Y n×p n×q
di mana adalah matriks bobot regresi. Solusinya diberikan oleh dan mudah untuk melihat bahwa itu sama dengan melakukan regresi OLS terpisah, satu untuk setiap variabel dependen. p × q B O L S = ( X ⊤ X ) - 1 X ⊤ Y , qB p×q
Regresi Reduced-rank memperkenalkan kendala peringkat pada , yaitu harus diminimalkan dengan , di mana adalah maksimal rank diperbolehkan . L rank ( B ) ≤ r r BB L rank(B)≤r r B
2. Bagaimana cara mendapatkan solusi RRR?
Ternyata RRR dapat digunakan sebagai masalah vektor eigen. Memang, dengan menggunakan fakta bahwa OLS pada dasarnya adalah proyeksi ortogonal pada ruang kolom , kita dapat menulis ulang sebagaiIstilah pertama tidak tergantung pada dan istilah kedua dapat diminimalkan oleh SVD / PCA dari nilai yang dipasang . L L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . B Y = X B O L SX L
Khususnya, jika adalah sumbu utama pertama dari , maka r Y B R R R = B O L S U r U ⊤ r .Ur r Y^
3. Untuk apa RRR?
Mungkin ada dua alasan untuk menggunakan RRR.
Pertama, seseorang dapat menggunakannya untuk tujuan regularisasi. Demikian pula untuk regresi ridge (RR), lasso, dll, RRR memperkenalkan beberapa "penyusutan" penalti pada . Peringkat optimal dapat ditemukan melalui validasi silang. Dalam pengalaman saya, RRR dengan mudah mengungguli OLS tetapi cenderung kalah dari RR. Namun, RRR + RR dapat melakukan (sedikit) lebih baik daripada RR saja. rB r
Kedua, seseorang dapat menggunakannya sebagai metode reduksi dimensi / eksplorasi data. Jika kita memiliki banyak variabel prediktor dan banyak variabel dependen, maka RRR akan membangun "faktor laten" di ruang prediktor yang melakukan pekerjaan terbaik dalam menjelaskan varians DV. Seseorang kemudian dapat mencoba untuk menafsirkan faktor-faktor laten ini, memplotnya, dll. Sejauh yang saya tahu, ini secara rutin dilakukan dalam ekologi di mana RRR dikenal sebagai analisis redundansi dan merupakan contoh dari apa yang mereka sebut metode penahbisan ( lihat jawaban @ GavinSimpson di sini ).
4. Hubungan dengan metode pengurangan dimensi lain
RRR terhubung erat dengan metode pengurangan dimensi lain, seperti CCA dan PLS. Saya membahasnya sedikit dalam jawaban saya untuk Apa hubungan antara kuadrat terkecil parsial, regresi peringkat berkurang, dan regresi komponen utama?
Lihat di sana untuk detail lebih lanjut.
Lihat Torre, 2009, Kerangka Kerja Setidaknya-Kuadrat untuk Analisis Komponen untuk perawatan terperinci tentang bagaimana sebagian besar metode multivariat linear umum (misalnya PCA, CCA, LDA, - tetapi bukan PLS!) Dapat dilihat sebagai RRR.
5. Mengapa bagian ini dalam Hastie et al. sangat membingungkan?
Hastie et al. gunakan istilah RRR untuk merujuk pada hal yang sedikit berbeda! Alih-alih menggunakan fungsi loss mereka menggunakan seperti dapat dilihat pada rumus mereka 3.68. Ini memperkenalkan faktor whitening ke fungsi loss, pada dasarnya memutihkan variabel dependen. Jika Anda melihat perbandingan antara CCA dan RRR di atas, Anda akan melihat bahwa jika diputihkan maka perbedaannya menghilang. Jadi apa yang Hastie et al. panggil RRR sebenarnya CCA yang menyamar (dan memang, lihat 3.69 mereka).
Tidak ada yang dijelaskan dengan baik di bagian ini, karena itu membingungkan.
Lihat jawaban saya pada tutorial Ramah atau pengantar regresi tingkat rendah untuk bacaan lebih lanjut.
sumber
Reduced Rank Regression adalah model di mana tidak ada hasil Y tunggal, tetapi hasil Y ganda. Tentu saja, Anda dapat menyesuaikan regresi linier multivariat yang terpisah untuk setiap respons, tetapi ini tampaknya tidak efisien ketika hubungan fungsional antara prediktor dan masing-masing respons jelas serupa. Lihat latihan yang menakjubkan ini untuk situasi di mana saya percaya ini jelas berlaku.
https://www.kaggle.com/c/bike-sharing-demand/data
Ada beberapa teknik terkait untuk mendekati masalah ini yang membangun "faktor" atau "komponen" dari variabel X yang kemudian digunakan untuk memprediksi Ys. Halaman dokumentasi dari SAS ini membantu menjernihkan perbedaan bagi saya. Pengurangan Peringkat Regresi tampaknya mengenai mengekstraksi komponen yang secara maksimal memperhitungkan variasi di antara respons, berbeda dengan Partial Least Squares yang mengekstraksi komponen yang secara maksimal memperhitungkan variasi antara respons dan prediktor.
https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm
sumber