Tentang apa itu "regresi penurunan peringkat"?

Saya telah membaca Elemen Pembelajaran Statistik dan saya tidak dapat memahami apa yang dimaksud dengan Bagian 3.7 "Penyusutan dan Seleksi Berganda Berganda". Ini berbicara tentang RRR (regresi tingkat rendah), dan saya hanya bisa mengerti bahwa premisnya adalah tentang model linear multivariat yang digeneralisasi di mana koefisien tidak diketahui (dan diperkirakan) tetapi diketahui tidak memiliki peringkat penuh. Hanya itu yang saya mengerti.

Sisa matematika di luar saya. Bahkan tidak membantu bahwa penulis mengatakan 'seseorang dapat menunjukkan' dan meninggalkan hal-hal sebagai latihan.

Dapatkah seseorang tolong bantu menjelaskan apa yang terjadi di sini, secara intuitif? Apakah bab ini seharusnya membahas metode baru? atau apa?

regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression cgo
sumber

Tampaknya memberikan metode regresi yang memanfaatkan model multi-hasil dalam konteks penyusutan dan pemilihan variabel. Tidak ada hasil Y tunggal, tetapi lebih dari satu hasil Y. Katakanlah Anda memiliki hasil 5 Y, maka bagian ini membahas metode untuk menyatukan estimasi metode, bukan hanya membangun 5 model terpisah.

spdrnl

Beberapa sen saya: asumsi matriks peringkat rendah membuat segalanya lebih sederhana. Untungnya asumsi ini berlaku untuk banyak sumber data dunia nyata.

Vladislavs Dovgalecs

Sepertinya asumsi ini adalah tentang memiliki batasan pada solusi. Makalah ini menjelaskan mengapa statprob.com/encyclopedia/…

Vladislavs Dovgalecs

1. Apa yang dimaksud dengan regresi penurunan-peringkat (RRR)?

Pertimbangkan regresi linier berganda multivariat, yaitu regresi dengan variabel independen dan variabel dependen . Biarkan dan menjadi pusat prediktor ( ) dan respons ( ) dataset. Kemudian regresi ordinary least square (OLS) biasa dapat dirumuskan sebagai meminimalkan fungsi biaya berikut: $p$ $q$ $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$

L = ‖ Y - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X\mathbf B\|^2,$

di mana adalah matriks bobot regresi. Solusinya diberikan oleh dan mudah untuk melihat bahwa itu sama dengan melakukan regresi OLS terpisah, satu untuk setiap variabel dependen. $\mathbf B$ $p\times q$

{\hat{B}}_{O L S} = (X^{⊤} X)^{- 1} X^{⊤} Y,

$\hat{\mathbf B}_\mathrm{OLS}=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf Y,$

q

$q$

Regresi Reduced-rank memperkenalkan kendala peringkat pada , yaitu harus diminimalkan dengan , di mana adalah maksimal rank diperbolehkan . $\mathbf B$ $L$ $\operatorname{rank}(\mathbf B)\le r$ $r$ $\mathbf B$

2. Bagaimana cara mendapatkan solusi RRR?

Ternyata RRR dapat digunakan sebagai masalah vektor eigen. Memang, dengan menggunakan fakta bahwa OLS pada dasarnya adalah proyeksi ortogonal pada ruang kolom , kita dapat menulis ulang sebagaiIstilah pertama tidak tergantung pada dan istilah kedua dapat diminimalkan oleh SVD / PCA dari nilai yang dipasang . $\mathbf X$ $L$

L = ‖ Y - X {\hat{B}}_{O L S} ‖^{2} + ‖ X {\hat{B}}_{O L S} - X B ‖^{2} .

$L=\|\mathbf Y-\mathbf X\hat{\mathbf B}_\mathrm{OLS}\|^2+\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2.$

B

$\mathbf B$

\hat{Y} = X {\hat{B}}_{O L S}

$\hat{\mathbf Y}=\mathbf X\hat{\mathbf B}_\mathrm{OLS}$

Khususnya, jika adalah sumbu utama pertama dari , maka $\mathbf U_r$ $r$ $\hat{\mathbf Y}$

{\hat{B}}_{R R R} = {\hat{B}}_{O L S} U_{r} U_{r}^{⊤} .

$\hat{\mathbf B}_\mathrm{RRR}=\hat{\mathbf B}_\mathrm{OLS}\mathbf U_r\mathbf U_r^\top.$

3. Untuk apa RRR?

Mungkin ada dua alasan untuk menggunakan RRR.

Pertama, seseorang dapat menggunakannya untuk tujuan regularisasi. Demikian pula untuk regresi ridge (RR), lasso, dll, RRR memperkenalkan beberapa "penyusutan" penalti pada . Peringkat optimal dapat ditemukan melalui validasi silang. Dalam pengalaman saya, RRR dengan mudah mengungguli OLS tetapi cenderung kalah dari RR. Namun, RRR + RR dapat melakukan (sedikit) lebih baik daripada RR saja. $\mathbf B$ $r$

Kedua, seseorang dapat menggunakannya sebagai metode reduksi dimensi / eksplorasi data. Jika kita memiliki banyak variabel prediktor dan banyak variabel dependen, maka RRR akan membangun "faktor laten" di ruang prediktor yang melakukan pekerjaan terbaik dalam menjelaskan varians DV. Seseorang kemudian dapat mencoba untuk menafsirkan faktor-faktor laten ini, memplotnya, dll. Sejauh yang saya tahu, ini secara rutin dilakukan dalam ekologi di mana RRR dikenal sebagai analisis redundansi dan merupakan contoh dari apa yang mereka sebut metode penahbisan ( lihat jawaban @ GavinSimpson di sini ).

4. Hubungan dengan metode pengurangan dimensi lain

RRR terhubung erat dengan metode pengurangan dimensi lain, seperti CCA dan PLS. Saya membahasnya sedikit dalam jawaban saya untuk Apa hubungan antara kuadrat terkecil parsial, regresi peringkat berkurang, dan regresi komponen utama?

jika dan adalah data prediktor terpusat ( ) dan respons ( ) dan jika kita mencari pasangan sumbu pertama, untuk dan untuk , maka metode ini memaksimalkan jumlah berikut: $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ $\mathbf v \in \mathbb R^q$ $\mathbf Y$

$\begin{aligned} P C A : & Var (X w) \\ R R R : & {Corr}^{2} (X w, Y v) \cdot Var (Y v) \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Y v) \cdot Var (Y v) = {Cov}^{2} (X w, Y v) \\ C C A : & {Corr}^{2} (X w, Y v) \end{aligned}$ $\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

Lihat di sana untuk detail lebih lanjut.

Lihat Torre, 2009, Kerangka Kerja Setidaknya-Kuadrat untuk Analisis Komponen untuk perawatan terperinci tentang bagaimana sebagian besar metode multivariat linear umum (misalnya PCA, CCA, LDA, - tetapi bukan PLS!) Dapat dilihat sebagai RRR.

5. Mengapa bagian ini dalam Hastie et al. sangat membingungkan?

Hastie et al. gunakan istilah RRR untuk merujuk pada hal yang sedikit berbeda! Alih-alih menggunakan fungsi loss mereka menggunakan seperti dapat dilihat pada rumus mereka 3.68. Ini memperkenalkan faktor whitening ke fungsi loss, pada dasarnya memutihkan variabel dependen. Jika Anda melihat perbandingan antara CCA dan RRR di atas, Anda akan melihat bahwa jika diputihkan maka perbedaannya menghilang. Jadi apa yang Hastie et al. panggil RRR sebenarnya CCA yang menyamar (dan memang, lihat 3.69 mereka).

L = ‖ Y - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X \mathbf B\|^2,$

L = ‖ (Y - X B) (Y^{⊤} Y)^{- 1 / 2} ‖^{2},

$L=\|(\mathbf Y-\mathbf X \mathbf B)(\mathbf Y^\top \mathbf Y)^{-1/2}\|^2,$

Y

$\mathbf Y$

Y

$\mathbf Y$

Tidak ada yang dijelaskan dengan baik di bagian ini, karena itu membingungkan.

Lihat jawaban saya pada tutorial Ramah atau pengantar regresi tingkat rendah untuk bacaan lebih lanjut.

amuba kata Reinstate Monica
sumber

Ini adalah penjelasan terperinci yang ditulis dengan sangat baik. Terima kasih, saya menghargainya.

CGO

@amoeba Jawaban yang fantastis. Dapatkah saya menyarankan beberapa retouch agar lebih mudah diakses? Pada baris terakhir dari entri pertama, dapatkah Anda menjabarkan apa , misalnya, pangkat matriks model jika itu adalah apa adanya. Kedua, pada persamaan yang menentukan di bawah entri kedua, Anda memperkenalkan , yang merupakan koefisien populasi, dan dengan demikian merupakan parameter yang tidak diketahui. Bisakah Anda menguraikannya sedikit?

r

$r$

B

$\bf B$

Antoni Parellada

(1) Ini adalah regresi multivariat , @Antoni, yaitu adalah matriks, dan juga merupakan matriks, bukan vektor. (2) Berikut hanya parameter dari hilangnya fungsi . Tujuannya adalah untuk menemukan meminimalkan .

Y

$Y$

B

$B$

B

$B$

L

$L$

B

$B$

L

$L$

Amoeba berkata Reinstate Monica

Tentang memilih peringkat optimal dalam RRRR, perhatikan bahwa derajat kebebasan dapat secara eksplisit dihitung sebagai fungsi : , di mana adalah dimensi input dan adalah dimensi output. Seseorang kemudian dapat menggunakan validasi silang umum (GCV) untuk memilih terbaik : meminimalkan .

r

$r$

r

$r$

\hat{df} (r) = p q - (p - r) (q - r) + "a small correction term"

$\hat{\text{df}}(r) = pq - (p-r)(q-r) + \text{"a small correction term"}$

p

$p$

q

$q$

r

$r$

\frac{‖ Y - {\hat{Y}}^{RRRR} (r) ‖_{Fro}^{2}}{(n q - \hat{df} (r))^{2}}

$\frac{\|Y - \hat{Y}^{\text{RRRR}}(r)\|_{\text{Fro}}^2}{(nq - \hat{\text{df}}(r))^2}$

dohmatob

Lihat misalnya google.fr/url?sa=t&source=web&rct=j&url=https://…