Regresi sudut terkecil menjaga korelasinya menurun dan terikat secara monoton?

Saya mencoba memecahkan masalah untuk regresi sudut terkecil (LAR). Ini adalah masalah 3.23 pada halaman 97 dari Hastie et al., Elemen Pembelajaran Statistik, 2. ed. (Pencetakan ke-5) .

Pertimbangkan masalah regresi dengan semua variabel dan respons memiliki mean nol dan standar deviasi. Anggap juga bahwa setiap variabel memiliki korelasi absolut identik dengan respons:

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p$

Biarkan menjadi koefisien kuadrat terkecil dari di dan biarkan untuk . $\hat{\beta}$ $\mathbf{y}$ $\mathbf{X}$ $\mathbf{u}(\alpha)=\alpha \bf{X} \hat{\beta}$ $\alpha\in[0,1]$

Saya diminta untuk menunjukkan bahwa

\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ | = (1 - α) λ, j = 1, . . ., p

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y}-u(\alpha) \right \rangle | = (1 - \alpha) \lambda, j = 1, ..., p$ dan saya mengalami masalah dengan itu. Perhatikan bahwa ini pada dasarnya dapat mengatakan bahwa korelasi masing-masing

x_{j}

$x_j$ dengan residual tetap sama besarnya ketika kita maju ke arah

u

$u$ .

Saya juga tidak tahu bagaimana menunjukkan bahwa korelasinya sama dengan:

$\lambda(\alpha) = \frac{(1-\alpha)}{\sqrt{(1-\alpha)^2 + \frac{\alpha (2-\alpha)}{N} \cdot RSS}} \cdot \lambda$

Pointer apa pun akan sangat dihargai!

regression machine-learning correlation self-study Belmont
sumber

@ Belmont, apa yang ? Bisakah Anda memberikan lebih banyak konteks tentang masalah Anda? Tautan ke artikel dengan properti standar LAR misalnya akan banyak membantu.

u (α)

$u(\alpha)$

mpiktas

@ Belmont, Ini terlihat seperti masalah dari Hastie, dkk., Elemen Pembelajaran Statistik , 2. ed. Apakah ini pekerjaan rumah? Jika demikian, Anda dapat menambahkan tag itu.

kardinal

@ Belmont, sekarang @ cardinal memberikan jawaban yang lengkap, dapatkah Anda menentukan apa sebenarnya LAR, untuk referensi di masa mendatang? Menilai dari jawaban ini adalah manipulasi standar produk dari regresi kuadrat terkecil diberikan beberapa kendala awal. Seharusnya tidak ada nama khusus untuk itu tanpa alasan serius.

mpiktas

@mpiktas, ini adalah algoritma stagewise, jadi setiap kali variabel memasuki atau meninggalkan model pada jalur regularisasi, ukuran (yaitu kardinalitas / dimensi) dari tumbuh atau menyusut masing-masing dan perkiraan LS "baru" digunakan berdasarkan variabel "aktif" saat ini. Dalam kasus laso, yang merupakan masalah optimasi cembung, prosedur ini pada dasarnya mengeksploitasi struktur khusus dalam kondisi KKT untuk mendapatkan solusi yang sangat efisien. Ada juga generalisasi untuk, misalnya, regresi logistik berdasarkan pada IRLS dan Heine-Borel (untuk membuktikan konvergensi dalam jumlah langkah terbatas.)

β

$\beta$

kardinal

@ Belmont -1, karena saya baru saja membeli buku Hastie, saya dapat mengonfirmasi, bahwa ini adalah latihan darinya. Jadi saya memberi Anda -1 besar, karena Anda bahkan tidak berhasil memberikan semua definisi, saya bahkan tidak berbicara tentang memberikan referensi.

mpiktas

Ini adalah masalah 3.23 pada halaman 97 dari Hastie et al., Elemen Pembelajaran Statistik , 2. ed. (Pencetakan ke-5) .

Kunci dari masalah ini adalah pemahaman yang baik tentang kuadrat terkecil biasa (yaitu, regresi linier), khususnya ortogonalitas dari nilai yang dipasang dan residu.

Lemma ortogonalitas : Misalkan adalah matriks desain , vektor respons dan parameter (benar). Dengan asumsi adalah peringkat penuh (yang akan kita bahas), perkiraan OLS dari adalah . Nilai yang dipasang adalah . Kemudian . Artinya, nilai-nilai yang dipasang adalah ortogonal terhadap residu. Ini mengikuti sejak . $X$ $n \times p$ $y$ $\beta$ $X$ $\beta$ $\hat{\beta} = (X^T X)^{-1} X^T y$ $\hat{y} = X (X^T X)^{-1} X^T y$ $\langle \hat{y}, y-\hat{y} \rangle = \hat{y}^T (y - \hat{y}) = 0$ $X^T (y - \hat{y}) = X^T y - X^T X (X^T X)^{-1} X^T y = X^T y - X^T y = 0$

Sekarang, mari menjadi vektor kolom sehingga adalah th kolom . Kondisi yang diasumsikan adalah: $x_j$ $x_j$ $j$ $X$

$\frac{1}{N} \langle x_j, x_j \rangle = 1$ untuk setiap , , $j$ $\frac{1}{N} \langle y, y \rangle = 1$
$\frac{1}{N} \langle x_j, 1_p \rangle = \frac{1}{N} \langle y, 1_p \rangle = 0$ mana menunjukkan vektor yang panjangnya , dan $1_p$ $p$
$\frac{1}{N} | \langle x_j, y \rangle | = \lambda$ untuk semua . $j$

Perhatikan bahwa secara khusus , pernyataan terakhir dari lemma ortogonalitas identik dengan untuk semua . $\langle x_j, y - \hat{y} \rangle = 0$ $j$

Korelasi terikat

Sekarang, . Jadi, dan suku kedua di sebelah kanan adalah nol oleh lemma ortogonalitas , jadi seperti yang diinginkan. Nilai absolut dari korelasi itu adil $u(\alpha) = \alpha X \hat{\beta} = \alpha \hat{y}$

⟨ x_{j}, y - u (a) ⟩ = ⟨ x_{j}, (1 - α) y + α y - α \hat{y} ⟩ = (1 - α) ⟨ x_{j}, y ⟩ + α ⟨ x_{j}, y - \hat{y} ⟩,

$\langle x_j, y - u(a) \rangle = \langle x_j, (1-\alpha) y + \alpha y - \alpha \hat{y} \rangle = (1-\alpha) \langle x_j, y \rangle + \alpha \langle x_j, y - \hat{y} \rangle ,$

\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ | = (1 - α) λ,

$\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle | = (1-\alpha) \lambda ,$

{\hat{ρ}}_{j} (α) = \frac{\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ |}{\sqrt{\frac{1}{N} ⟨ x_{j}, x_{j} ⟩} \sqrt{\frac{1}{N} ⟨ y - u (α), y - u (α) ⟩}} = \frac{(1 - α) λ}{\sqrt{\frac{1}{N} ⟨ y - u (α), y - u (α) ⟩}}

$\hat{\rho}_j(\alpha) = \frac{\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle |}{\sqrt{\frac{1}{N} \langle x_j, x_j \rangle }\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }} = \frac{(1-\alpha)\lambda}{\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }}$

Catatan : Sisi kanan di atas tidak bergantung pada dan pembilangnya sama dengan kovarians karena kita mengasumsikan bahwa semua dan berpusat (jadi, khususnya, tidak perlu pengurangan rata-rata dari rata-rata) ). $j$ $x_j$ $y$

Apa gunanya? Ketika meningkatkan vektor respons, dimodifikasi sehingga ia beringsut menuju solusi kuadrat-terkecil ( terbatas! ) Yang diperoleh dengan menggabungkan hanya parameter pertama dalam model. Ini secara bersamaan memodifikasi parameter yang diestimasi karena mereka adalah produk dalam sederhana dari prediktor dengan vektor respons (yang dimodifikasi). Modifikasi mengambil bentuk khusus. Itu menjaga (besarnya) korelasi antara prediktor dan respons yang dimodifikasi sama sepanjang proses (meskipun nilai korelasinya berubah). Pikirkan tentang apa yang dilakukan secara geometris dan Anda akan memahami nama prosedurnya! $\alpha$ $p$

Bentuk eksplisit dari korelasi (absolut)

Mari kita fokus pada istilah dalam penyebut, karena pembilang sudah dalam bentuk yang diperlukan. Kami memiliki

⟨ y - u (α), y - u (α) ⟩ = ⟨ (1 - α) y + α y - u (α), (1 - α) y + α y - u (α) ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = \langle (1-\alpha) y + \alpha y - u(\alpha), (1-\alpha) y + \alpha y - u(\alpha) \rangle .$

Mengganti dalam dan menggunakan linearitas produk dalam, kita dapatkan $u(\alpha) = \alpha \hat{y}$

⟨ y - u (α), y - u (α) ⟩ = (1 - α)^{2} ⟨ y, y ⟩ + 2 α (1 - α) ⟨ y, y - \hat{y} ⟩ + α^{2} ⟨ y - \hat{y}, y - \hat{y} ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = (1-\alpha)^2 \langle y, y \rangle + 2\alpha(1-\alpha) \langle y, y - \hat{y} \rangle + \alpha^2 \langle y-\hat{y}, y-\hat{y} \rangle .$

Perhatikan itu

$\langle y, y \rangle = N$ dengan asumsi,
$\langle y, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y} \rangle + \langle \hat{y}, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y}\rangle$ , dengan menerapkan lemma ortogonal (lagi-lagi) ke suku kedua di tengah; dan,
$\langle y - \hat{y}, y - \hat{y} \rangle = \mathrm{RSS}$ menurut definisi.

Menyatukan semua ini, Anda akan melihat bahwa kami mendapatkannya

{\hat{ρ}}_{j} (α) = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} + \frac{α (2 - α)}{N} R S S}} = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} (1 - \frac{R S S}{N}) + \frac{1}{N} R S S}}

$\hat{\rho}_j(\alpha) = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 + \frac{\alpha(2-\alpha)}{N} \mathrm{RSS}}} = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 (1 - \frac{\mathrm{RSS}}{N}) + \frac{1}{N} \mathrm{RSS}}}$

Untuk menyelesaikannya, dan jadi jelas bahwa secara monoton menurun dalam dan sebagai . $1 - \frac{\mathrm{RSS}}{N} = \frac{1}{N} (\langle y, y, \rangle - \langle y - \hat{y}, y - \hat{y} \rangle ) \geq 0$ $\hat{\rho}_j(\alpha)$ $\alpha$ $\hat{\rho}_j(\alpha) \downarrow 0$ $\alpha \uparrow 1$

Epilog : Berkonsentrasilah pada ide-ide di sini. Sebenarnya hanya ada satu. The ortogonalitas lemma melakukan hampir semua pekerjaan untuk kita. Sisanya hanyalah aljabar, notasi, dan kemampuan untuk membuat dua yang terakhir ini bekerja.

kardinal
sumber

@ kardinal, +1. Jawabannya adalah besarnya lebih baik daripada pertanyaan.

mpiktas

@ cardinal, Anda mungkin ingin mengubah tautan ke amazon atau situs lain. Saya pikir bahwa menautkan ke buku lengkap dapat menimbulkan beberapa masalah hak cipta.

mpiktas

@mpiktas, tidak. Tidak ada masalah hak cipta. Itu adalah situs web resmi untuk buku itu. Para penulis memperoleh izin dari Springer untuk membuat PDF tersedia secara online secara gratis. (Lihat catatan untuk efek ini di situs.) Saya pikir mereka mendapat ide dari Stephen Boyd dan teks Optimasi Cembungnya . Semoga tren seperti itu akan meningkat dalam beberapa tahun ke depan. Nikmati!

kardinal

@ kardinal, terima kasih banyak! Itu sangat murah hati dari penulis.

mpiktas

@mpiktas, sejauh ini buku yang paling populer di Springer Series in Statistics. Itu terlihat bagus di iPad. Yang mengingatkan saya --- Saya juga harus mengunduh teks Boyd. Bersulang.

kardinal

Regresi sudut terkecil menjaga korelasinya menurun dan terikat secara monoton?

Jawaban: