Saya mencari definisi non-teknis dari laso dan apa yang digunakan untuk
Dimasukkannya kendala tambahan (biasanya penalti untuk kompleksitas) dalam proses pemasangan model. Digunakan untuk mencegah overfitting / meningkatkan akurasi prediksi.
Saya mencari definisi non-teknis dari laso dan apa yang digunakan untuk
Perhatikan tiga fenomena berikut. Paradoks Stein: diberikan beberapa data dari distribusi normal multivariat dalam Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 , rata-rata sampel bukan penaksir yang sangat baik dari rata-rata sebenarnya. Seseorang dapat memperoleh estimasi dengan kesalahan kuadrat...
Musim liburan telah memberi saya kesempatan untuk meringkuk di samping api dengan The Elements of Statistics Learning . Berasal dari perspektif ekonometrik (sering), saya mengalami kesulitan memahami penggunaan metode penyusutan seperti regresi ridge, laso, dan regresi sudut terkecil (LAR)....
Saya mengerti bahwa estimasi regresi ridge adalah yang meminimalkan jumlah sisa kuadrat dan penalti pada ukuranββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS}...
Untuk menyelesaikan masalah pemilihan model, sejumlah metode (LASSO, ridge regression, dll.) Akan mengecilkan koefisien variabel prediktor menjadi nol. Saya mencari penjelasan intuitif mengapa ini meningkatkan kemampuan prediksi. Jika efek sebenarnya dari variabel itu sebenarnya sangat besar,...
Apa rumus tepat yang digunakan dalam R lm() untuk Adjusted R-squared? Bagaimana saya bisa menafsirkannya? Formula r-squared yang disesuaikan Tampaknya ada beberapa rumus untuk menghitung R-kuadrat Disesuaikan. Formula Wherry:1 - ( 1 - R2) ( n - 1 )( n - v
Saya telah membaca tiga alasan utama untuk menstandarkan variabel sebelum sesuatu seperti Lassoregresi: 1) Interpretabilitas koefisien. 2) Kemampuan untuk menentukan peringkat kepentingan koefisien dengan besarnya relatif estimasi koefisien pasca penyusutan. 3) Tidak perlu mencegat. Tetapi saya...
Kertas jaring elastis asli Zou & Hastie (2005) Regularisasi dan pemilihan variabel melalui jaring elastis memperkenalkan fungsi kerugian bersih elastis untuk regresi linier (di sini saya berasumsi semua variabel berpusat dan diskalakan ke varian unit): tetapi menyebutnya "jaring elastis naif"....
Saya pernah mendengar metode menggunakan laso dua kali (seperti laso ganda) di mana Anda melakukan laso pada set variabel asli, katakan S1, dapatkan set jarang yang disebut S2, dan kemudian lakukan laso lagi pada set S2 untuk mendapatkan set S3 . Apakah ada istilah metodologis untuk ini? Juga, apa...
Regresi LASSO menyusutkan koefisien ke nol, sehingga memberikan pemilihan model yang efektif. Saya percaya bahwa dalam data saya ada interaksi yang bermakna antara kovariat nominal dan kontinu. Namun tidak harus, 'efek utama' dari model yang sebenarnya bermakna (bukan nol). Tentu saja saya tidak...
Untuk model linier , istilah susutnya selalu .y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Apa alasannya mengapa kami tidak mengecilkan bias (intersep) istilah ? Haruskah kita mengecilkan istilah bias dalam model jaringan
Presisi didefinisikan sebagai: p = true positives / (true positives + false positives) Apakah benar bahwa, sebagai true positivesdan false positivespendekatan 0, presisi mendekati 1? Pertanyaan yang sama untuk diingat: r = true positives / (true positives + false negatives) Saat ini saya...
Saya telah membaca tentang estimator James-Stein. Ini didefinisikan, dalam catatan ini , sebagai θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Saya telah membaca buktinya tetapi saya tidak mengerti pernyataan berikut: Secara geometris, estimator James-Stein...
Saya punya pertanyaan tentang penghitungan faktor Penyusutan James-Stein dalam makalah Scientific American 1977 oleh Bradley Efron dan Carl Morris, "Stein's Paradox in Statistics" . Saya mengumpulkan data untuk pemain baseball dan diberikan di bawah ini: Name, avg45, avgSeason Clemente, 0.400,...
Ridge perkiraan regresi parameter ββ\boldsymbol \beta dalam model linear y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta oleh β λ = ( X ⊤ X + λ I ) - 1 X ⊤ y , di mana λ adalah parameter regularisasi. Sudah diketahui bahwa sering berkinerja lebih baik daripada regresi OLS (dengan λ = 0 ) ketika ada...
Jika kita mulai dengan satu set data , menerapkan Lasso untuk itu dan mendapatkan solusi β L , kita dapat menerapkan Lasso lagi ke set data ( X S , Y ) , di mana S adalah himpunan bukan-nol indeks β L , untuk mendapatkan solusi, β R L , disebut solusi 'santai LASSO' (koreksi saya jika saya salah!)....
Saya tertarik dengan gagasan penyusutan James-Stein (yaitu bahwa fungsi nonlinier dari pengamatan tunggal terhadap suatu vektor yang normalnya independen dapat menjadi penaksir yang lebih baik dari rata-rata variabel acak, di mana 'lebih baik' diukur dengan kuadrat kesalahan ). Namun, saya belum...
Apakah ada hasil analitik atau makalah eksperimental mengenai pilihan optimal dari koefisien hukuman ℓ1ℓ1\ell_1 . Secara optimal , maksud saya parameter yang memaksimalkan probabilitas memilih model terbaik, atau yang meminimalkan kerugian yang diharapkan. Saya bertanya karena seringkali tidak...
Sudah ada posting di situs ini yang membicarakan masalah yang sama: Mengapa penyusutan berfungsi? Tetapi, meskipun jawabannya populer, saya tidak percaya inti dari pertanyaan itu benar-benar ditanggapi. Cukup jelas bahwa memperkenalkan beberapa bias dalam estimasi membawa pengurangan varians dan...
Kata susut banyak dilemparkan ke lingkaran tertentu. Tapi apa susutnya, sepertinya tidak ada definisi yang jelas. Jika saya memiliki deret waktu (atau kumpulan pengamatan dari suatu proses), apa sajakah cara saya dapat mengukur beberapa jenis penyusutan empiris pada deret tersebut? Apa saja jenis...