Saya mencoba membaca tentang penelitian di bidang regresi dimensi tinggi; ketika lebih besar dari , yaitu, . Sepertinya istilah sering muncul dalam hal tingkat konvergensi untuk estimator regresi.
Sebagai contoh, di sini , persamaan (17) mengatakan bahwa fit memenuhi
Biasanya, ini juga menyiratkan bahwa harus lebih kecil dari .
- Apakah ada intuisi mengapa rasio ini begitu menonjol?
- Juga, tampaknya dari literatur masalah regresi dimensi tinggi menjadi rumit ketika . Kenapa gitu?
- Apakah ada referensi bagus yang membahas masalah seberapa cepat pertumbuhan dan n harus dibandingkan satu sama lain?
regression
lasso
convergence
high-dimensional
Greenparker
sumber
sumber
Jawaban:
(Dipindahkan dari komentar ke jawaban seperti yang diminta oleh @Greenparker)
Bagian 1)
The Istilah log p berasal dari (Gaussian) konsentrasi ukuran. Secara khusus, jika Anda memilikipIID Gaussian variabel acak [F1], maksimumnya ada di urutanσ √logp−−−−√ p dengan probabilitas tinggi.σlogp−−−−√
Faktor hanya datang fakta Anda melihat kesalahan prediksi rata-rata - yaitu, itu cocok dengan n - 1 di sisi lain - jika Anda melihat kesalahan total, itu tidak akan ada di sana.n−1 n−1
Bagian 2)
Pada dasarnya, Anda memiliki dua kekuatan yang perlu Anda kontrol:
Dalam statistik klasik, kita biasanya memperbaiki dan membiarkan n hingga tak terhingga: rejim ini tidak super berguna untuk teori dimensi tinggi karena ia (asimtotik) dalam rejim dimensi rendah oleh konstruksi .p n
Atau, kita bisa membiarkan pergi ke infinity dan n tetap diperbaiki, tetapi kemudian kesalahan kita baru saja meledak ketika masalah pada dasarnya menjadi tidak mungkin. Bergantung pada masalahnya, kesalahan tersebut dapat menjadi tak terbatas atau berhenti pada batas atas alami ( mis. , Kesalahan klasifikasi 100%).p n
Karena kedua kasus ini agak tidak berguna, kami malah mempertimbangkann,p keduanya akan menjadi tak terbatas sehingga teori kami keduanya relevan (tetap berdimensi tinggi) tanpa apokaliptik (fitur tak terbatas, data terbatas).
Memiliki dua "kenop" umumnya lebih sulit daripada memiliki kenop tunggal, jadi kami memperbaiki untuk beberapa f tetap dan membiarkan n pergi ke infinity (dan karenanya p pergi ke infinity secara tidak langsung). [F2] Pilihan f menentukan perilaku masalah. Untuk alasan dalam jawaban saya untuk bagian 1, ternyata "kejahatan" dari fitur tambahan hanya tumbuh sebagai log p sedangkan "kebaikan" dari data tambahan tumbuh sebagai n .p=f(n) f n p f logp n
Rezim terakhir ini kadang-kadang disebut "dimensi ultra-tinggi" dalam literatur. Istilah "ultra-dimensi tinggi" tidak memiliki definisi yang ketat sejauh yang saya tahu, tetapi secara informal hanya "rezim yang memecah laso dan penaksir serupa."
First consider a case wherep=f(n)=3n . This is in the 'tractable' high-dimensional regime described above and, as theory predicts, we see the prediction error converge to zero:
Code to reproduce:
We can compare this to the case wherelogpn stays approximately constant: I call this the "borderline" ultra-high-dimensional regime, but that's not a standard term:
Here we see that the prediction error (using the same design as above) levels off instead of continuing to zero.
If we setP to grow faster than en , (e.g., en2 ), the prediction error increases without bound. These en2 is ludicrously fast and leads to enormous problems / numerical problems, so here's a slightly slower, but still UHD example:
(I used a sparse randomX for speed, so don't try to compare the numbers with the other plots directly) It's hard to see any uptick in this graph, perhaps because we kept the UHD growth from being too "ultra" in the name of computational time. Using a larger exponent (like en1.5 ) would make the asymptotic growth a bit clearer.
Despite what I said above and how it may appear, the ultra-high-dimensional regime is not actually completely hopeless (though it's close), but it requires much more sophisticated techniques than just a simple max of Gaussian random variables to control the error. The need to use these complex techniques is the ultimate source of the complexity you note.
There's no particular reason to think thatp,n should grow "together" in any way (i.e., there's not an obvious "real-world" reason to fix p=f(n) ), but math generally lacks language and tools for discussing limits with two "degrees of freedom" so it's the best we can do (for now!).
Part 3)
I'm afraid I don't know any books in the statistical literature that really focus on the growth oflogp vs n explicitly. (There may be something in the compressive sensing literature)
My current favorite reference for this kind of theory is Chapters 10 and 11 of Statistical Learning with Sparsity [F3] but it generally takes the approach of consideringn,p fixed and giving finite-sample (non-asymptotic) properties of getting a "good" result. This is actually a more powerful approach - once you have the result for any n,p , it's easy to consider the asymptotics - but these results are generally harder to derive, so we currently only have them for lasso-type estimators as far as I know.
If you're comfortable and willing to delve into research literature, I'd look at works by Jianqing Fan and Jinchi Lv, who have done most of the foundational work on ultra-high-dimensional problems. ("Screening" is a good term to search on)
[F1] Actually, any subgaussian random variable, but this doesn't add that much to this discussion.
[F2] We might also set the "true" sparsitys to depend on n (s=g(n) ) but that doesn't change things too much.
[F3] T. Hastie, R. Tibshirani, and M. Wainwright. Statistical Learning with Sparsity. Monographs on Statistics and Applied Probability 143. CRC Press, 2015. Available at for free download at https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Peter J. Bickel, Ya'acov Ritov, and Alexandre B. Tsybakov. "Simultaneous Analysis of Lasso and Dantzig Selector." Annals of Statistics 37(4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620
sumber