Ketimpangan Oracle: Secara mendasar

14

Saya akan melalui sebuah makalah yang menggunakan ketimpangan oracle untuk membuktikan sesuatu tetapi saya tidak dapat memahami apa yang bahkan coba dilakukan. Ketika saya mencari secara online tentang 'Oracle Inequality', beberapa sumber mengarahkan saya ke artikel "Candes, Emmanuel J. 'Estimasi statistik modern melalui ketidaksetaraan oracle." "yang dapat ditemukan di sini https://statweb.stanford.edu/~candes/papers/NonlinearEstimation.pdf . Tetapi buku ini tampaknya terlalu berat bagi saya dan saya yakin saya tidak memiliki beberapa prasyarat.

Pertanyaan saya adalah: Bagaimana Anda menjelaskan apa yang dimaksud dengan ketimpangan oracle untuk jurusan non-matematika (termasuk insinyur)? Kedua, bagaimana Anda merekomendasikan mereka untuk mempelajari prasyarat / topik sebelum mencoba mempelajari sesuatu seperti buku yang disebutkan di atas.

Saya akan sangat menyarankan bahwa seseorang yang memiliki pemahaman yang konkret dan jumlah pengalaman yang baik dalam statistik dimensi tinggi harus menjawab ini.

Wolcott
sumber
2
Adakah yang bisa memiliki reputasi lebih dari 1rb, mohon berikan hadiah untuk pertanyaan ini. Itu akan sangat membantu. Saya tidak berpikir bahwa pengguna CV umum akan terbiasa dengan konsep ini karena sebagian besar pengguna menggunakan statistik untuk analisis data dan bukan analisis teoritis, meskipun sebagai komunitas yang sepenuhnya didasarkan pada statistik, saya percaya pasti ada seseorang yang dapat menjawab pertanyaan ini dengan memadai. Saya percaya pertanyaannya belum mendapat perhatian yang cukup.
Wolcott
1
Saya telah memikirkan pertanyaan yang sama
jeza
"Definisi" yang diberikan pada halaman 22 dari tautan "Ketidaksetaraan oracle menghubungkan kinerja estimator nyata dengan estimator ideal yang mengandalkan informasi sempurna yang disediakan oleh oracle, dan yang tidak tersedia dalam praktiknya." Bukankah ini menyampaikan esensi definisi kepada Anda?
Mark L. Stone
2
@ Mark L. Stone bagi saya, tidak
jeza
1
Bahkan ketika Anda melihat contoh dan diskusi yang diberikan dalam beberapa kalimat sebelumnya, yaitu, pernyataan dan diskusi Teorema 4.1, sebagai contoh ketidaksetaraan nubuat? Dalam istilah awam: Wah, kita tidak tahu nilai optimal (disediakan oleh oracle) dari faktor penyusutan yang harus kita gunakan. Tetapi mengetahui bahwa nilai optimal faktor penyusutan dapat meningkatkan MSE dengan tidak lebih dari 2 vs tidak memiliki faktor penyusutan optimal dari oracle.
Mark L. Stone

Jawaban:

8

Saya akan mencoba menjelaskannya dalam kasus linear. Pertimbangkan model linier Ketika (jumlah variabel independen kurang atau sama dengan jumlah pengamatan) dan matriks desain memiliki peringkat penuh, penaksir kuadrat terkecil dari adalah dan kesalahan prediksi adalah dari mana kita dapat menyimpulkan Ini berarti bahwa setiap parameter diperkirakan dengan akurasi kuadratJadi akurasi kuadrat keseluruhan Anda adalah

Yi=j=1pβjXi(j)+ϵi,i=1,...,n.
pnb
b^=(XTX)1XTY
X(b^β0)22σ2
EX(b^β0)22n=σ2np.
βj0σ2/n,j=1,...,p.(σ2/n)p.

Sekarang bagaimana jika jumlah pengamatan kurang dari jumlah variabel independen ? Kami "percaya" bahwa tidak semua variabel independen kami berperan dalam menjelaskan , jadi hanya beberapa, katakanlah , dari mereka yang tidak nol. Jika kita tahu variabel mana yang bukan nol, kita bisa mengabaikan semua variabel lain dan dengan argumen di atas, akurasi kuadrat keseluruhan adalah(p>n)Yk(σ2/n)k.

Karena himpunan variabel bukan nol tidak diketahui, kita perlu beberapa penalti regularisasi (misalnya ) dengan parameter regularisasi (yang mengontrol jumlah variabel). Sekarang Anda ingin mendapatkan hasil yang mirip dengan yang dibahas di atas, Anda ingin memperkirakan akurasi kuadrat. Masalahnya adalah estimator optimal Anda sekarang tergantung pada . Tetapi fakta besarnya adalah bahwa dengan pilihan yang tepat untuk Anda bisa mendapatkan batas atas kesalahan prediksi dengan probabilitas tinggi, yaitu "ketidaksetaraan oracle" Perhatikan faktor tambahanl1λβ^λλ

X(β^β0)22nconst.σ2logpnk.
logp, yang merupakan harga untuk tidak mengetahui set variabel bukan nol. " " hanya bergantung pada atau .const.pn
Dato Gogolashvili
sumber
Sebenarnya, kita tidak perlu jumlah pengamatan menjadi kurang dari jumlah variabel independen untuk semua bagian selanjutnya menjadi benar.
jbowman
Bisakah Anda menjelaskan bagaimana mendapatkan persamaan harapan (persamaan kedua hingga terakhir) dan ketidaksetaraan (persamaan terakhir)?
user13985
X(b^β0)22σ2 memiliki distribusi chi-square dengan p derajat kebebasan sehingga harapannya adalah . Ketidaksetaraan terakhir adalah ketimpangan oracle. Bukti tidak begitu sepele, saya dapat merekomendasikan buku ini: Statistik untuk Data Dimensi Tinggi: Metode, Teori dan Aplikasi, bab 6.(σ2/n)p
Dato Gogolashvili