Menggeneralisasi "trik median" ke dimensi yang lebih tinggi?

21

Untuk algoritma acak mengambil nilai nyata, "trik median" adalah cara sederhana untuk mengurangi kemungkinan kegagalan pada ambang batas mana pun , dengan biaya hanya pada multiplikatif) overhead. Yaitu, jika output \ mathcal {A} jatuh ke "rentang yang baik" I = [a, b] dengan probabilitas (setidaknya) 2/3 , kemudian menjalankan salinan independen \ mathcal {A} _1, \ dots, \ mathcal {A} _t dan mengambil median output mereka a_1, \ dots, a_t akan menghasilkan nilai yang jatuh dalam I dengan probabilitas setidaknya 1- \ delta oleh batas Chernoff / Hoeffding. δ > 0 t = O ( log 1Aδ>0AI=[a,b]2/3A1,...,Ata1,...,atI1-δt=O(log1δ)AI=[a,b]2/3A1,,Ata1,,atI1δ

Apakah ada generalisasi dari "trik" ini ke dimensi yang lebih tinggi, katakanlah Rd , di mana kisaran yang baik sekarang menjadi set cembung (atau bola, atau set yang cukup bagus dan terstruktur)? Yaitu, diberikan algoritma acak A menghasilkan nilai dalam Rd , dan "set yang baik" SRd sedemikian rupa sehingga Pr{A(x,r)S}2/3 untuk semua x , bagaimana seseorang dapat meningkatkan probabilitas keberhasilan menjadi 1δ dengan hanya biaya logaritmik dalam 1/δ ?

(Frasa yang berbeda: diberikan tetap, arbirary dengan jaminan bahwa setidaknya \ frac {2t} {3} dari a_i milik S , apakah ada prosedur mengeluarkan nilai dari S ? Jika demikian, apakah ada yang efisien?)2 ta1,,atRd ai2t3aiSSS

Dan apakah seperangkat asumsi minimum yang dibutuhkan seseorang di S agar dapat dicapai di atas?

Maaf jika ini ternyata sepele - Saya tidak dapat menemukan referensi untuk pertanyaan ini ...

Clement C.
sumber
3
Dalam kasus khusus bahwa adalah berbentuk kubus, apakah itu berfungsi jika Anda menggunakan trik median di setiap dimensi secara individual? Jadi, ambil banyak poin, lalu ambil median koordinat mereka dalam dimensi 1, 2, ..., d, dan kemudian Anda mendapatkan titik di . Mungkin Anda perlu sampel dengan strategi ini? R d O ( log ( d / ϵ ) )SRdO(log(d/ϵ))
Robin Kothari
1
Dalam kasus satu dimensi, biasanya Anda tahu tetapi tidak interval yang tepat (meskipun bahkan jika Anda tidak tahu trik median masih berfungsi). Haruskah kita menganggap kita tahu tetapi hanya sampai terjemahan? Hingga terjemahan dan penskalaan? b - a SbabaS
Sasho Nikolov
@SashoNikolov Saya rasa ini akan menjadi yang paling "generalisasi umum" (misalnya, kita hanya tahu adalah "bola berdiameter bagus "). εSε
Clement C.
1
Nah, apa yang ditulis Thomas dalam jawabannya bahkan lebih umum: dia berasumsi bahwa ( dalam jawabannya) adalah set cembung yang tidak diketahui. GSG
Sasho Nikolov

Jawaban:

17

Apa yang Anda cari hampir sama dengan kecenderungan sentral yang kuat : cara mengurangi awan titik data menjadi satu titik, sehingga jika banyak titik data dekat dengan beberapa "kebenaran dasar" tetapi sisanya secara sewenang-wenang jauh, maka hasil Anda juga akan mendekati kebenaran dasar. "Breakdown point" dari metode semacam itu adalah sebagian kecil dari outlier yang sewenang-wenang yang dapat ditoleransi. Perbedaannya adalah bahwa dalam kasus Anda, Anda ingin mengganti "hampir" dengan "dalam lambung cembung".

Salah satu cara untuk menangkap ini adalah dengan gagasan kedalaman Tukey. Suatu titik memiliki kedalaman Tukey (sehubungan dengan sekumpulan titik data ) yang diberikan jika setiap setengah ruang yang mengandung titik yang diberikan juga mengandung setidaknya titik data . Jika ada subruang cembung yang bagus yang Anda inginkan di dalamnya, maka titik dengan kedalaman Tukey akan ada di dalamnya selama setidaknya ada dari titik data di dalamnya. Jadi titik rincian dari metode ini adalah nilai yang dapat Anda capai.n p n p ( 1 - p ) n ppnpnp(1p)np

Sayangnya titik gangguan ini adalah , tidak mendekati 1/2, baik untuk kedalaman Tukey dan untuk masalah Anda. Inilah alasannya: jika data Anda dikelompokkan di dekat simpul simpleks, maka selama kurang dari fraksi dari mereka adalah outlier (tetapi Anda tidak tahu yang mana) maka ada titik di simplex aman untuk dipilih karena akan selalu berada dalam lambung cembung dari yang bukan pencilan. Tetapi jika lebih dari poin dapat outlier, tidak ada tempat yang aman untuk memilih: titik mana pun dalam simpleks yang Anda pilih, outlier dapat semua poin dari simpul simpleks terdekat, dan Anda akan berada di luar lambung non-outlier.d + 1 1 / ( d + 1 ) 1 / ( d + 1 )1/(d+1)d+11/(d+1)1/(d+1)

Jika Anda bersedia mentolerir titik gangguan yang lebih buruk, lebih seperti , ada metode acak untuk menemukan titik dalam yang polinomial dalam dan : lihat kertas sayan dO(1/d2)nd

Mendekati titik tengah dengan titik Radon berulang, K. Clarkson, D. Eppstein, GL Miller, C. Sturtivant, dan S.-H. Teng, 9th ACM Symp. Comp. Geom. , San Diego, 1993, hlm. 91–98, Int. J. Comp. Geom. & Appl. 6 (3): 357–377, 1996, http://kenclarkson.org/center/p.pdf

David Eppstein
sumber
Ya. Selain itu saya akan menyebutkan bahwa seseorang dapat menggunakan eps-nets eps-aproksimasi dan berbagai teman mereka sebagai cara untuk mendapatkan sampel kecil yang mendekati ukuran kedalaman seperti itu dengan baik. Anda tidak mendapatkan satu poin, tetapi Anda mendapatkan informasi lebih lanjut.
Sariel Har-Peled
Dengan terminologi makalah Anda, adakah cara efisien yang diketahui untuk memverifikasi a diklaim pusat untuk bilangan rasional βββ?
Jika dengan "efisien" yang Anda maksud polinomial dalam dimensi, maka saya tidak tahu hasilnya. Makalah saya hanya menemukan satu poin, itu tidak memberi Anda lebih banyak informasi tentang distribusi spasial kedalaman (seperti Sariel menyinggung di atas).
David Eppstein
Terima kasih! Mengesampingkan pertimbangan efisiensi (untuk saat ini), ini seperti mengatakan bahwa untuk kasus umum set cembung sembarang, tidak ada cara untuk meningkatkan probabilitas konstan ke probabilitas sewenang-wenang? (karena fraksi poin yang baik harus lebih besar dari ? (Atau apakah saya melewatkan sesuatu - melihat ke belakang ke sana, rasanya seperti formulasi kedua saya ave tidak menangkap gagasan "pengulangan independen,", di mana kita akan memiliki di tanganbeberapaset poin, yang masing-masing memiliki setidaknya a2/3fraksi poin yang baik).11d+12/3
Clement C.
1
Satu poin, beberapa poin, atau tidak, jika yang Anda tahu adalah bahwa ada set cembung tetapi tidak di mana itu, dan Anda ingin dapat meningkatkan kemungkinan berada di set yang benar menjadi lebih baik maka d / (d + 1), maka fraksi poin yang baik harus setidaknya d / (d +1) untuk menyiasati contoh simpleks. Jika tidak, musuh dapat memberi Anda data dalam bentuk simpleks dan memilih secara acak lingkungan epsilon dari satu wajah simpleks sebagai set cembung; bahkan jika Anda menebak suatu titik di dekat titik simpleks secara acak, Anda akan memiliki setidaknya 1 / (d +1) kemungkinan untuk memilih secara tidak benar.
David Eppstein
14

Ini adalah pertanyaan yang rapi dan saya sudah memikirkannya sebelumnya. Inilah yang kami temukan:

Anda menjalankan algoritma Anda kali untuk mendapatkan output x 1 , , x nR d dan Anda tahu apa yang dengan probabilitas tinggi sebagian besar x saya jatuh s ke beberapa baik mengatur G . Anda tidak tahu apa itu G , hanya saja itu cembung. Berita baiknya adalah ada cara untuk mendapatkan poin di G tanpa informasi lebih lanjut tentang itu. Sebut titik ini f ( x 1 , , x n ) .nx1,,xnRdxiGGGf(x1,,xn)

Dalil. Untuk semua bilangan asli dan d , ada fungsi f : ( R d ) nR d sedemikian rupa sehingga berlaku sebagai berikut. Biarkan x 1 . . . x nR d dan biarkan G R d menjadi set cembung yang memuaskan 1ndf:(Rd)nRdx1...xnRdGRdKemudianf(x1,...,Xn)G. Selain itu,fdapat dihitung dalam polinomial waktu dalamnd.
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

Perhatikan bahwa, untuk , kita dapat menetapkan f sebagai median. Jadi ini menunjukkan bagaimana cara menggeneralisasi median untuk d > 1 .d=1fd>1

Sebelum membuktikan hasil ini, perhatikan bahwa ini ketat: Misalkan dan biarkan x 1 , , x d menjadi elemen basis standar dan x d + 1 = 0 . Setiap bagian dari d poin yang terkandung dalam ruang affine G dimensi d - 1 (yang didefinisikan secara unik oleh titik-titik). Tapi tidak ada poin yang terkandung dalam semua ruang affine itu. Karenanya ada beberapa cembung G yang mengandung n d / ( d +n=d+1x1,,xdxd+1=0dGd1G poin tetapi tidak mengandung f ( x 1 , , x n ) , nilai apa pun yang diperlukan.nd/(d+1)=df(x1,,xn)

Bukti. Kami menggunakan hasil berikut.

Teorema Helly. Biarkan menjadi himpunan bagian himpunan R d . Misalkan persimpangan setiap d + 1 K i s adalah nonempty. Maka persimpangan semua K i s adalah kosong.K1...KmRdd+1 KiKi

Klik di sini untuk bukti Teorema Helly.

Sekarang untuk membuktikan teorema kita:

Biarkan menjadi batas atas jumlah poin tidak di G . Pertimbangkan semua ruang setengah tertutup K 1 . . . K mR d mengandung setidaknya n - k poin dengan mereka mereka batas yang berisi satu set poin dari peringkat maksimal (ini adalah jumlah terbatas halfspaces karena setiap K i didefinisikan oleh d + 1 titik di perbatasan nya).k<n/(d+1)GK1...KmRdnkKid+1

Komplemen dari setiap berisi paling banyak poin k . Dengan ikatan gabungan, persimpangan setiap d + 1 K i memiliki setidaknya n - k ( d + 1 ) > 0 poin. Dengan teorema Helly (karena ruang setengah cembung), ada titik di persimpangan semua K i s . Kita membiarkan f menjadi fungsi yang menghitung titik arbitrer di persimpangan K i s.Kikd+1 Kink(d+1)KisfKi

Semua yang tetap adalah untuk menunjukkan bahwa persimpangan s terkandung dalam G .KiG

Tanpa kehilangan keumuman, adalah lambung cembung dari subset poin dengan peringkat penuh. Artinya, kita dapat mengganti G dengan cembung cembung dari poin yang dikandungnya. Jika ini tidak memiliki peringkat penuh, kita dapat menerapkan teorema kita dalam dimensi yang lebih rendah.GG

Setiap muka mendefinisikan setengah ruang, di mana G adalah persimpangan setengah ruang ini. Setiap ruang setengah ini mengandung G dan karenanya mengandung setidaknya n - k poin. Batas salah satu dari setengah ruang ini berisi permukaan G dan karenanya berisi satu set titik dengan peringkat maksimal. Jadi masing-masing setengah ruang ini adalah K i . Jadi persimpangan semua K i s terkandung dalam G , seperti yang dipersyaratkan.GGGnkGKiKiG

Untuk menghitung , buatlah program linier di mana batasan linier terkait dengan K i dan solusi yang layak sesuai dengan titik di persimpangan semua K i . QEDfKiKi

Sayangnya, hasil ini tidak terlalu praktis dalam pengaturan dimensi tinggi. Pertanyaan yang bagus adalah apakah kita dapat menghitung lebih efisien:f

Buka Masalah. Buktikan teorema di atas dengan kesimpulan tambahan bahwa dapat dihitung dalam polinomial waktu dalam n dan d . fnd

Selain itu: Kita juga dapat mengubah masalah untuk mendapatkan solusi yang efisien: Jika memiliki properti yang lebih dari setengahnya terletak di bola B ( y , ε ) , maka kita dapat menemukan titik z yang terletak pada B ( y , 3 ε ) dalam polinomial waktu dalam n dan d . Secara khusus, kita dapat mengatur z = x i untuk arbitrary i sedemikian rupa sehingga lebih dari setengah poin berada di Bx1,,xnB(y,ε)zB(y,3ε)ndz=xii .B(z,2ε)

Thomas mendukung Monica
sumber
Saya pikir Anda pada dasarnya menemukan kembali kedalaman Tukey sebagai David Eppstein menguraikan di bawah ini :)
Suresh Venkat
7

Ada gagasan tentang median dari serangkaian titik dalam dimensi tinggi dan norma umum yang dikenal dengan berbagai nama. Hanya titik yang meminimalkan jumlah jarak ke semua titik di set. Hal ini diketahui memiliki properti amplifikasi kepercayaan yang sama seperti median biasa dengan peningkatan multiplikasi kecil di kejauhan. Anda dapat menemukan rinciannya dalam Teorema 3.1 dari makalah ini: http://arxiv.org/pdf/1308.1334.pdf

Satu hal yang menyenangkan dari makalah ini adalah bahwa faktor dimana jarak meningkat dapat dibuat konstan> 1 jika Anda dapat memperkuat dari kepercayaan tinggi yang sewenang-wenang (tetapi konstan <1).

Sunting: ada makalah baru lain tentang topik ini oleh Hsu dan Sabato http://arxiv.org/pdf/1307.1827v6.pdf Sebagian besar menganalisis dan menerapkan prosedur di mana titik di set dengan jarak median terkecil ke yang lain dari poin yang digunakan. Prosedur ini dapat digunakan dengan metrik apa pun tetapi hanya memberikan faktor perkiraan 3.

Vitaly
sumber
Terima kasih, ini terlihat bagus! Saya hanya membaca skim sejauh ini, tetapi (kecuali saya salah atau melewatkannya terlalu cepat), ini berkaitan dengan kasus spesifik menjadi bola- p ; Apakah itu benar? Sp
Clement C.
1
Tidak juga. Hasilnya dinyatakan untuk semua ruang Banach. Untuk benda apa pun yang berpusat pada asal dan simetris di sekitar pusatnya ada norma yang sesuai di mana tubuh ini adalah bola satuan. Karena untuk keperluan pertanyaan Anda, kami dapat mengasumsikan tanpa kehilangan keumuman bahwa badan cembung berpusat pada asal. Kami mendapatkan hasil penahanan untuk setiap badan cembung yang simetris terpusat. Mungkin dengan sedikit usaha hasilnya dapat diperluas ke tubuh cembung umum.
Vitaly
1
Anda perlu mengetahui norma untuk menghitung minimizer untuk norma itu, - jika Anda hanya tahu bahwa ada norma tetapi tidak apa itu, Anda kurang beruntung.
David Eppstein
1
Anda benar, David. Anda perlu tahu normanya. (Ini berarti mengetahui tubuh cembung sampai ke tengah dan penskalaan).
Vitaly
Saya sedang memikirkan pendekatan ini, tetapi kemudian memikirkan contoh tandingan ini untuk set cembung yang berubah-ubah. Bagaimana hasilnya dalam hasil ini? Biarkan didistribusikan di pesawat sebagai berikut: dengan probabilitas 0,9 , seragam pada ( - 1 , 0 ) dan ( + 1 , 0 ) , dengan probabilitas 0,1 , sama dengan ( 0 , 0,0001 ) . Set cembung "baik" adalah garis dari ( - 1 , 0 ) hingga ( 1 , 0 )X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)(1,0). Tetapi jika kita mengambil banyak sampel, maka median umum akan menjadi salah satu titik sampel yang terletak di . Generalisasi ini dengan mudah ke dimensi yang lebih tinggi menggunakan hyperplane dan titik sedikit mengimbangi. (0,0.0001)
usul