Apakah ada properti distribusi yang "maksimal" sulit diuji?

13

Algoritma pengujian distribusi untuk properti distribusi P (yang hanya sebagian dari semua distribusi di atas [n]) diizinkan mengakses sampel sesuai dengan beberapa distribusi D, dan diperlukan untuk memutuskan (whp) jika atau d ( D) , P ) > ϵ ( d di sini biasanya DPd(D,P)>ϵdjarak 1 ). Ukuran kompleksitas yang paling umum adalah jumlah sampel yang digunakan oleh algoritma.1

Sekarang, dalam pengujian properti standar, di mana Anda memiliki akses kueri ke beberapa objek, batas bawah linear pada kompleksitas kueri jelas merupakan batas bawah terkuat yang mungkin, karena n kueri akan mengungkapkan seluruh objek. Apakah ini juga berlaku untuk pengujian distribusi?

Sejauh yang saya mengerti, batas atas "sepele" untuk menguji properti distribusi adalah --- oleh batas Chernoff, ini cukup untuk "menuliskan" distribusi D 'yang dekat dengan D di 1 jarak, dan kemudian kita bisa memeriksa apakah ada distribusi yang dekat dengan D 'yang ada di P (ini mungkin membutuhkan waktu tak terbatas, tetapi ini tidak relevan dengan kompleksitas sampel).O(n2logn)1

  • Apakah ada tes "trivial" yang lebih baik untuk semua properti distribusi?
  • Apakah ada properti distribusi yang kita tahu sampel batas bawah lebih kuat dari linier?
Yonatan
sumber
tampaknya mirip dengan membuktikan pemisahan kelas kompleksitas & seperti itu bisa dekat dengan beberapa masalah terbuka yang diketahui ...?
vzn
Hanya melihat ini ... Saya tidak yakin bagaimana Anda berasal terikat , tapi catatan yang benar-benar distribusi belajar (lebih domain dari ukuran n ) ke TV / 1 jarak ε dengan probabilitas 2 / 3 sebenarnya dapat dilakukan dengan sampel O ( n / ε 2 ) (dan ini ketat). Jadi, kecuali Anda melihat nilai-nilai non-konstan parameter kedekatan ε , tidak ada harapan untuk mendapatkan ω ( n ) batas bawah ...O(n2logn)n1ε2/3O(n/ε2)εω(n)
Clement C.

Jawaban:

5

Maaf telah menemukan postingan ini - ini sudah cukup lama, tapi saya pikir setelah menjawabnya mungkin bukan ide yang buruk.

Pertama, sepertinya Anda melakukan ikatan Chernoff dengan beberapa pengaturan parameter yang agak aneh. Perhatikan bahwa untuk melakukan pendekatan "pengujian dengan pembelajaran" yang disarankan, cukup mempelajari distribusi dalam total variasi jarak (atau , jika Anda suka, yang sama hingga faktor 2) hingga jarak ε1 . (sebelum memeriksa "offline" jika ada distribusipmemiliki propertiPnyang jaraknya paling jauhεε2pPn dari Anda belajar hipotesis p ). Ini naif akan mengarah keO(nlogε2p^kompleksitas sampel batas atas untuk pendekatan ini; Namun, diketahui (dan "cerita rakyat") bahwa mempelajari distribusi sewenang-wenang atas domain ukurannhingga jarakε(dalam jarak total variasi) dapat dilakukan hanya denganO(nO(nlognε2)nεsampel (dan ini ketat).O(nε2)

Jadi baseline sebenarnya harus , yang sudah linear dalamn. Sekarang, seseorang dapat mengajukan pertanyaan berikutnya -apakah ada sifat "alami" yang diuji (katakanlah, untukεkonstanO(nε2)nε ) memerlukan ketergantungan linier dalam ukuran domain n ?

Jawabannya adalah (sejauh yang saya tahu) "tidak cukup, tetapi dekat." Yaitu, mengikuti garis pekerjaan yang signifikan pada memperkirakan properti distribusi (atau ekuivalen, pengujian properti toleran), hasil Valiant dan Valiant menyiratkan (STOCS'11, FOCS'11, dan beberapa lainnya) bahwa properti yang agak dibuat-buat "adalah -cekat dengan seragam "memiliki kompleksitas sampel Θ ε ( n1/10Θε(nlogn) .

(Perhatikan bahwa ini sedikit "curang," dalam arti bahwa properti hanyalah cara untuk mengambil pertanyaan pengujian yang toleran dan memberi label ulang sebagai pengujian ad hoc properti ).

Jika itu tidak sepenuhnya cukup untuk memuaskan dahaga Anda, orang juga dapat menunjukkan bahwa untuk properti (alami?) Dari "menjadi histogram" (apakah distribusi yang konstan pada seperangkat k interval tidak diketahui?), Menetapkan k = n / 10 misalnya juga menghasilkan Ω ( nkkk=n/10batas bawah(ada di kertas tambang dari 2016; batas bawah mengikuti dari pengurangan yang agak sederhana untuk hasil Valiants '). Sekarang, apakah Anda mempertimbangkan "menjadinΩ(nlogn) histogram "menjadi properti alami terserah Anda.n100

Clement C.
sumber