Algoritma pengujian distribusi untuk properti distribusi P (yang hanya sebagian dari semua distribusi di atas [n]) diizinkan mengakses sampel sesuai dengan beberapa distribusi D, dan diperlukan untuk memutuskan (whp) jika atau d ( D) , P ) > ϵ ( d di sini biasanya ℓjarak 1 ). Ukuran kompleksitas yang paling umum adalah jumlah sampel yang digunakan oleh algoritma.
Sekarang, dalam pengujian properti standar, di mana Anda memiliki akses kueri ke beberapa objek, batas bawah linear pada kompleksitas kueri jelas merupakan batas bawah terkuat yang mungkin, karena kueri akan mengungkapkan seluruh objek. Apakah ini juga berlaku untuk pengujian distribusi?
Sejauh yang saya mengerti, batas atas "sepele" untuk menguji properti distribusi adalah --- oleh batas Chernoff, ini cukup untuk "menuliskan" distribusi D 'yang dekat dengan D di ℓ 1 jarak, dan kemudian kita bisa memeriksa apakah ada distribusi yang dekat dengan D 'yang ada di P (ini mungkin membutuhkan waktu tak terbatas, tetapi ini tidak relevan dengan kompleksitas sampel).
- Apakah ada tes "trivial" yang lebih baik untuk semua properti distribusi?
- Apakah ada properti distribusi yang kita tahu sampel batas bawah lebih kuat dari linier?
Jawaban:
Maaf telah menemukan postingan ini - ini sudah cukup lama, tapi saya pikir setelah menjawabnya mungkin bukan ide yang buruk.
Pertama, sepertinya Anda melakukan ikatan Chernoff dengan beberapa pengaturan parameter yang agak aneh. Perhatikan bahwa untuk melakukan pendekatan "pengujian dengan pembelajaran" yang disarankan, cukup mempelajari distribusi dalam total variasi jarak (atau , jika Anda suka, yang sama hingga faktor 2) hingga jarak εℓ1 . (sebelum memeriksa "offline" jika ada distribusip′memiliki propertiPnyang jaraknya paling jauhεε2 p′ Pn dari Anda belajar hipotesis p ). Ini naif akan mengarah keO(nlogε2 p^ kompleksitas sampel batas atas untuk pendekatan ini; Namun, diketahui (dan "cerita rakyat") bahwa mempelajari distribusi sewenang-wenang atas domain ukurannhingga jarakε(dalam jarak total variasi) dapat dilakukan hanya denganO(nO(nlognε2) n ε sampel (dan ini ketat).O(nε2)
Jadi baseline sebenarnya harus , yang sudah linear dalamn. Sekarang, seseorang dapat mengajukan pertanyaan berikutnya -apakah ada sifat "alami" yang diuji (katakanlah, untukεkonstanO(nε2) n ε ) memerlukan ketergantungan linier dalam ukuran domain n ?
Jawabannya adalah (sejauh yang saya tahu) "tidak cukup, tetapi dekat." Yaitu, mengikuti garis pekerjaan yang signifikan pada memperkirakan properti distribusi (atau ekuivalen, pengujian properti toleran), hasil Valiant dan Valiant menyiratkan (STOCS'11, FOCS'11, dan beberapa lainnya) bahwa properti yang agak dibuat-buat "adalah -cekat dengan seragam "memiliki kompleksitas sampel Θ ε ( n1/10 Θε(nlogn) .
(Perhatikan bahwa ini sedikit "curang," dalam arti bahwa properti hanyalah cara untuk mengambil pertanyaan pengujian yang toleran dan memberi label ulang sebagai pengujian ad hoc properti ).
Jika itu tidak sepenuhnya cukup untuk memuaskan dahaga Anda, orang juga dapat menunjukkan bahwa untuk properti (alami?) Dari "menjadi histogram" (apakah distribusi yang konstan pada seperangkat k interval tidak diketahui?), Menetapkan k = n / 10 misalnya juga menghasilkan Ω ( nk k k=n/10 batas bawah(ada di kertas tambang dari 2016; batas bawah mengikuti dari pengurangan yang agak sederhana untuk hasil Valiants '). Sekarang, apakah Anda mempertimbangkan "menjadinΩ(nlogn) histogram "menjadi properti alami terserah Anda.n100
sumber