Saya mencoba membangun bukti untuk masalah yang sedang saya kerjakan dan salah satu asumsi yang saya buat adalah bahwa kumpulan poin yang saya ambil sampel padat di seluruh ruang. Secara praktis, saya menggunakan pengambilan sampel Latin Hypercube untuk mendapatkan poin saya di seluruh ruang sampel. Yang ingin saya ketahui adalah apakah sampel hypercube Latin padat di seluruh ruang jika Anda membiarkan ukuran sampel Anda cenderung ? Jika demikian, kutipan untuk fakta ini akan sangat dihargai.
sampling
asymptotics
latin-square
latin-hypercube
kjetil b halvorsen
sumber
sumber
Jawaban:
Jawaban singkat: Ya, dengan cara probabilistik. Dimungkinkan untuk menunjukkan bahwa, dengan jarak berapa pun , setiap himpunan bagian terbatas { x 1 , ... , x m } dari ruang sampel dan setiap 'toleransi' δ > 0 yang ditentukan , untuk ukuran sampel besar yang sesuai, kami dapat memastikan bahwa probabilitas bahwa ada titik sampel dalam jarak ϵ dari x i adalah > 1 - δ untuk semua i = 1 , … , m .ϵ>0 {x1,…,xm} δ>0 ϵ xi >1−δ i=1,…,m
Jawaban panjang: Saya tidak mengetahui adanya kutipan yang relevan secara langsung (tetapi lihat di bawah). Sebagian besar literatur tentang Latin Hypercube Sampling (LHS) berkaitan dengan sifat pengurangan variansnya. Masalah lainnya adalah, apa artinya mengatakan bahwa ukuran sampel cenderung ? Untuk pengambilan sampel acak IID sederhana, sampel ukuran n dapat diperoleh dari sampel ukuran n - 1 dengan menambahkan sampel independen lebih lanjut. Untuk LHS saya tidak berpikir Anda bisa melakukan ini karena jumlah sampel ditentukan terlebih dahulu sebagai bagian dari prosedur. Sehingga tampak bahwa Anda akan harus mengambil suksesi independen sampel LHS dari ukuran 1 , 2 , 3 , . .∞ n n−1 .1,2,3,...
Perlu juga ada cara untuk menafsirkan 'padat' dalam batas karena ukuran sampel cenderung . Kepadatan tampaknya tidak ditahan dengan cara deterministik untuk LHS misalnya dalam dua dimensi, Anda bisa memilih urutan LHS sampel ukuran 1 , 2 , 3 , . . . sedemikian rupa sehingga mereka semua menempel pada diagonal [ 0 , 1 ) 2 . Jadi semacam definisi probabilistik tampaknya diperlukan. Mari, untuk setiap n , X n = ( X n 1 , X n 2 , . .∞ 1,2,3,... [0,1)2 n Xn=(Xn1,Xn2,...,Xnn) n n ϵ>0 x [0,1)d n → ∞P(min1≤k≤n∥Xnk−x∥≥ϵ)→0 n→∞
Jika sampel diperoleh dengan mengambil sampel independen dari distribusi ('IID random sampling') maka mana adalah volume dari bola jari-jari dimensi . Jadi tentu saja pengambilan sampel acak IID padat asimptotik. n U ( [ 0 , 1 ) d ) P ( m i n 1 ≤ k ≤ n ‖ X n k - x ‖ ≥ ϵ ) = n ∏ k = 1 P ( ‖ X n k - x ‖ ≥ ϵ ) ≤ ( 1 - v ϵ 2 - d ) nXn n U([0,1)d) v ϵ d ϵ
Sekarang perhatikan kasus bahwa sampel diperoleh oleh LHS. Teorema 10.1 dalam catatan ini menyatakan bahwa anggota sampel semuanya didistribusikan sebagai . Namun, permutasi yang digunakan dalam definisi LHS (meskipun independen untuk dimensi yang berbeda) menginduksi beberapa ketergantungan antara anggota sampel ( ), sehingga kurang jelas bahwa properti kepadatan asimtotik berlaku.X n U ( [ 0 , 1 ) d ) X n k , k ≤ nXn Xn U([0,1)d) Xnk,k≤n
Perbaiki dan . Tentukan . Kami ingin menunjukkan bahwa . Untuk melakukan ini, kita dapat menggunakan Proposisi 10.3 dalam catatan tersebut , yang merupakan semacam Teorema Limit Sentral untuk Pengambilan Sampel Hypercube Latin. Definisikan oleh jika berada dalam bola jari-jari sekitar , sebaliknya. Kemudian Proposisi 10.3 memberi tahu kita bahwa mana danx ∈ [ 0 , 1 ) d P n = P ( m i n 1 ≤ k ≤ n ‖ X n k - x ‖ ≥ ϵ ) P n → 0 f : [ 0 , 1 ] d → R f ( z ) = 1 z ϵ x f ( z )ϵ>0 x∈[0,1)d Pn=P(min1≤k≤n∥Xnk−x∥≥ϵ) Pn→0 f:[0,1]d→R f(z)=1 z ϵ x Y n : = √f(z)=0 μ=∫ [ 0 , 1 ] d f(z)dz μ L H S = 1Yn:=n−−√(μ^LHS−μ)→dN(0,Σ) μ=∫[0,1]df(z)dz μ^LHS=1n∑ni=1f(Xni) .
Ambil . Akhirnya, untuk cukup besar , kita akan memiliki . Jadi akhirnya kita akan memiliki . Oleh karena itu , di mana adalah cdf normal standar. Karena arbitrer, maka seperti yang diperlukan.n - √L>0 n Pn=P(Yn=- √−n−−√μ<−L Pn=P(Yn=−n−−√μ)≤P(Yn<−L) ΦLPn→0lim supPn≤lim supP(Yn<−L)=Φ(−LΣ√) Φ L Pn→0
Ini membuktikan kepadatan asimptotik (sebagaimana didefinisikan di atas) untuk pengambilan sampel acak dan LHS. Secara informal, ini berarti bahwa diberi dan setiap di ruang sampling, probabilitas bahwa sampel sampai ke dalam dari dapat dibuat sebagai dekat dengan 1 sebagai Anda silahkan dengan memilih ukuran sampel cukup besar. Sangat mudah untuk memperluas konsep kerapatan asimptotik sehingga dapat diterapkan pada himpunan bagian terbatas dari ruang sampel - dengan menerapkan apa yang sudah kita ketahui untuk setiap titik dalam himpunan bagian terbatas. Secara lebih formal, ini berarti bahwa kami dapat menunjukkan: untuk setiap dan setiap subset hingga dari ruang sampel,x ε x ε > 0 { x 1 , . . . , x m } m i nϵ x ϵ x ϵ>0 {x1,...,xm} n→∞min1≤j≤mP(min1≤k≤n∥Xnk−xj∥<ϵ)→1 (seperti ).n→∞
sumber
Saya tidak yakin apakah ini yang Anda inginkan, tapi begini saja.
Anda mengambil sampel LHS poin dari , katakanlah. Kami akan berdebat secara sangat informal bahwa, untuk setiap , jumlah kuboid kosong (hiper) ukuran di setiap dimensi menjadi nol sama dengan .n [0,1)d ϵ>0 ϵ n→∞
Misalkan sehingga jika kita membagi secara seragam menjadi cuboid kecil - mikrokuboid , katakanlah - dengan lebar maka setiap lebar- mengandung kuboid setidaknya satu mikrokuboid. Jadi jika kita dapat menunjukkan bahwa jumlah yang diharapkan dari mikrokuboid yang tidak diamplas adalah nol, dalam batas , maka kita sudah selesai. (Perhatikan bahwa mikrokuboid kami diatur pada kisi biasa, tetapi -kuboid dapat berada di posisi apa pun.)m=⌈2/ϵ⌉ [0,1)d md 1/m ϵ n→∞ ϵ
Peluang untuk benar-benar kehilangan mikrokuboid yang diberikan dengan titik sampel pertama adalah , independen , karena set pertama koordinat sampel (titik sampel pertama) dapat dipilih secara bebas. Mengingat bahwa beberapa titik sampel pertama semuanya melewatkan mikrokuboid itu, titik sampel berikutnya akan merasa lebih sulit untuk dilewatkan (rata-rata), sehingga peluang semua titik yang hilang itu kurang dari .1−m−d n d n (1−m−d)n
Ada mikrokuboid di , sehingga jumlah yang diharapkan yang terlewati dibatasi di atas oleh - karena harapan menambahkan - yaitu nol dalam batas sebagai .md [0,1)d md(1−m−d)n n→∞
Pembaruan ...
(1) Berikut gambar menunjukkan bagaimana, untuk diberikan , Anda dapat memilih cukup besar sehingga sebuah grid "microcuboids" (kotak dalam ilustrasi 2-dimensi ini) dijamin untuk memiliki setidaknya satu microcuboid dalam setiap wilayah ukuran . Saya telah menunjukkan dua daerah " " dipilih secara acak dan telah berwarna ungu dua mikrokuboid yang dikandungnya.ϵ m m×m ϵ×ϵ ϵ×ϵ
(2) Pertimbangkan mikrokuboid tertentu. Ini memiliki volume , sebagian kecil dari seluruh ruang. Jadi sampel LHS pertama - yang merupakan satu-satunya yang dipilih secara bebas - akan melewatkannya dengan probabilitas . Fakta hanya penting adalah bahwa ini adalah nilai tetap (kami akan membiarkan , tapi tetap konstan) yang kurang dari .(1/m)d m−d 1−m−d n→∞ m 1
(3) Sekarang pikirkan tentang jumlah titik sampel . Saya telah menggambarkan dalam gambar. LHS bekerja dalam jalinan halus dari "nanocuboids" berukuran super kecil (jika Anda mau), bukan berukuran "mikrokuboid", tetapi sebenarnya itu tidak penting dalam buktinya. Buktinya hanya membutuhkan pernyataan yang sedikit melambaikan tangan yang secara bertahap semakin sulit, rata-rata, untuk kehilangan microcuboid yang diberikan saat Anda melempar lebih banyak poin. Jadi itu adalah probabilitas untuk titik LHS pertama hilang, tetapi kurang dari untuk semua dari mereka yang hilang: itu nol dalam batas sebagain = 6 m n - 1 × n - 1 m - 1 × m - 1 1 - m - dn>m n=6m n−1×n−1 m−1×m−1 1−m−d n n → ∞(1−m−d)n n n→∞ .
(4) Semua epsilons ini bagus untuk bukti tetapi tidak bagus untuk intuisi Anda. Jadi di sini adalah beberapa gambar yang menggambarkan dan titik sampel, dengan area persegi kosong kosong disorot. (Grid adalah grid pengambilan sampel LHS - "nanocuboids" yang disebutkan sebelumnya.) Harus "jelas" (dalam beberapa arti intuitif yang samar) bahwa area kosong terbesar akan menyusut ke ukuran sewenang-wenang kecil karena jumlah titik sampel .n = 50 n → ∞n=10 n=50 n→∞
sumber