Asimtotik Sampling Hypercube Latin

Saya mencoba membangun bukti untuk masalah yang sedang saya kerjakan dan salah satu asumsi yang saya buat adalah bahwa kumpulan poin yang saya ambil sampel padat di seluruh ruang. Secara praktis, saya menggunakan pengambilan sampel Latin Hypercube untuk mendapatkan poin saya di seluruh ruang sampel. Yang ingin saya ketahui adalah apakah sampel hypercube Latin padat di seluruh ruang jika Anda membiarkan ukuran sampel Anda cenderung ? Jika demikian, kutipan untuk fakta ini akan sangat dihargai. $\infty$

sampling asymptotics latin-square latin-hypercube kjetil b halvorsen
sumber

Ya, dengan asumsi distribusi kontinu, karena untuk

ϵ > 0

$\epsilon>0$ Anda dapat mengatur jumlah divisi menjadi sedemikian rupa sehingga semua interval per variabel memiliki lebar

< ϵ / 2

$<\epsilon/2$ . Dengan demikian setidaknya satu hyperinterval (yaitu volume sampel) secara ketat terkandung oleh lebar

ϵ

$\epsilon$ hypercube di sekitar titik yang Anda pilih. (Komentar, bukan Jawaban, karena yang saya tahu tentang LHS berasal dari Wikipedia pada sepuluh menit yang lalu ...)

Creosote

Ini benar, tetapi saya tidak berpikir itu dapat dengan mudah digunakan untuk menunjukkan kepadatan sampel Hypercube Latin besar. Alasan untuk ini adalah bahwa titik sampel dalam LHS tidak independen: keberadaan titik sampel di dalam hyperinterval tertentu menghalangi titik sampel lain agar tidak muncul di baris / kolom yang sama (atau apa pun istilah multi-dimensional untuk ini) .

S. Catterall Reinstate Monica

@Creosote, apakah Anda pikir Anda bisa meresmikan jawaban Anda lebih lanjut?

@RustyStatistician, harap perluas posting pembuka Anda untuk menjelaskan, secara formal seperti yang dipersyaratkan oleh bukti Anda, apa yang Anda maksud dengan "set poin yang saya ambil sampelnya padat di seluruh ruang". Terima kasih.

Creosote

Jika saya mengambil Sampel Hypercube Latin awal di mana

begitu besar, kami menganggapnya tidak sempurna, apakah sampel itu padat? '

n

$n$

Jawaban:

Jawaban singkat: Ya, dengan cara probabilistik. Dimungkinkan untuk menunjukkan bahwa, dengan jarak berapa pun , setiap himpunan bagian terbatas dari ruang sampel dan setiap 'toleransi' ditentukan , untuk ukuran sampel besar yang sesuai, kami dapat memastikan bahwa probabilitas bahwa ada titik sampel dalam jarak dari adalah untuk semua . $\epsilon>0$ $\{x_1,…,x_m\}$ $\delta>0$ $\epsilon$ $x_i$ $>1-\delta$ $i=1,…,m$

Jawaban panjang: Saya tidak mengetahui adanya kutipan yang relevan secara langsung (tetapi lihat di bawah). Sebagian besar literatur tentang Latin Hypercube Sampling (LHS) berkaitan dengan sifat pengurangan variansnya. Masalah lainnya adalah, apa artinya mengatakan bahwa ukuran sampel cenderung ? Untuk pengambilan sampel acak IID sederhana, sampel ukuran dapat diperoleh dari sampel ukuran dengan menambahkan sampel independen lebih lanjut. Untuk LHS saya tidak berpikir Anda bisa melakukan ini karena jumlah sampel ditentukan terlebih dahulu sebagai bagian dari prosedur. Sehingga tampak bahwa Anda akan harus mengambil suksesi independen sampel LHS dari ukuran $\infty$ $n$ $n-1$ . $1,2,3,...$

Perlu juga ada cara untuk menafsirkan 'padat' dalam batas karena ukuran sampel cenderung . Kepadatan tampaknya tidak ditahan dengan cara deterministik untuk LHS misalnya dalam dua dimensi, Anda bisa memilih urutan LHS sampel ukuran sedemikian rupa sehingga mereka semua menempel pada diagonal . Jadi semacam definisi probabilistik tampaknya diperlukan. Mari, untuk setiap , $\infty$ $1,2,3,...$ $[0,1)^2$ $n$ $X_n=(X_{n1},X_{n2},...,X_{nn})$ $n$ $n$ $\epsilon>0$ $x$ $[0,1)^d$ $P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)\to0$ $n\to \infty$

Jika sampel diperoleh dengan mengambil sampel independen dari distribusi ('IID random sampling') maka mana adalah volume dari bola jari-jari dimensi . Jadi tentu saja pengambilan sampel acak IID padat asimptotik. $X_n$ $n$ $U([0,1)^d)$

P (m i n_{1 \leq k \leq n} ‖ X_{n k} - x ‖ \geq ϵ) = \prod_{k = 1}^{n} P (‖ X_{n k} - x ‖ \geq ϵ) \leq (1 - v_{ϵ} 2^{- d})^{n} \to 0

$P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)=\prod_{k=1}^n P(\|X_{nk}-x\|\geq \epsilon)\leq (1-v_\epsilon 2^{-d})^n \to 0$

v_{ϵ}

$v_\epsilon$

d

$d$

ϵ

$\epsilon$

Sekarang perhatikan kasus bahwa sampel diperoleh oleh LHS. Teorema 10.1 dalam catatan ini menyatakan bahwa anggota sampel semuanya didistribusikan sebagai . Namun, permutasi yang digunakan dalam definisi LHS (meskipun independen untuk dimensi yang berbeda) menginduksi beberapa ketergantungan antara anggota sampel ( ), sehingga kurang jelas bahwa properti kepadatan asimtotik berlaku. $X_n$ $X_n$ $U([0,1)^d)$ $X_{nk}, k\leq n$

Perbaiki dan . Tentukan . Kami ingin menunjukkan bahwa . Untuk melakukan ini, kita dapat menggunakan Proposisi 10.3 dalam catatan tersebut , yang merupakan semacam Teorema Limit Sentral untuk Pengambilan Sampel Hypercube Latin. Definisikan oleh jika berada dalam bola jari-jari sekitar , sebaliknya. Kemudian Proposisi 10.3 memberi tahu kita bahwa mana dan $\epsilon\gt 0$ $x\in [0,1)^d$ $P_n=P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)$ $P_n\to 0$ $f:[0,1]^d\to\mathbb{R}$ $f(z)=1$ $z$ $\epsilon$ $x$ $f(z)=0$ $Y_n:=\sqrt n (\hat{\mu}_{LHS}-\mu)\xrightarrow{d} N(0,\Sigma)$ $\mu=\int_{[0,1]^d} f(z) dz$ $\hat{\mu}_{LHS}=\frac{1}{n}\sum_{i=1}^n f(X_{ni})$ .

Ambil . Akhirnya, untuk cukup besar , kita akan memiliki . Jadi akhirnya kita akan memiliki . Oleh karena itu , di mana adalah cdf normal standar. Karena arbitrer, maka seperti yang diperlukan. $L>0$ $n$ $-\sqrt n\mu\lt -L$ $P_n=P(Y_n=-\sqrt n \mu)\le P(Y_n\lt -L)$ $\limsup P_n\le \limsup P(Y_n\lt -L)=\Phi(\frac{-L}{\sqrt\Sigma})$ $\Phi$ $L$ $P_n\to 0$

Ini membuktikan kepadatan asimptotik (sebagaimana didefinisikan di atas) untuk pengambilan sampel acak dan LHS. Secara informal, ini berarti bahwa diberi dan setiap di ruang sampling, probabilitas bahwa sampel sampai ke dalam dari dapat dibuat sebagai dekat dengan 1 sebagai Anda silahkan dengan memilih ukuran sampel cukup besar. Sangat mudah untuk memperluas konsep kerapatan asimptotik sehingga dapat diterapkan pada himpunan bagian terbatas dari ruang sampel - dengan menerapkan apa yang sudah kita ketahui untuk setiap titik dalam himpunan bagian terbatas. Secara lebih formal, ini berarti bahwa kami dapat menunjukkan: untuk setiap dan setiap subset hingga dari ruang sampel, $\epsilon$ $x$ $\epsilon$ $x$ $\epsilon>0$ $\{x_1,...,x_m\}$ $min_{1\leq j\leq m} P(min_{1\leq k\leq n} \|X_{nk}-x_j\|\lt \epsilon)\to 1$ (seperti ). $n\to\infty$

S. Catterall Reinstate Monica
sumber

Saya punya dua pertanyaan: 1) Jika Anda hanya memiliki sampel ukuran mana besar, apakah itu mengubah argumen? Dan 2) Sampel hypercubes Latin dapat berada pada kisaran nilai apa saja (tidak harus hanya (0,1)) jadi apakah itu juga mengubah jawaban?

n

$n$

n

$n$

Juga, apakah Anda bersedia menjelaskan mengapa untuk cukup besar , kami akan memiliki ? Saya berasumsi itu berarti bahwa untuk besar , pergi ke nol, karena dalam distribusi itu adalah ?

n

$n$

- \sqrt{n} μ

$-\sqrt{n}\mu$

n

$n$

{\hat{μ}}_{L H S}

$\hat\mu_{LHS}$

N (0, Σ)

$N(0,\Sigma)$

@RustyStatistician Semuanya didefinisikan dalam hal sampel hingga yaitu tapi besar. Saya telah menambahkan beberapa penjelasan tambahan di bagian akhir untuk menjelaskan apa yang terjadi. Rentang nilai lain dapat dengan mudah ditampung ((0,1) tidak istimewa), selama volume ruang sampel terbatas.

n < \infty

$n\lt\infty$

S. Catterall Reinstate Monica

Bisakah Anda menguraikan jawaban singkat Anda?

@RustyStatistician Jawaban singkatnya adalah ringkasan informal dari jawaban panjang saya yang, saya pikir Anda akan setuju, sudah cukup rumit! Jadi, seperti yang disarankan di atas, akan lebih baik jika Anda dapat menulis ulang pertanyaan Anda dalam istilah yang lebih formal sehingga saya tahu apakah jawaban yang saya coba berada di jalur yang benar (dalam hal menjawab pertanyaan yang Anda maksudkan) atau tidak.

S. Catterall Reinstate Monica

Saya tidak yakin apakah ini yang Anda inginkan, tapi begini saja.

Anda mengambil sampel LHS poin dari , katakanlah. Kami akan berdebat secara sangat informal bahwa, untuk setiap , jumlah kuboid kosong (hiper) ukuran di setiap dimensi menjadi nol sama dengan . $n$ $[0,1)^d$ $\epsilon>0$ $\epsilon$ $n\to\infty$

Misalkan sehingga jika kita membagi secara seragam menjadi cuboid kecil - mikrokuboid , katakanlah - dengan lebar maka setiap lebar- mengandung kuboid setidaknya satu mikrokuboid. Jadi jika kita dapat menunjukkan bahwa jumlah yang diharapkan dari mikrokuboid yang tidak diamplas adalah nol, dalam batas , maka kita sudah selesai. (Perhatikan bahwa mikrokuboid kami diatur pada kisi biasa, tetapi -kuboid dapat berada di posisi apa pun.) $m=\lceil 2/\epsilon \rceil$ $[0,1)^d$ $m^d$ $1/m$ $\epsilon$ $n\to\infty$ $\epsilon$

Peluang untuk benar-benar kehilangan mikrokuboid yang diberikan dengan titik sampel pertama adalah , independen , karena set pertama koordinat sampel (titik sampel pertama) dapat dipilih secara bebas. Mengingat bahwa beberapa titik sampel pertama semuanya melewatkan mikrokuboid itu, titik sampel berikutnya akan merasa lebih sulit untuk dilewatkan (rata-rata), sehingga peluang semua titik yang hilang itu kurang dari . $1-m^{-d}$ $n$ $d$ $n$ $(1-m^{-d})^n$

Ada mikrokuboid di , sehingga jumlah yang diharapkan yang terlewati dibatasi di atas oleh - karena harapan menambahkan - yaitu nol dalam batas sebagai . $m^d$ $[0,1)^d$ $m^d(1-m^{-d})^n$ $n\to\infty$

Pembaruan ...

(1) Berikut gambar menunjukkan bagaimana, untuk diberikan , Anda dapat memilih cukup besar sehingga sebuah grid "microcuboids" (kotak dalam ilustrasi 2-dimensi ini) dijamin untuk memiliki setidaknya satu microcuboid dalam setiap wilayah ukuran . Saya telah menunjukkan dua daerah " " dipilih secara acak dan telah berwarna ungu dua mikrokuboid yang dikandungnya. $\epsilon$ $m$ $m\times m$ $\epsilon\times\epsilon$ $\epsilon\times\epsilon$

(2) Pertimbangkan mikrokuboid tertentu. Ini memiliki volume , sebagian kecil dari seluruh ruang. Jadi sampel LHS pertama - yang merupakan satu-satunya yang dipilih secara bebas - akan melewatkannya dengan probabilitas . Fakta hanya penting adalah bahwa ini adalah nilai tetap (kami akan membiarkan , tapi tetap konstan) yang kurang dari . $(1/m)^d$ $m^{-d}$ $1-m^{-d}$ $n\to\infty$ $m$ $1$

(3) Sekarang pikirkan tentang jumlah titik sampel . Saya telah menggambarkan dalam gambar. LHS bekerja dalam jalinan halus dari "nanocuboids" berukuran super kecil (jika Anda mau), bukan berukuran "mikrokuboid", tetapi sebenarnya itu tidak penting dalam buktinya. Buktinya hanya membutuhkan pernyataan yang sedikit melambaikan tangan yang secara bertahap semakin sulit, rata-rata, untuk kehilangan microcuboid yang diberikan saat Anda melempar lebih banyak poin. Jadi itu adalah probabilitas untuk titik LHS pertama hilang, tetapi kurang dari untuk semua dari mereka yang hilang: itu nol dalam batas sebagai $n>m$ $n=6m$ $n^{-1}\times n^{-1}$ $m^{-1}\times m^{-1}$ $1-m^{-d}$ $(1-m^{-d})^n$ $n$ $n\to\infty$ .

(4) Semua epsilons ini bagus untuk bukti tetapi tidak bagus untuk intuisi Anda. Jadi di sini adalah beberapa gambar yang menggambarkan dan titik sampel, dengan area persegi kosong kosong disorot. (Grid adalah grid pengambilan sampel LHS - "nanocuboids" yang disebutkan sebelumnya.) Harus "jelas" (dalam beberapa arti intuitif yang samar) bahwa area kosong terbesar akan menyusut ke ukuran sewenang-wenang kecil karena jumlah titik sampel . $n=10$ $n=50$ $n\to\infty$

Kreosot
sumber

Apakah argumen ini berlaku untuk interval umum? Alih-alih ?

[0, 1)

$[0,1)$

Ya, untuk dimensi terbatas apa pun. Seharusnya lebih jelas sekarang karena saya sudah memperbaiki buktinya.

Creosote

apakah mungkin untuk memberikan gambar 1-d atau bahkan 2-d dari bukti ini? Saya sangat tersesat di dalamnya.

Selesai Senang mengambil pertanyaan lebih lanjut jika perlu.

Creosote

Keren terima kasih! Yang pasti membantu sekarang dengan intuisi.