Misalkan saya memiliki satu set data sampel dari distribusi yang tidak diketahui atau kompleks, dan saya ingin melakukan beberapa kesimpulan pada statistik dari data tersebut. Kecenderungan default saya adalah untuk hanya menghasilkan sekelompok sampel bootstrap dengan penggantian, dan menghitung statistik saya pada setiap sampel bootstrap untuk membuat distribusi diperkirakan untuk .
Apa contoh di mana ini adalah ide yang buruk?
Sebagai contoh, satu kasus di mana secara naif melakukan bootstrap ini akan gagal adalah jika saya mencoba menggunakan bootstrap pada data time series (katakanlah, untuk menguji apakah saya memiliki autokorelasi yang signifikan). Bootstrap naif yang dijelaskan di atas (menghasilkan datapoint ke- dari seri sampel bootstrap ke-n dengan pengambilan sampel dengan penggantian dari seri asli saya) akan (saya pikir) keliru, karena mengabaikan struktur dalam seri waktu asli saya, dan jadi kami dapatkan teknik bootstrap yang lebih bagus seperti blok bootstrap.
Dengan kata lain, apa yang ada pada bootstrap selain "sampling with replacement"?
Jawaban:
Jika jumlah bunga, biasanya fungsional dari distribusi, cukup lancar dan data Anda iid, Anda biasanya berada di wilayah yang cukup aman. Tentu saja, ada beberapa keadaan lain ketika bootstrap akan bekerja juga.
Apa artinya bootstrap "gagal"
Secara umum, tujuan dari bootstrap adalah untuk membangun distribusi sampel perkiraan untuk statistik yang menarik. Ini bukan tentang estimasi aktual dari parameter. Jadi, jika statistik yang menarik (di bawah beberapa penyelamatan dan pemusatan) adalah dan dalam distribusi, kami ingin distribusi bootstrap kami untuk konvergen ke distribusi . Jika kita tidak memiliki ini, maka kita tidak bisa mempercayai kesimpulan yang dibuat.X^n X^n→X∞ X∞
Contoh kanonik ketika bootstrap bisa gagal, bahkan dalam kerangka kerja iid adalah ketika mencoba memperkirakan distribusi sampling dari statistik urutan ekstrim. Di bawah ini adalah diskusi singkat.
Statistik pesanan maksimum dari sampel acak dari distribusiU[0,θ]
Misalkan menjadi urutan variabel acak seragam iid pada . Biarkan . Distribusi adalah (Perhatikan bahwa dengan argumen yang sangat sederhana, ini sebenarnya juga menunjukkan bahwa dalam probabilitas, dan bahkan, hampir pasti , jika variabel acak semuanya didefinisikan pada ruang yang sama.)X1,X2,… [0,θ] X(n)=max1≤k≤nXk X(n)
Penghitungan dasar menghasilkan atau, dengan kata lain, menyatu dalam distribusi ke variabel acak eksponensial dengan mean .
Sekarang, kami membentuk perkiraan bootstrap (naif) dari distribusi dengan melakukan resampling dengan penggantian untuk mendapatkan bintang dan menggunakan distribusi dari bersyarat pada .n(θ−X(n)) X1,…,Xn X⋆1,…,X⋆n n(X(n)−X⋆(n)) X1,…,Xn
Tetapi, amati bahwa dengan probabilitas , dan distribusi bootstrap memiliki titik massa nol, bahkan tanpa gejala meskipun fakta bahwa distribusi pembatasan aktual adalah kontinu.X⋆(n)=X(n) 1−(1−1/n)n→1−e−1
Lebih eksplisit, meskipun distribusi pembatas sejati adalah eksponensial dengan mean , distribusi bootstrap yang membatasi menempatkan massa titik pada nol dari ukuran independen dari nilai aktual . Dengan mengambil cukup besar, kita dapat membuat probabilitas distribusi pembatas sebenarnya menjadi kecil untuk setiap interval tetap , namun bootstrap akan ( masih !) Melaporkan bahwa setidaknya ada probabilitas 0,632 dalam interval ini! Dari sini harus jelas bahwa bootstrap dapat berperilaku sewenang-wenang buruk dalam pengaturan ini.θ 1−e−1≈0.632 θ θ [0,ε)
Singkatnya, bootstrap gagal (menyedihkan) dalam kasus ini. Hal-hal cenderung salah ketika berhadapan dengan parameter di tepi ruang parameter.
Contoh dari sampel variabel acak normal
Ada contoh serupa lainnya dari kegagalan bootstrap dalam keadaan yang sangat sederhana.
Pertimbangkan contoh dari mana ruang parameter untuk dibatasi hingga . MLE dalam hal ini adalah . Sekali lagi, kami menggunakan perkiraan bootstrap . Sekali lagi, dapat ditunjukkan bahwa distribusi (tergantung pada sampel yang diamati) tidak menyatu dengan distribusi pembatas yang sama dengan .X1,X2,… N(μ,1) μ [0,∞) X^n=max(X¯,0) X^⋆n=max(X¯⋆,0) n−−√(X^⋆n−X^n) n−−√(X^n−μ)
Array yang dapat dipertukarkan
Mungkin salah satu contoh paling dramatis adalah untuk array yang dapat ditukar. Biarkan menjadi array variabel acak sehingga, untuk setiap pasangan matriks permutasi dan , array dan memiliki distribusi gabungan yang sama. Yaitu, permutasi baris dan kolom membuat distribusi tidak berubah. (Anda dapat memikirkan model efek acak dua arah dengan satu pengamatan per sel sebagai contoh, meskipun modelnya jauh lebih umum.)Y=(Yij) P Q Y PYQ Y
Misalkan kita ingin memperkirakan interval kepercayaan untuk mean (karena asumsi pertukaran yang dijelaskan di atas rata-rata semua sarana sel harus sama).μ=E(Yij)=E(Y11)
McCullagh (2000) menganggap dua cara alami yang berbeda (yaitu, naif) untuk bootstrap seperti array. Tak satu pun dari mereka mendapatkan varians asimptotik untuk mean sampel yang benar. Dia juga mempertimbangkan beberapa contoh array satu arah yang dapat ditukar dan regresi linier.
Referensi
Sayangnya, pokok bahasannya adalah nontrivial, jadi tidak satu pun dari ini yang mudah dibaca.
sumber
Buku berikut memiliki bab (Bab.9) yang ditujukan untuk "Ketika Bootstrapping Gagal Seiring dengan Pemulihan untuk Kegagalan":
MR Chernick, metode Bootstrap: Panduan bagi praktisi dan peneliti , edisi ke-2. Hoboken NJ: Wiley-Interscience, 2008.
Topiknya adalah:
sumber
Bootstrap naif tergantung pada ukuran sampel yang besar, sehingga CDF empiris untuk data adalah perkiraan yang baik untuk CDF "benar". Ini memastikan bahwa pengambilan sampel dari CDF empiris sangat mirip dengan pengambilan sampel dari CDF "benar". Kasus ekstrem adalah ketika Anda hanya mengambil sampel satu titik data - bootstrap tidak menghasilkan apa pun di sini. Ini akan menjadi semakin tidak berguna saat mendekati kasus yang merosot ini.
Bootstrapping secara naif tidak akan selalu gagal dalam analisis deret kali (walaupun mungkin tidak efisien) - jika Anda memodelkan deret tersebut menggunakan fungsi basis waktu kontinu (polinomial legendaris) untuk komponen tren, dan fungsi sinus dan kosinus dari waktu kontinu untuk siklus. komponen (ditambah istilah kesalahan noise normal). Kemudian Anda hanya memasukkan kapan saja Anda kebetulan telah mengambil sampel ke dalam fungsi kemungkinan. Tidak ada bencana untuk bootstrap di sini.
Setiap model korelasi-otomatis atau ARIMA memiliki representasi dalam format di atas - model ini hanya lebih mudah digunakan dan saya pikir untuk memahami dan menafsirkan (siklus siklus sinus dan kosinus yang mudah dipahami, sulit untuk memahami koefisien dari model ARIMA). Misalnya fungsi auto-korelasi adalah transformasi Fourier terbalik dari spektrum daya dari deret waktu.
sumber