Blokir bootstrap untuk pemula

10

Untuk memasukkan pertanyaan saya ke dalam konteks, saya seorang fisikawan tetapi dengan paparan statistik yang terbatas dan apa yang telah saya pelajari tentang hal itu lebih dari 30 tahun yang lalu.

Saya mencoba mempelajari tentang blok bootstrap karena teknik itu mungkin cocok untuk menyelesaikan masalah yang sedang saya kerjakan. Saya dapat menemukan banyak makalah / buku / info tentang matematika bootstrap blok tapi saya ingin menemukan dulu deskripsi umum dari proses bootstrap blok sebelum 'berkelana' menjadi masalah seperti memindahkan blok bootstrap, bootstrapping blok melingkar, bootstrapping blok melingkar, bootstapping blok stasioner, , panjang blok, sampel, dll.

Saya memiliki data berkorelasi berlebihan, 5 variabel (kolom) dengan 10.000 pengamatan (baris) yang ingin saya kurangi menjadi sekitar 100 baris data. Data adalah deret waktu, tetapi tidak kontinu dan mungkin ada data dari lokasi yang berbeda di dalamnya juga, yang berarti Anda dapat memiliki data yang berbeda pada saat yang sama (jika yang terakhir adalah masalah untuk blok bootstrap, saya bisa menghapus data 'duplikat' pada waktunya). Blok bootstrap memungkinkan untuk mereplikasi korelasi data.

Tujuan utamanya adalah untuk mengurangi dataset hingga ~ 100 baris data sehingga pdf dan cdf dari dataset lengkap dan dataset yang dikurangi adalah sama (dalam rentang kesalahan minimum yang masih harus didefinisikan) untuk semua 5 variabel.

Pertanyaan: 1) Apakah memblokir bootstrap dapat melakukan ini? 2) Apa proses langkah demi langkah yang dilakukan? Saya tidak mengharapkan siapa pun untuk menulis proses lengkap secara rinci di sini, tetapi mungkin seseorang telah meletakkan video youtube atau 'bootstrap for dummies' di luar sana yang bisa saya mulai.

Saya telah melihat pertanyaan serupa tentang blok bootstrap di sini dan ada satu di "Sumberdaya untuk belajar tentang blok bootstrap dalam analisis deret waktu", tetapi referensi dalam jawaban mengasumsikan literasi statistik yang masih harus saya kuasai.

Frank Drost
sumber
1
Bagaimana dengan pengantar ini ? Ini memiliki pengantar bootstrap dan kemudian blok bootstrap.
David G Williams

Jawaban:

7

Resampling model-time series yang bebas dilakukan dengan blok ulang, juga disebut blok bootstrap, yang dapat diimplementasikan menggunakan fungsi tsboot dalam paket boot R's. Idenya adalah untuk memecah seri menjadi blok yang kira-kira sama dengan panjang pengamatan berturut-turut, untuk menguji ulang blok dengan penggantian, dan kemudian menempelkan blok bersama-sama. Misalnya, jika deret waktu panjangnya 200 dan yang satu menggunakan 10 blok dengan panjang 20, maka blok itu adalah 20 pengamatan pertama, 20 berikutnya, dan seterusnya. Resample yang mungkin adalah blok keempat (observasi 61 hingga 80), kemudian blok terakhir (pengamatan 181 hingga 200), kemudian blok kedua (observasi 21 hingga 40), lalu blok keempat lagi, dan seterusnya hingga ada 10 blok dalam resample. Bagaimana Anda melakukan bootstrap dengan data deret waktu?

economia
sumber
3
Apa yang dijelaskan oleh economia tentang boostrapping adalah benar, tetapi perhatikan bahwa sampel yang di-boot tidak digunakan untuk mengurangi dataset menjadi kumpulan data yang lebih kecil dengan distribusi dasar yang sama. (yang Anda katakan adalah tujuan Anda). Bootstrap digunakan untuk menguji beberapa hipotesis dengan membuat sampel bootstrap dan kemudian melihat di mana statistik (yang sedang diuji) jatuh sehubungan dengan distribusi empiris sampel bootstrap. Jadi, pengurangan set data ke set data yang lebih kecil bukan tujuan dari bstrapping. Ini digunakan untuk pengujian hipotesis dengan cara bebas model.
mlofton