Bootstrap dilakukan untuk mendapatkan gambaran yang lebih kuat dari distribusi sampling daripada yang diasumsikan oleh teori sampel besar. Ketika Anda bootstrap, secara efektif tidak ada batasan jumlah `bootsamples 'yang Anda ambil; pada kenyataannya Anda mendapatkan perkiraan yang lebih baik untuk distribusi sampling, semakin banyak bootsamples yang Anda ambil. Adalah umum untuk menggunakan bootsamples, meskipun tidak ada yang ajaib tentang angka itu. Selain itu, Anda tidak menjalankan tes pada bootsamples; Anda memiliki perkiraan distribusi sampel - gunakan secara langsung. Berikut ini algoritma:B=10,000
- mengambil bootsample dari satu set data dengan sampel boot-pengamatan dengan penggantian. [Mengenai komentar di bawah ini, satu pertanyaan yang relevan adalah apa yang merupakan 'pengamatan-boot' yang valid untuk digunakan untuk bootample Anda. Bahkan, ada beberapa pendekatan yang sah; Saya akan menyebutkan dua yang kuat dan memungkinkan Anda untuk mencerminkan struktur data Anda: Ketika Anda memiliki data pengamatan (yaitu, data diambil sampelnya pada semua dimensi, pengamatan booting dapat berupa n-tuple yang dipesan (misalnya, satu baris dari kumpulan data Anda). Misalnya, jika Anda memiliki satu variabel prediktor dan satu variabel respons, Anda akan mengambil sampel n 1 ( x , y )n1n1 (x,y)pasangan yang dipesan. Di sisi lain, ketika bekerja dengan data eksperimen, nilai-nilai variabel prediktor tidak dijadikan sampel, tetapi unit-unit eksperimental ditugaskan ke level yang diinginkan dari setiap variabel prediktor. Dalam kasus seperti ini, Anda dapat mengambil sampel y nilai dari dalam setiap level j dari variabel prediktor Anda, lalu memasangkan y s dengan nilai yang sesuai dari level prediktor tersebut. Dengan cara ini, Anda tidak akan mengambil sampel lebih dari X. ]n1j yjyX
- cocok dengan model regresi dan menyimpan perkiraan kemiringan (menyebutnya ß 1 )β^1
- mengambil bootsample dari kumpulan data lainnya dengan sampling boot-pengamatan dengan penggantiann2
- sesuai dengan model regresi lain dan menyimpan perkiraan kemiringan (menyebutnya ß 2 )β^2
- membentuk statistik dari dua perkiraan (saran: menggunakan perbedaan kemiringan β 1 - β 2 )β^1−β^2
- simpan statistik dan buang info lainnya agar tidak membuang-buang memori
- ulangi langkah 1 - 6, kaliB=10,000
- mengurutkan distribusi sampling bootstrap perbedaan lereng
- hitung% bsd yang tumpang tindih 0 (mana yang lebih kecil,% ekor kanan atau% ekor kiri)
- kalikan persentase ini dengan 2
Logika dari algoritma ini sebagai uji statistik pada dasarnya mirip dengan tes klasik (misalnya, uji-t) tetapi Anda tidak mengasumsikan data atau distribusi sampel yang dihasilkan memiliki distribusi tertentu. (Misalnya, Anda tidak berasumsi normal.) Asumsi utama yang Anda buat adalah bahwa data Anda mewakili populasi yang Anda sampel dari / yang ingin digeneralisasi. Artinya, distribusi sampel mirip dengan distribusi populasi. Perhatikan bahwa, jika data Anda tidak terkait dengan populasi yang Anda minati, Anda beruntung.
Beberapa orang khawatir tentang penggunaan, misalnya, model regresi untuk menentukan kemiringan jika Anda tidak mau menganggap normalitas. Namun, kekhawatiran ini keliru. Teorema Gauss-Markov memberi tahu kita bahwa estimasi tersebut tidak bias (yaitu, berpusat pada nilai sebenarnya), jadi tidak masalah. Kurangnya normalitas berarti bahwa distribusi sampling yang sebenarnya mungkin berbeda dari yang dinyatakan secara teoritis, sehingga nilai-p tidak valid. Prosedur bootstrap memberi Anda cara untuk mengatasi masalah ini.
Dua masalah lain tentang bootstrap: Jika asumsi klasik terpenuhi, bootstrap kurang efisien (yaitu, memiliki daya lebih kecil) daripada tes parametrik. Kedua, bootstrap bekerja paling baik ketika Anda menjelajahi dekat pusat distribusi: rata-rata dan median bagus, kuartil tidak begitu baik, bootstrap min atau maks tentu gagal. Mengenai poin pertama, Anda mungkin tidak perlu bootstrap dalam situasi Anda; mengenai poin kedua, bootstrap pada slope sangat baik.
gung - Pasang kembali Monica
sumber
If you have correlation among the error terms, you may need to alter this procedure a bit, so write back if that is the case.
You can generalize this approach to the seemingly unrelated regressions (SUR) framework. This approach still allows the coefficients for the intercept and the slope to be arbitrarily different in the two data sets.
sumber
Doing everything in one regression is neat, and the assumption of independence is important. But calculating the point estimates in this way does not require constant variance. Try this R code;
We get the same point estimate either way. Estimates of standard error may require constant variance (depending on which one you use) but the bootstrapping considered here doesn't use estimated standard errors.
sumber