Mengapa kita perlu Bootstrapping?

16

Saat ini saya sedang membaca "Semua Statistik" karya Larry Wasserman dan bingung dengan sesuatu yang ditulisnya dalam bab tentang memperkirakan fungsi statistik model nonparametrik.

Dia menulis

"Kadang-kadang kita dapat menemukan kesalahan standar estimasi fungsi statistik dengan melakukan beberapa perhitungan. Namun dalam kasus lain tidak jelas bagaimana memperkirakan kesalahan standar".

Saya ingin menunjukkan bahwa pada bab berikutnya dia berbicara tentang bootstrap untuk mengatasi masalah ini, tetapi karena saya tidak benar-benar memahami pernyataan ini, saya tidak sepenuhnya mendapatkan insentif di balik Bootstrap?

Contoh apa yang ada ketika tidak jelas bagaimana memperkirakan kesalahan standar?

Semua contoh saya telah melihat sejauh ini telah "jelas" seperti X1,...Xn Ber(p) kemudian se^(p^n)=p^(1p^)/n

Shookie
sumber

Jawaban:

16

Dua jawaban.

  1. Apa kesalahan standar dari rasio dua cara? Apa kesalahan standar median? Apa kesalahan standar dari statistik yang kompleks? Mungkin ada persamaan bentuk tertutup, tetapi mungkin belum ada yang menyelesaikannya.
  2. Untuk menggunakan rumus untuk (katakanlah) kesalahan standar rata-rata, kita harus membuat beberapa asumsi. Jika asumsi tersebut dilanggar, kami tidak dapat serta merta menggunakan metode ini. Seperti @Whuber tunjukkan dalam komentar, bootstrap memungkinkan kita untuk mengendurkan beberapa asumsi ini dan karenanya dapat memberikan kesalahan standar yang lebih tepat (meskipun juga dapat membuat asumsi tambahan).
Jeremy Miles
sumber
2
Jawaban 1 baik-baik saja, tetapi jawaban 2 tampaknya menimbulkan pertanyaan, karena bootstrap juga membuat asumsi. Saya kira intinya adalah bahwa itu biasanya membuat asumsi yang berbeda dari prosedur populer lainnya, tapi itu hanya dugaan saya tentang apa yang ingin Anda katakan dan saya bisa saja salah.
whuber
@ Wouber - terima kasih, saya telah menambahkan sedikit klarifikasi.
Jeremy Miles
5
Terima kasih atas hasil editnya. Tapi bukankah itu kasus bootstrap biasanya membuat asumsi yang berbeda , daripada benar-benar membuat rileks ? Misalnya, asumsi yang diperlukan untuk memperkirakan SE dari rata-rata sampel adalah bahwa data tersebut iid dan distribusi yang mendasarinya memiliki varian terbatas. Bootstrap sebenarnya harus menambahkan asumsi dalam kasus ini: itu tidak berfungsi kecuali ukuran sampel "cukup besar." Meskipun ini mungkin tampak seperti kebawelan atas masalah teknis, apa yang saya coba bicarakan adalah gambaran besarnya: bootstrap bukanlah obat mujarab juga tidak selalu berlaku.
whuber
3
@ JeremyMiles bootstrap tidak bebas dari asumsi. Anda perlu memverifikasi bahwa distribusi sangat penting untuk sebagian besar perhitungan kesalahan bootstrap yang seringkali lebih rumit daripada mendapatkan penduga yang konsisten untuk kesalahan standar. Selain itu, rasio rata-rata memiliki perkiraan kesalahan yang sangat mudah diperoleh dari metode δ. Jadi saya tidak berpikir contoh itu menentang poin OP.
AdamO
9

Contoh mungkin membantu untuk menggambarkan. Misalkan, dalam kerangka pemodelan kausal, Anda tertarik dalam menentukan apakah hubungan antara (eksposur bunga) merupakan Y (hasil dari bunga) dimediasi oleh variabel W . Ini berarti bahwa dalam dua model regresi:XYW

E[Y|X]=β0+β1XE[Y|X,W]=γ0+γ1X+γ2W

Efek berbeda dari efek γ 1 .β1γ1

Sebagai contoh, pertimbangkan hubungan antara merokok dan risiko kardiovaskular (CV). Merokok jelas meningkatkan risiko CV (untuk kejadian seperti serangan jantung dan stroke) dengan menyebabkan pembuluh darah menjadi rapuh dan terkalsifikasi. Namun, merokok juga merupakan penekan nafsu makan. Jadi kita akan ingin tahu apakah perkiraan hubungan antara merokok dan risiko CV dimediasi oleh BMI, yang secara independen merupakan faktor risiko untuk risiko CV. Di sini bisa menjadi peristiwa biner (infark miokard atau neurologis) dalam model regresi logistik atau variabel kontinu seperti kalsifikasi arteri koroner (CAC), fraksi ejeksi ventrikel kiri (LVEF), atau massa ventrikel kiri (LVM).Y

Kami akan cocok dengan dua model 1: menyesuaikan untuk merokok dan hasilnya bersama dengan perancu lain seperti usia, jenis kelamin, pendapatan, dan riwayat keluarga penyakit jantung kemudian 2: semua kovariat sebelumnya serta indeks massa tubuh. Perbedaan dalam efek merokok antara model 1 dan 2 adalah di mana kita mendasarkan kesimpulan kita.

Kami tertarik untuk menguji hipotesis

H:β1=γ1K:β1γ1

Satu kemungkinan efek pengukuran dapat berupa: atau S = β 1 / γ 1 atau sejumlah pengukuran. Anda dapat menggunakan estimator biasa untuk T dan S . Kesalahan standar dari estimator ini sangat rumit untuk diturunkan. Bootstrap distribusi mereka, bagaimanapun, adalah teknik yang umum diterapkan, dan mudah untuk menghitung nilai- p langsung dari itu.T=β1γ1S=β1/γ1TSp

AdamO
sumber
TSTS
TS
γ2=0
@whuber Ah saya melihat kebingungan. Silakan lihat artikel yang direkomendasikan dari MacKinnon di sini .
AdamO
TSTTT
2

Memiliki solusi parametrik untuk setiap ukuran statistik akan diinginkan tetapi, pada saat yang sama, sangat tidak realistis. Bootstrap sangat berguna dalam hal-hal tersebut. Contoh yang muncul di benak saya menyangkut perbedaan antara dua cara distribusi biaya yang sangat miring. Dalam hal itu, uji-t dua sampel klasik gagal memenuhi persyaratan teoretisnya (distribusi dari mana sampel yang diselidiki ditarik keluar dari normalitas, karena ekor kanannya yang panjang) dan uji non-parametrik kurang mampu menyampaikan informasi berguna untuk pembuat keputusan (yang biasanya tidak tertarik pada peringkat). Solusi yang mungkin untuk menghindari macet pada masalah itu adalah uji-bootstrap dua sampel.

Carlo Lazzaro
sumber