Jika semua yang Anda lakukan adalah pengambilan sampel ulang dari distribusi empiris, mengapa tidak hanya mempelajari distribusi empiris? Sebagai contoh alih-alih mempelajari variabilitas dengan pengambilan sampel berulang, mengapa tidak hanya mengukur variabilitas dari distribusi empiris?
13
Jawaban:
Bootstrapping (atau resampling lainnya) adalah metode eksperimental untuk memperkirakan distribusi suatu statistik.
Ini adalah metode yang sangat mudah dan mudah (itu hanya berarti Anda menghitung dengan banyak varian acak dari data sampel untuk mendapatkan, perkiraan, distribusi statistik yang diinginkan).
Anda kemungkinan besar menggunakannya ketika ekspresi 'teoretis / analitis' terlalu sulit untuk diperoleh / dihitung (atau seperti kata aksakal, terkadang mereka tidak dikenal).
Contoh 1: Jika Anda melakukan analisis pca dan ingin membandingkan hasilnya dengan 'perkiraan penyimpangan nilai eigen' diberikan hipotesis bahwa tidak ada korelasi dalam variabel.
Anda bisa, mengacak data berkali-kali dan menghitung kembali nilai eigen pca sedemikian rupa sehingga Anda mendapatkan distribusi (berdasarkan tes acak dengan data sampel) untuk nilai eigen.
Perhatikan bahwa praktik saat ini menatap plot scree dan menerapkan aturan praktis untuk 'memutuskan' apakah nilai eigen tertentu signifikan / penting atau tidak.
Contoh 2: Anda melakukan regresi non-linear y ~ f (x) yang memberi Anda beberapa perkiraan sekelompok parameter untuk fungsi f. Sekarang Anda ingin mengetahui kesalahan standar untuk parameter tersebut.
Beberapa tampilan sederhana pada residu dan aljabar linier, seperti pada OLS, tidak dimungkinkan di sini. Namun, cara yang mudah adalah menghitung regresi yang sama berkali-kali dengan residu / kesalahan diacak kembali untuk mendapatkan gambaran bagaimana parameter akan bervariasi (mengingat distribusi untuk istilah kesalahan dapat dimodelkan oleh residu yang diamati).
Ditulis oleh StackExchangeStrike
sumber
Kuncinya adalah bahwa bootstrap tidak benar-benar mencari tahu fitur-fitur distribusi data , tetapi mencari tahu fitur-fitur dari estimator diterapkan pada data.
Sesuatu seperti fungsi distribusi empiris akan memberi tahu Anda perkiraan yang cukup baik dari CDF dari mana data berasal ... tetapi dengan mengisolasi, pada dasarnya tidak ada yang memberi tahu Anda tentang seberapa andal penduga yang kami bangun dari data itu nantinya. Ini adalah pertanyaan yang dijawab dengan menggunakan bootstrap.
sumber
JIKA Anda tahu persis apa distribusi yang mendasarinya, maka Anda tidak perlu mempelajarinya. Terkadang, dalam ilmu alam Anda tahu persis distribusinya.
JIKA Anda tahu jenis distribusi, maka Anda hanya perlu memperkirakan parameternya, dan mempelajarinya dalam arti yang Anda maksudkan. Misalnya, kadang-kadang Anda tahu apriori bahwa distribusi yang mendasarinya normal. Dalam beberapa kasus Anda bahkan tahu apa artinya. Jadi, untuk normal satu-satunya hal yang tersisa untuk mencari tahu adalah standar deviasi. Anda mendapatkan standar deviasi sampel dari sampel, dan voila, Anda mendapatkan distribusi untuk dipelajari.
JIKA Anda tidak tahu apa distribusinya, tetapi anggap itu salah satu dari beberapa di dalam daftar, maka Anda bisa mencoba menyesuaikan distribusi tersebut dengan data, dan memilih yang paling cocok. KEMUDIAN Anda mempelajari distribusi itu.
AKHIRNYA, seringkali Anda tidak tahu jenis distribusi yang Anda hadapi. Dan Anda tidak memiliki alasan untuk percaya bahwa itu adalah salah satu dari 20 distribusi yang dapat ditampung oleh data Anda. Apa yang akan kamu lakukan? Ok, Anda melihat penyimpangan yang kejam dan standar, bagus. Tetapi bagaimana jika itu sangat miring? Bagaimana jika kurtosisnya sangat besar? dan seterusnya. Anda benar-benar perlu mengetahui semua momen distribusi untuk mengetahui , dan mempelajarinya. Jadi, dalam hal ini bootstrap non parametrik berguna. Anda tidak berasumsi banyak, dan sampel sederhana darinya, lalu pelajari momen dan properti lainnya.
Meskipun bootstrap non-parametrik bukan alat ajaib, ia memiliki masalah. Misalnya, itu bisa menjadi bias. Saya pikir bootstrap parametrik tidak bias
sumber