Mean dari sampel bootstrap vs statistik sampel

18

Katakanlah saya memiliki sampel dan sampel bootstrap dari sampel ini untuk stastitik (misalnya rata-rata). Seperti yang kita semua tahu, sampel bootstrap ini memperkirakan pada distribusi sampling dari penaksir statistik.χ

Sekarang, apakah rata-rata sampel bootstrap ini merupakan estimasi yang lebih baik dari statistik populasi daripada statistik sampel asli ? Dalam kondisi apa itu akan terjadi?

Amelio Vazquez-Reina
sumber
2
Mean dari sampel bootstrap adalah rata-rata sampel dan Anda tidak perlu sampel bootstrap dalam kasus ini.
Xi'an
1
Terima kasih @ Xi'an. Saya tidak yakin saya mengikuti. Rata-rata sampel bootstrap dapat berbeda secara numerik dari rata-rata sampel. Apakah Anda mencoba mengatakan bahwa keduanya secara teori masih setara? Bisakah Anda mengkonfirmasi pada kedua ujungnya?
Amelio Vazquez-Reina
2
Mari kita perjelas terminologi kita: "sampel bootstrap" dapat merujuk pada sampel-dengan-penggantian tertentu dari data atau dapat merujuk pada variabel acak (multivarian) yang sampel tersebut akan dianggap sebagai satu realisasi. Anda benar bahwa rata-rata realisasi dapat berbeda dari rata-rata data, tetapi @ Xi'an memberikan pengamatan yang lebih relevan bahwa rata-rata variabel acak (yang menurut definisi adalah perkiraan bootstrap dari rata-rata populasi ) harus bersamaan dengan rata-rata data.
whuber
1
Maka pertanyaan Anda hampir identik dengan stats.stackexchange.com/questions/126633/… ; satu-satunya perbedaan adalah bahwa realisasi sampel bootstrap dapat tumpang tindih, tetapi analisis yang diberikan dalam jawaban mudah dibawa ke situasi bootstrap, dengan hasil yang sama.
Whuber
1
Saya melihat koneksi @whuber, meskipun dalam bootstrap seseorang memiliki "himpunan bagian dengan penggantian" dan realisasi mungkin tumpang tindih, seperti yang Anda katakan. Saya akan membayangkan bahwa distribusi (misalnya pseudorandomness) yang digunakan untuk mendapatkan sampel ulang di bootstrap juga dapat memengaruhi bias estimasi dari sampel bootstrap. Mungkin jawabannya adalah bahwa untuk semua hal praktis perbedaannya dapat diabaikan. Inilah yang menjadi pertanyaan setelah itu: kondisi, kehalusan, dan perbedaan dalam praktik.
Amelio Vazquez-Reina

Jawaban:

19

Mari kita menggeneralisasi, sehingga fokus pada inti masalah. Saya akan menguraikan detail terkecil sehingga tidak meninggalkan keraguan. Analisis hanya memerlukan yang berikut ini:

  1. The mean aritmetik dari himpunan bilangan didefinisikan sebagaiz1,,zm

    1m(z1++zm).
  2. Ekspektasi adalah operator linier. Yaitu, ketika adalah variabel acak dan α i adalah angka, maka ekspektasi dari kombinasi linear adalah kombinasi linear dari ekspektasi,Zi,i=1,,mαi

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Biarkan menjadi sampel ( B 1 , ... , B k ) yang diperoleh dari dataset x = ( x 1 , ... , x n ) dengan mengambil elemen k secara seragam dari x dengan penggantian. Mari m ( B ) menjadi mean aritmetik dari B . Ini adalah variabel acak. KemudianB(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

diikuti oleh linearitas harapan. Karena unsur-unsur semuanya diperoleh dengan cara yang sama, mereka semua memiliki harapan yang sama, b katakan:Bb

E(B1)==E(Bk)=b.

Ini menyederhanakan hal sebelumnya

E(m(B))=1k(b+b++b)=1k(kb)=b.

Menurut definisi, ekspektasi adalah jumlah nilai tertimbang-probabilitas. Karena setiap nilai diasumsikan memiliki peluang yang sama dengan 1 / n dipilih,X1/n

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

rata-rata aritmatika data.

x¯k=nx¯


Untuk statistik yang bukan fungsi linier data, hasil yang sama tidak selalu berlaku. Namun, itu akan salah hanya dengan mengganti rata-rata bootstrap untuk nilai statistik pada data: itu bukan cara kerja bootstrap. Sebagai gantinya, dengan membandingkan rata-rata bootstrap dengan statistik data, kami memperoleh informasi tentang bias statistik. Ini dapat digunakan untuk menyesuaikan statistik asli untuk menghapus bias. Karenanya, estimasi yang dikoreksi bias menjadi kombinasi aljabar dari statistik asli dan rata-rata bootstrap. Untuk informasi lebih lanjut, lihat "BCa" (bootstrap yang dikoreksi dan dipercepat) dan "ABC". Wikipedia menyediakan beberapa referensi.

whuber
sumber
Maksud Anda, harapan rata-rata bootstrap sama dengan rata-rata data, bukan? Rata-rata bootstrap itu sendiri tidak ditentukan oleh sampel data (asli).
capybaralet
@ user2429920 Mean bootstrap adalah statistik yang ditentukan oleh sampel. Dalam hal ini identik dengan mean sampel. Harapannya diambil dalam arti distribusi sampling. Saya menduga Anda mungkin menggunakan "ekspektasi" dalam arti yang berbeda relatif terhadap proses komputasi rata-rata bootstrap melalui subsampling berulang dengan penggantian.
whuber
1
Saya pikir paragraf terakhir adalah jawaban aktual untuk pertanyaan ini karena bersifat umum dan tidak hanya berfokus pada statistik rata-rata. Saya memiliki keraguan yang sama dengan OP, dan saya tidak menyadari keberadaan BCa. Meskipun demonstrasi dalam jawaban ini tidak banyak membantu saya (saya tidak menggunakan mean sebagai statistik saya) paragraf terakhir sangat jelas tentang inti masalah ini. Saya percaya jawaban Xi'an juga membahas kasus di mana statistik rata-rata digunakan, masalah yang sama. Terima kasih!
Gabriel
1
@Gabriel poin bagus. Saya memeriksa catatan: sebelum mengedit, pertanyaan ini awalnya hanya menanyakan tentang rata-rata. Itu sebabnya jawaban tampak begitu fokus pada statistik itu.
Whuber
9

Karena distribusi bootstrap didefinisikan sebagai

F^n(x)=1nsaya=1nsayaXsayaxXsayaiidF(x),
rata-rata distribusi bootstrap adalah
EF^n[X]=1nsaya=1nXsaya=X¯n
Ketika Anda (jika Anda harus) mengimplementasikan versi simulasi dari harapan ini, yaitu rata-rata undian acak, ada variabilitas Monte Carlo dalam pendekatan ini. EF^n[X], but its mean (the expactation of the empirical average) and its limit when the number of bootstrap simulations grows to infinity are both exactly X¯n.
Xi'an
sumber
2
+1 This is the answer I originally wanted to write, but feared it might be too opaque for some readers. I nevertheless am glad to see it so elegantly presented. I'm not sure what you mean in your last sentence, though, where you appear to differentiate the "expectation" of the simulated approximation to the mean from its "limit": since the expectation is constant (it does not vary with simulation size), there really isn't any limit to take.
whuber
@whuber: Thank you for the comment and sorry for writing my terse answer exactly at the same time as yours! Your explanations are certainly more readable by novices in bootstrap. I corrected the final sentence, whose limiting part is the law of large numbers.
Xi'an
3
Your use of "mean" in that last sentence is quite ambiguous! I figured it out from your LLN clue. For any finite simulation of the bootstrap distribution, each sample in the simulation produces its own mean (there's one meaning of "mean"). The average of all those samples in a given simulation produces a simulation mean (there's another meaning). The simulation mean converges to a constant as the simulation size grows large, which is the bootstrap mean (a third meaning), and this equals the sample mean (the fourth meaning). (And this estimates the population mean--a fifth meaning!)
whuber