Mengapa saya ingin melakukan bootstrap ketika menghitung uji-t sampel independen? (bagaimana menjustifikasi, menafsirkan, dan melaporkan uji-t bootstrap)

8

Katakanlah saya memiliki dua kondisi, dan ukuran sampel saya untuk kedua kondisi sangat rendah. Katakanlah saya hanya memiliki 14 pengamatan pada kondisi pertama dan 11 pengamatan lainnya. Saya ingin menggunakan uji-t untuk menguji apakah perbedaan rata-rata secara signifikan berbeda satu sama lain.

Pertama, saya agak bingung tentang asumsi normal dari uji-t, yang mungkin mengapa saya tidak sepenuhnya mendapatkan bootstrap. Apakah asumsi untuk uji-t bahwa (A) data sampel dari populasi normal, atau (B) bahwa distribusi sampel Anda memiliki sifat Gaussian? Jika itu (B) maka itu bukan asumsi, kan? Anda bisa saja memetakan histogram data Anda dan melihat apakah itu normal atau tidak. Jika ukuran sampel saya rendah, saya tidak akan memiliki cukup data poin untuk melihat apakah distribusi sampel saya normal.

Di sinilah saya pikir bootstrap masuk. Saya bisa bootstrap untuk melihat apakah sampel saya normal, kan? Pada awalnya saya berpikir bahwa bootstrap akan selalu menghasilkan distribusi normal, tetapi ini tidak terjadi ( Dapatkah Bootstrap Resampling digunakan untuk Menghitung Interval Keyakinan untuk Varians dari Set Data? Statexchange statexchange ). Jadi, salah satu alasan Anda melakukan bootstrap adalah untuk lebih memastikan normalitas data sampel Anda, benar?

Pada titik ini saya menjadi sangat bingung. Jika saya melakukan uji-t di R dengan fungsi t.test dan saya menaruh vektor sampel yang di-boot sebagai dua sampel independen, nilai t saya menjadi sangat signifikan. Apakah saya tidak melakukan uji-t bootstrap kan? Saya tidak boleh, karena semua bootstrap lakukan hanya membuat nilai t saya lebih besar, bukankah ini terjadi dalam setiap kasus? Apakah orang tidak melakukan uji-t pada sampel yang di-bootstrap?

Terakhir, apa manfaat dari interval kepercayaan komputasi pada bootstrap dibandingkan dengan interval kepercayaan komputasi pada sampel asli kami? Apa yang dikatakan interval kepercayaan ini bahwa interval kepercayaan pada data sampel asli tidak?

Saya kira saya bingung pada (A) mengapa menggunakan bootstrap jika itu hanya akan membuat nilai t saya lebih signifikan, (B) tidak yakin tentang cara yang benar untuk menggunakan bootstrap ketika menjalankan uji-t sampel independen, dan (C) tidak yakin bagaimana melaporkan justifikasi, eksekusi, dan hasil bootstrap dalam situasi uji-t independen.

stat_gurl
sumber
Bukankah Anda memiliki lebih banyak titik sampel di vektor sampel bootstrap Anda daripada di vektor sampel asli Anda? Jika demikian, maka gunakan vektor bootstrap dalam uji-t dan bukan jumlah data asli untuk meningkatkan ukuran sampel Anda secara artifisial. Ini dapat membuat nilai-p Anda sewenang-wenang kecil, tetapi tidak berarti dan tidak sah.
amoeba

Jawaban:

15

Ada beberapa kesalahpahaman dalam posting Anda (beberapa di antaranya umum dan Anda mungkin telah diberitahu hal yang salah karena orang yang memberi tahu Anda hanya menyampaikan informasi yang salah).

Pertama adalah bahwa bootstrap bukan penyelamat dari ukuran sampel kecil. Bootstrap sebenarnya sangat buruk untuk ukuran sampel kecil, bahkan ketika populasinya normal. Pertanyaan, jawaban, dan diskusi ini harus menjelaskan hal itu. Juga artikel di sini memberikan lebih banyak detail dan latar belakang.

Baik uji-t dan bootstrap didasarkan pada distribusi sampling, apa distribusi statistik tes itu.

Uji-t yang tepat didasarkan pada teori dan kondisi bahwa populasi / proses menghasilkan data adalah normal. Uji-t kebetulan cukup kuat untuk asumsi normalitas (sejauh ukuran tes berjalan, daya dan presisi bisa menjadi masalah lain) sehingga untuk beberapa kasus kombinasi dari "Cukup normal" dan "Ukuran sampel besar" berarti bahwa distribusi sampling "cukup dekat" dengan normal sehingga uji-t adalah pilihan yang masuk akal.

Bootstrap alih-alih mengasumsikan populasi normal, menggunakan sampel CDF sebagai perkiraan populasi dan menghitung / memperkirakan (biasanya melalui simulasi) distribusi sampling yang sebenarnya (yang mungkin normal, tetapi tidak perlu). Jika sampel melakukan pekerjaan yang wajar untuk mewakili populasi maka bootstrap berfungsi dengan baik. Tetapi untuk ukuran sampel kecil, sangat mudah bagi sampel untuk melakukan pekerjaan yang buruk dalam mewakili populasi dan metode bootstrap sangat buruk dalam kasus-kasus tersebut (lihat simulasi dan makalah yang dirujuk di atas).

Keuntungan dari uji-t adalah bahwa jika semua asumsi berlaku (atau dekat) maka itu akan bekerja dengan baik (saya pikir itu sebenarnya adalah uji yang paling kuat secara seragam). Kerugiannya adalah bahwa itu tidak berfungsi dengan baik jika asumsi tidak benar (dan tidak hampir benar) dan ada beberapa kasus di mana asumsi membuat perbedaan yang lebih besar daripada yang lain. Dan teori uji-t tidak berlaku untuk beberapa parameter / statistik yang menarik, misalnya cara yang dipangkas, standar deviasi, kuantil, dll.

Keuntungan dari bootstrap adalah dapat memperkirakan distribusi sampling tanpa banyak asumsi yang diperlukan oleh metode parametrik. Ini berfungsi untuk statistik selain dari rata-rata dan dalam kasus di mana asumsi lain tidak berlaku (misalnya 2 sampel, varian yang tidak sama). Kerugian dari bootstrap adalah sangat tergantung pada sampel yang mewakili populasi karena tidak memiliki kelebihan dari asumsi lain. Bootstrap tidak memberi Anda normalitas, itu memberi Anda distribusi pengambilan sampel (yang kadang-kadang terlihat normal, tetapi masih berfungsi saat tidak) tanpa perlu asumsi tentang populasi.

Untuk uji-t di mana masuk akal untuk menganggap bahwa populasi normal (atau setidaknya cukup normal) maka uji-t akan menjadi yang terbaik (dari 2).

Jika Anda tidak memiliki normalitas dan memiliki sampel kecil, maka uji-t atau bootstrap tidak bisa dipercaya. Untuk 2 sampel kasus, uji permutasi akan bekerja dengan baik jika Anda bersedia untuk menganggap distribusi yang sama (termasuk varian yang sama) di bawah hipotesis nol. Ini adalah asumsi yang sangat masuk akal ketika melakukan percobaan secara acak, tetapi mungkin tidak ketika membandingkan 2 populasi yang terpisah (tetapi kemudian jika Anda percaya bahwa 2 populasi mungkin memiliki spread / bentuk yang berbeda maka mungkin tes cara bukan pertanyaan yang paling menarik atau tempat terbaik untuk memulai).

Dengan ukuran sampel yang besar, teori sampel besar akan menguntungkan baik uji-t dan bootstrap dan Anda akan melihat sedikit atau tidak ada perbedaan ketika membandingkan cara.

Dengan ukuran sampel sedang, bootstrap dapat bekerja dengan baik dan mungkin lebih disukai ketika Anda tidak mau membuat asumsi yang diperlukan untuk prosedur uji-t.

Yang penting adalah untuk memahami asumsi dan kondisi yang diperlukan untuk berbagai prosedur yang Anda pertimbangkan dan mempertimbangkan bagaimana kondisi dan penyimpangan dari mereka akan mempengaruhi analisis Anda dan bagaimana Anda percaya populasi / proses yang menghasilkan data Anda sesuai dengan kondisi tersebut , simulasi dapat membantu Anda memahami bagaimana penyimpangan mempengaruhi berbagai metode. Ingatlah bahwa semua prosedur statistik memiliki kondisi dan asumsi (dengan pengecualian yang mungkin dari SnowsCorrectlySizedButOtherwiseUselessTestOfAnything , tetapi jika Anda menggunakan tes itu maka orang akan membuat asumsi tentang Anda).

Greg Snow
sumber
1
Saya telah bingung tentang hal ini selama bertahun-tahun: apakah normalitas asimptotik bawah CLT tidak cukup untuk di tes? X¯
shadowtalker
1
@ssdecontrol, normalitas asimptotik / CLT hanya berarti bahwa setelah ukuran sampel cukup besar, distribusi sampel akan cukup dekat dengan normal, tetapi tidak memberi tahu kami seberapa besar cukup dekat. Untuk beberapa populasi ukuran sampel 6 cukup besar, bagi yang lain ukuran sampel 10.000 tidak cukup besar. Penting untuk memahami seperti apa populasi / proses Anda dan untuk mempertimbangkan alternatif.
Greg Snow
@ GrregSnow saya masih bertanya-tanya tentang ini: "Jika saya melakukan uji-t di R dengan fungsi t.test dan saya meletakkan vektor sampel bootstrapped sebagai dua sampel independen, nilai t saya menjadi sangat signifikan. Apakah saya tidak melakukan t-test bootstrap kan? Saya tidak boleh, karena semua bootstrap lakukan hanya membuat nilai t saya lebih besar, bukankah ini terjadi dalam setiap kasus? Apakah orang tidak melakukan t-test pada sampel bootstrap? "
Herman Toothrot
@HermanToothrot, tidak jelas apa yang Anda lakukan ketika Anda mengatakan Anda memasukkan sampel yang di-boot ke dalam fungsi uji-t. Tapi kebanyakan hal yang bisa saya bayangkan dengan deskripsi itu salah. Sepertinya Anda meyakinkan komputer bahwa ukuran sampel Anda jauh lebih besar daripada yang sebenarnya (memberikan lebih banyak arti) yang akan menjamin jawaban yang salah / tidak berarti. Untuk mendapatkan pemahaman yang baik tentang Bootstrapping membutuhkan lebih dari sekadar cocok dalam komentar atau bahkan jawaban. Anda harus benar-benar mengikuti kelas yang membahas bootstrap atau setidaknya membaca buku tentang topik tersebut.
Greg Snow