Saya telah melihat banyak pertanyaan di situs ini mengenai interval bootstrap dan kepercayaan diri, tetapi saya masih bingung. Sebagian alasan kebingungan saya mungkin karena saya tidak cukup maju dalam pengetahuan statistik saya untuk memahami banyak jawaban. Saya hampir setengah jalan melalui kursus statistik pengantar dan tingkat matematika saya hanya tentang pertengahan-Aljabar II, jadi apa pun yang melewati tingkat itu hanya membingungkan saya. Jika salah satu orang berpengetahuan di situs ini dapat menjelaskan masalah ini di tingkat saya, itu akan sangat membantu.
Kami belajar di kelas bagaimana mengambil sampel menggunakan metode bootstrap dan menggunakannya untuk membangun interval kepercayaan untuk beberapa statistik yang ingin kami ukur. Jadi misalnya, katakan kita mengambil sampel dari populasi besar dan menemukan bahwa 40% mengatakan mereka akan memilih Calon A. Kami berasumsi bahwa sampel ini adalah refleksi yang cukup akurat dari populasi asli, dalam hal ini kita dapat mengambil sampel dari untuk menemukan sesuatu tentang populasi. Jadi kami mengambil sampel dan menemukan (menggunakan tingkat kepercayaan 95%) bahwa interval kepercayaan yang dihasilkan berkisar antara 35% hingga 45%.
Pertanyaan saya adalah, apa sebenarnya arti dari interval kepercayaan ini ?
Saya terus membaca bahwa ada perbedaan antara Interval Kepercayaan (Frequentist) dan Interval Kredibel (Bayesian). Jika saya mengerti dengan benar, interval yang kredibel akan mengatakan bahwa ada kemungkinan 95% bahwa dalam situasi kita parameter sebenarnya berada dalam interval yang diberikan (35% -45%), sementara interval kepercayaan akan mengatakan bahwa ada 95% dalam hal ini. jenis situasi (tetapi tidak harus dalam situasi kami secara khusus) metode yang kami gunakan akan melaporkan secara akurat bahwa parameter sebenarnya berada dalam interval yang diberikan.
Dengan asumsi definisi ini benar, pertanyaan saya adalah: Apa "parameter sebenarnya" yang kita bicarakan ketika menggunakan interval kepercayaan yang dibangun menggunakan metode bootstrap? Apakah kita mengacu pada (a) parameter sebenarnya dari populasi asli , atau (b) parameter sebenarnya dari sampel ? Jika (a), maka kita akan mengatakan bahwa 95% dari waktu metode bootstrap akan secara akurat melaporkan pernyataan yang benar tentang populasi asli. Tapi bagaimana kita bisa tahu itu? Tidak seluruh metode bootstrap bersandar pada asumsibahwa sampel asli merupakan cerminan akurat dari populasi yang diambilnya? Jika (b) maka saya tidak mengerti arti dari interval kepercayaan sama sekali. Bukankah kita sudah tahu parameter sebenarnya dari sampel? Ini pengukuran langsung!
Saya membahas hal ini dengan guru saya dan dia sangat membantu. Tapi saya masih bingung.
sumber
Apa yang Anda katakan adalah bahwa tidak perlu menemukan interval kepercayaan dari contoh bootstrapped. Jika Anda puas dengan statistik (rata-rata sampel atau proporsi sampel) yang diperoleh dari sampel yang di-bootstrap, tidak menemukan interval kepercayaan dan karenanya, tidak ada pertanyaan tentang interpretasi. Tetapi jika Anda tidak puas dengan statistik yang diperoleh dari contoh-contoh bootstrap atau puas tetapi masih ingin menemukan interval kepercayaan, maka interpretasi untuk interval kepercayaan tersebut sama dengan interval kepercayaan lainnya. Itu karena ketika sampel bootstrap Anda persis mewakili (atau diasumsikan demikian) populasi asli, lalu dimanakah kebutuhan interval kepercayaan? Statistik dari sampel bootstrap adalah parameter populasi asli itu sendiri, tetapi ketika Anda tidak menganggap statistik sebagai parameter populasi asli, maka ada kebutuhan untuk menemukan interval kepercayaan. Jadi, ini semua tentang bagaimana Anda mempertimbangkan. Katakanlah Anda menghitung interval kepercayaan 95% dari contoh bootstrap. Sekarang interpretasinya adalah: "95% dari waktu, metode bootstrap ini secara akurat menghasilkan interval kepercayaan yang mengandung parameter populasi yang benar".
(Ini yang saya pikirkan. Perbaiki saya jika ada kesalahan).
sumber
Kami merujuk pada parameter sebenarnya dari populasi asli. Dimungkinkan untuk melakukan ini dengan asumsi bahwa data diambil secara acak dari populasi asli - dalam kasus itu, ada argumen matematis yang menunjukkan bahwa prosedur bootstrap akan memberikan interval kepercayaan yang valid, setidaknya karena ukuran dataset menjadi cukup besar. .
sumber