Konteks
Ini agak mirip dengan pertanyaan ini , tetapi saya tidak berpikir itu adalah duplikat yang tepat.
Ketika Anda mencari instruksi bagaimana melakukan tes hipotesis bootstrap, biasanya dinyatakan bahwa boleh saja menggunakan distribusi empiris untuk interval kepercayaan tetapi Anda perlu mem-bootstrap dengan benar dari distribusi di bawah hipotesis nol untuk mendapatkan p- nilai. Sebagai contoh, lihat jawaban yang diterima untuk pertanyaan ini . Pencarian umum di internet sebagian besar tampaknya menemukan jawaban yang sama.
Alasan untuk tidak menggunakan nilai-p berdasarkan distribusi empiris adalah bahwa sebagian besar waktu kita tidak memiliki invarian terjemahan.
Contoh
Izinkan saya memberi contoh singkat. Kami memiliki koin dan kami ingin melakukan tes satu sisi untuk melihat apakah frekuensi kepala lebih besar dari 0,5
Kami melakukan percobaan dan mendapatkan kepala. Nilai p sebenarnya untuk tes ini adalah .
Di sisi lain jika kita melakukan bootstrap 14 dari 20 head kita, kita secara efektif mengambil sampel dari distribusi binomial dengan dan . Menggeser distribusi ini dengan mengurangi 0,2 kita akan mendapatkan hasil yang hampir tidak signifikan ketika menguji nilai observasi kami sebesar 0,7 terhadap distribusi empiris yang diperoleh.
Dalam hal ini perbedaannya sangat kecil, tetapi semakin besar ketika tingkat keberhasilan yang kami uji mendekati 1.
Pertanyaan
Sekarang biarkan saya sampai pada titik sebenarnya dari pertanyaan saya: cacat yang sama juga berlaku untuk interval kepercayaan. Bahkan, jika interval kepercayaan memiliki tingkat kepercayaan yang dinyatakan maka interval kepercayaan yang tidak mengandung parameter di bawah hipotesis nol sama dengan menolak hipotesis nol pada tingkat signifikansi .
Mengapa interval kepercayaan berdasarkan distribusi empiris diterima secara luas dan nilai-p tidak?
Apakah ada alasan yang lebih dalam atau orang-orang tidak konservatif dengan interval kepercayaan?
Dalam jawaban ini Peter Dalgaard memberikan jawaban yang tampaknya sesuai dengan argumen saya. Dia berkata:
Tidak ada yang salah tentang garis pemikiran ini, atau setidaknya tidak (jauh) lebih buruk daripada perhitungan CI.
Dari mana (banyak) itu berasal? Ini menyiratkan bahwa menghasilkan nilai-p dengan cara itu sedikit lebih buruk, tetapi tidak menjelaskan secara rinci.
Pikiran terakhir
Juga dalam Pengantar Bootstrap oleh Efron dan Tibshirani mereka mendedikasikan banyak ruang untuk interval kepercayaan tetapi tidak untuk nilai-p kecuali mereka dihasilkan di bawah distribusi hipotesis nol yang tepat, dengan pengecualian satu baris sekali pakai tentang kesetaraan umum dari interval kepercayaan dan nilai-p dalam bab tentang pengujian permutasi.
Mari kita kembali ke pertanyaan pertama yang saya tautkan. Saya setuju dengan jawaban oleh Michael Chernick, tetapi sekali lagi ia juga berpendapat bahwa interval kepercayaan dan nilai-p berdasarkan distribusi bootstrap empiris sama-sama tidak dapat diandalkan dalam beberapa skenario. Itu tidak menjelaskan mengapa Anda menemukan banyak orang memberi tahu Anda bahwa intervalnya ok, tetapi nilai-p tidak.
Jawaban:
Seperti yang dikatakan @MichaelChernick sebagai tanggapan atas komentar atas jawabannya pada pertanyaan terkait :
Jadi jawaban ini akan membahas dua masalah terkait: (1) mengapa presentasi hasil bootstrap tampaknya lebih sering untuk menentukan interval kepercayaan (CI) daripada nilai p , seperti yang disarankan dalam pertanyaan, dan (2) kapan kedua nilai- p mungkin dan CI yang ditentukan oleh bootstrap diduga tidak dapat diandalkan sehingga membutuhkan pendekatan alternatif.
Saya tidak tahu data yang secara khusus mendukung klaim dalam pertanyaan ini pada masalah pertama. Mungkin dalam praktiknya banyak estimasi titik yang diturunkan dari bootstrap (atau setidaknya tampaknya) sejauh ini dari batas keputusan pengujian sehingga hanya ada sedikit minat pada nilai- p dari hipotesis nol yang sesuai, dengan minat utama pada estimasi titik itu sendiri dan dalam beberapa ukuran yang masuk akal dari besarnya kemungkinan variabilitasnya.
Sehubungan dengan masalah kedua, banyak aplikasi praktis melibatkan "distribusi statistik uji simetris, statistik uji penting, penerapan CLT, tidak ada atau beberapa parameter gangguan, dll" (seperti dalam komentar oleh @XavierBourretSicotte di atas), yang hanya memiliki sedikit kesulitan. Pertanyaannya kemudian menjadi bagaimana mendeteksi potensi penyimpangan dari kondisi ini dan bagaimana mengatasinya ketika mereka muncul.
Penyimpangan potensial dari perilaku ideal ini telah dihargai selama beberapa dekade, dengan beberapa pendekatan CI bootstrap yang dikembangkan sejak awal untuk menghadapinya. Bootstrap yang Studentized membantu menyediakan statistik yang sangat penting , dan metode BCa menangani bias dan kecenderungan dalam hal mendapatkan CI yang lebih andal dari bootstraps. Transformasi menstabilkan data sebelum menentukan CI bootstrap, diikuti oleh transformasi balik ke skala asli, juga dapat membantu.
Contoh dalam pertanyaan ini tentang pengambilan sampel dari 14 kepala dari 20 lemparan dari koin yang adil ditangani dengan baik dengan menggunakan CI dari metode BCa; dalam R:
Perkiraan CI lainnya menimbulkan masalah yang dicatat yaitu sangat dekat atau di tepi nilai populasi 10 kepala per 20 kali lemparan. Akun BCa CI untuk kemiringan (seperti yang diperkenalkan oleh pengambilan sampel binomial jauh dari peluang genap), sehingga mereka dengan baik memasukkan nilai populasi 10.
Tetapi Anda harus mencari penyimpangan seperti itu dari perilaku ideal sebelum Anda dapat memanfaatkan solusi ini. Seperti dalam banyak praktik statistik, sebenarnya melihat data daripada hanya memasukkannya ke dalam algoritma bisa menjadi kuncinya. Sebagai contoh, pertanyaan ini tentang CI untuk hasil bootstrap yang bias menunjukkan hasil untuk 3 CI pertama yang ditunjukkan dalam kode di atas, tetapi mengecualikan BCa CI. Ketika saya mencoba mereproduksi analisis yang ditunjukkan dalam pertanyaan itu untuk memasukkan BCa CI, saya mendapatkan hasilnya:
di mana 'w' terlibat dalam koreksi bias. Statistik yang diperiksa memiliki nilai maksimum tetap dan estimasi plug-in yang di-bootstrap juga secara inheren bias. Mendapatkan hasil seperti itu harus menunjukkan bahwa asumsi biasa yang mendasari CI bootstrap sedang dilanggar.
Menganalisis kuantitas penting menghindari masalah seperti itu; meskipun distribusi empiris tidak dapat memiliki statistik yang sangat penting, mendekati sedekat mungkin adalah tujuan penting. Beberapa paragraf terakhir dari jawaban ini memberikan tautan ke bantuan lebih lanjut, seperti plot pivot untuk memperkirakan melalui bootstrap apakah statistik (berpotensi setelah beberapa transformasi data) dekat dengan penting, dan bootstrap ganda yang secara komputasi mahal tetapi berpotensi menentukan.
sumber