Nilai p bootstrap non-parametrik vs interval kepercayaan

11

Konteks

Ini agak mirip dengan pertanyaan ini , tetapi saya tidak berpikir itu adalah duplikat yang tepat.

Ketika Anda mencari instruksi bagaimana melakukan tes hipotesis bootstrap, biasanya dinyatakan bahwa boleh saja menggunakan distribusi empiris untuk interval kepercayaan tetapi Anda perlu mem-bootstrap dengan benar dari distribusi di bawah hipotesis nol untuk mendapatkan p- nilai. Sebagai contoh, lihat jawaban yang diterima untuk pertanyaan ini . Pencarian umum di internet sebagian besar tampaknya menemukan jawaban yang sama.

Alasan untuk tidak menggunakan nilai-p berdasarkan distribusi empiris adalah bahwa sebagian besar waktu kita tidak memiliki invarian terjemahan.

Contoh

Izinkan saya memberi contoh singkat. Kami memiliki koin dan kami ingin melakukan tes satu sisi untuk melihat apakah frekuensi kepala lebih besar dari 0,5

Kami melakukan n=20 percobaan dan mendapatkan k=14 kepala. Nilai p sebenarnya untuk tes ini adalah p=0.058 .

Di sisi lain jika kita melakukan bootstrap 14 dari 20 head kita, kita secara efektif mengambil sampel dari distribusi binomial dengan n=20 dan p=1420=0.7. Menggeser distribusi ini dengan mengurangi 0,2 kita akan mendapatkan hasil yang hampir tidak signifikan ketika menguji nilai observasi kami sebesar 0,7 terhadap distribusi empiris yang diperoleh.

Dalam hal ini perbedaannya sangat kecil, tetapi semakin besar ketika tingkat keberhasilan yang kami uji mendekati 1.

Pertanyaan

Sekarang biarkan saya sampai pada titik sebenarnya dari pertanyaan saya: cacat yang sama juga berlaku untuk interval kepercayaan. Bahkan, jika interval kepercayaan memiliki tingkat kepercayaan yang dinyatakan α maka interval kepercayaan yang tidak mengandung parameter di bawah hipotesis nol sama dengan menolak hipotesis nol pada tingkat signifikansi 1α .

Mengapa interval kepercayaan berdasarkan distribusi empiris diterima secara luas dan nilai-p tidak?

Apakah ada alasan yang lebih dalam atau orang-orang tidak konservatif dengan interval kepercayaan?

Dalam jawaban ini Peter Dalgaard memberikan jawaban yang tampaknya sesuai dengan argumen saya. Dia berkata:

Tidak ada yang salah tentang garis pemikiran ini, atau setidaknya tidak (jauh) lebih buruk daripada perhitungan CI.

Dari mana (banyak) itu berasal? Ini menyiratkan bahwa menghasilkan nilai-p dengan cara itu sedikit lebih buruk, tetapi tidak menjelaskan secara rinci.

Pikiran terakhir

Juga dalam Pengantar Bootstrap oleh Efron dan Tibshirani mereka mendedikasikan banyak ruang untuk interval kepercayaan tetapi tidak untuk nilai-p kecuali mereka dihasilkan di bawah distribusi hipotesis nol yang tepat, dengan pengecualian satu baris sekali pakai tentang kesetaraan umum dari interval kepercayaan dan nilai-p dalam bab tentang pengujian permutasi.

Mari kita kembali ke pertanyaan pertama yang saya tautkan. Saya setuju dengan jawaban oleh Michael Chernick, tetapi sekali lagi ia juga berpendapat bahwa interval kepercayaan dan nilai-p berdasarkan distribusi bootstrap empiris sama-sama tidak dapat diandalkan dalam beberapa skenario. Itu tidak menjelaskan mengapa Anda menemukan banyak orang memberi tahu Anda bahwa intervalnya ok, tetapi nilai-p tidak.

Erik
sumber
Saya memulai karunia pada pertanyaan ini karena saya sangat tertarik untuk mendapatkan kejelasan tentang bagaimana dan kapan bootstrap CI dapat digunakan untuk menerima / menolak hipotesis. Mungkin Anda bisa menyusun ulang / memformat ulang pertanyaan Anda untuk membuatnya lebih ringkas dan menarik? Terima kasih!
Xavier Bourret Sicotte
Saya pikir sebagian besar orang akan setuju bahwa ketika asumsi berikut berlaku maka menggunakan CI untuk uji hipotesis OK: distribusi simetris statistik uji, statistik uji penting, penerapan CLT, tidak ada atau beberapa parameter gangguan dll. Tetapi apa yang terjadi ketika statistik aneh atau tidak terbukti penting. Berikut ini adalah contoh nyata yang sedang saya kerjakan: misalnya dua sampel perbedaan antara persentil ke-75 dari statistik rasio (rasio dua jumlah)
Xavier Bourret Sicotte
Bukankah jawaban sederhananya hanya jelas bagaimana sampel di bawah hipotesis nol, jadi ada metode alternatif yang jelas lebih baik? Pengambilan sampel di bawah bootstrap umumnya terjadi di bawah distribusi empiris, jadi mekanisme penghasil data yang sebenarnya, sehingga jelas tidak boleh digunakan alih-alih hanya pengambilan sampel di bawah nol. CI bootstrap ditemukan dari membalik distribusi sampling di bawah mekanisme menghasilkan data yang sebenarnya. Memang benar CI ini mungkin tidak berfungsi dengan baik, tetapi seperti yang dikatakan Dalgaard, belum tentu cara memperbaikinya.
jsk
Saya harus mengklarifikasi bahwa distribusi empiris hanyalah perkiraan dari mekanisme penghasil data yang sebenarnya. Sejauh mana itu tidak mewakili kebenaran akan berdampak negatif pada CI yang di-bootstrap ke arah yang tidak diketahui yang menyebabkan cakupan kurang dari 95%.
jsk
1
Pengambilan sampel di bawah nol jelas ketika tes adalah perbedaan cara, tetapi dalam banyak kasus tidak jelas bagaimana mereproduksi nol ... misalnya nol adalah bahwa persentil ke-75 dari dua rasio adalah sama ... bagaimana cara saya menggeser pembilang dan penyebut dari rasio di setiap sampel untuk mendapatkan itu? Juga, bagaimana saya bisa yakin bahwa menggeser komponen rasio sebenarnya mereproduksi nol?
Xavier Bourret Sicotte

Jawaban:

3

Seperti yang dikatakan @MichaelChernick sebagai tanggapan atas komentar atas jawabannya pada pertanyaan terkait :

Ada korespondensi 1-1 secara umum antara interval kepercayaan dan tes hipotesis. Misalnya, interval kepercayaan 95% untuk parameter model mewakili wilayah non-penolakan untuk uji hipotesis level 5% terkait dengan nilai parameter itu. Tidak ada persyaratan tentang bentuk distribusi populasi. Tentunya jika itu berlaku untuk interval kepercayaan secara umum itu akan berlaku untuk interval kepercayaan bootstrap.

Jadi jawaban ini akan membahas dua masalah terkait: (1) mengapa presentasi hasil bootstrap tampaknya lebih sering untuk menentukan interval kepercayaan (CI) daripada nilai p , seperti yang disarankan dalam pertanyaan, dan (2) kapan kedua nilai- p mungkin dan CI yang ditentukan oleh bootstrap diduga tidak dapat diandalkan sehingga membutuhkan pendekatan alternatif.

Saya tidak tahu data yang secara khusus mendukung klaim dalam pertanyaan ini pada masalah pertama. Mungkin dalam praktiknya banyak estimasi titik yang diturunkan dari bootstrap (atau setidaknya tampaknya) sejauh ini dari batas keputusan pengujian sehingga hanya ada sedikit minat pada nilai- p dari hipotesis nol yang sesuai, dengan minat utama pada estimasi titik itu sendiri dan dalam beberapa ukuran yang masuk akal dari besarnya kemungkinan variabilitasnya.

Sehubungan dengan masalah kedua, banyak aplikasi praktis melibatkan "distribusi statistik uji simetris, statistik uji penting, penerapan CLT, tidak ada atau beberapa parameter gangguan, dll" (seperti dalam komentar oleh @XavierBourretSicotte di atas), yang hanya memiliki sedikit kesulitan. Pertanyaannya kemudian menjadi bagaimana mendeteksi potensi penyimpangan dari kondisi ini dan bagaimana mengatasinya ketika mereka muncul.

Penyimpangan potensial dari perilaku ideal ini telah dihargai selama beberapa dekade, dengan beberapa pendekatan CI bootstrap yang dikembangkan sejak awal untuk menghadapinya. Bootstrap yang Studentized membantu menyediakan statistik yang sangat penting , dan metode BCa menangani bias dan kecenderungan dalam hal mendapatkan CI yang lebih andal dari bootstraps. Transformasi menstabilkan data sebelum menentukan CI bootstrap, diikuti oleh transformasi balik ke skala asli, juga dapat membantu.

Contoh dalam pertanyaan ini tentang pengambilan sampel dari 14 kepala dari 20 lemparan dari koin yang adil ditangani dengan baik dengan menggunakan CI dari metode BCa; dalam R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Perkiraan CI lainnya menimbulkan masalah yang dicatat yaitu sangat dekat atau di tepi nilai populasi 10 kepala per 20 kali lemparan. Akun BCa CI untuk kemiringan (seperti yang diperkenalkan oleh pengambilan sampel binomial jauh dari peluang genap), sehingga mereka dengan baik memasukkan nilai populasi 10.

Tetapi Anda harus mencari penyimpangan seperti itu dari perilaku ideal sebelum Anda dapat memanfaatkan solusi ini. Seperti dalam banyak praktik statistik, sebenarnya melihat data daripada hanya memasukkannya ke dalam algoritma bisa menjadi kuncinya. Sebagai contoh, pertanyaan ini tentang CI untuk hasil bootstrap yang bias menunjukkan hasil untuk 3 CI pertama yang ditunjukkan dalam kode di atas, tetapi mengecualikan BCa CI. Ketika saya mencoba mereproduksi analisis yang ditunjukkan dalam pertanyaan itu untuk memasukkan BCa CI, saya mendapatkan hasilnya:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

di mana 'w' terlibat dalam koreksi bias. Statistik yang diperiksa memiliki nilai maksimum tetap dan estimasi plug-in yang di-bootstrap juga secara inheren bias. Mendapatkan hasil seperti itu harus menunjukkan bahwa asumsi biasa yang mendasari CI bootstrap sedang dilanggar.

Menganalisis kuantitas penting menghindari masalah seperti itu; meskipun distribusi empiris tidak dapat memiliki statistik yang sangat penting, mendekati sedekat mungkin adalah tujuan penting. Beberapa paragraf terakhir dari jawaban ini memberikan tautan ke bantuan lebih lanjut, seperti plot pivot untuk memperkirakan melalui bootstrap apakah statistik (berpotensi setelah beberapa transformasi data) dekat dengan penting, dan bootstrap ganda yang secara komputasi mahal tetapi berpotensi menentukan.

EdM
sumber
Terima kasih, edm! Jika ada rekasi 1-1 antara CI dan uji hipotesis- lalu mengapa pengujian bootstrap biasanya melibatkan pengalihan dataset untuk mereproduksi nol? Dengan melakukan itu bukankah kita mendapatkan hasil yang berbeda dari apa yang akan kita dapatkan dengan menghitung CI dari distribusi perbedaan misalnya?
Xavier Bourret Sicotte
@ XavierBourretSicotte Saya tidak berpikir itu benar bahwa "pengujian bootstrap biasanya melibatkan pengalihan dataset untuk mereproduksi nol." Setiap sampel bootstrap merupakan upaya untuk mereplikasi pengambilan sampel / eksperimen asli, menggunakan sampel yang ada untuk mewakili populasi yang mendasarinya. Namun, jika statistik yang dimaksud tidak penting, maka CI yang dikembangkan pada sampel yang di-boot tidak akan mewakili CI yang dikembangkan pada populasi yang mendasarinya. Jadi, Anda perlu mengoreksi distribusi statistik ke arah nol, dengan BCa atau pendekatan lain.
EdM