Sementara secara formal menurunkan interval kepercayaan dari estimasi, saya berakhir dengan formula yang sangat mirip dengan cara -value dihitung.
Jadi pertanyaannya: apakah mereka secara formal setara? Yaitu menolak hipotesis dengan nilai kritis setara dengan tidak termasuk dalam interval kepercayaan dengan nilai kritis ?
hypothesis-testing
confidence-interval
p-value
Jorge Leitao
sumber
sumber
Jawaban:
Iya dan tidak.
Pertama "ya"
Apa yang Anda amati adalah bahwa ketika tes dan interval kepercayaan didasarkan pada statistik yang sama, ada kesetaraan di antara mereka: kita dapat menafsirkan nilai- sebagai nilai terkecil dari α yang nilai nol parameter akan dimasukkan dalam interval kepercayaan 1 - α .p α 1−α
Biarkan menjadi parameter yang tidak diketahui dalam ruang parameter Θ ⊆ R , dan biarkan sampel x = ( x 1 , ... , x n ) ∈ X n ⊆ R n menjadi realisasi dari variabel acak X = ( X 1 , ... , X n ) . Untuk kesederhanaan, menentukan interval kepercayaan saya α ( X ) sebagai random selang sehingga yang cakupan probabilitas P θθ Θ⊆R x=(x1,…,xn)∈Xn⊆Rn X=(X1,…,Xn) Iα(X)
(Anda juga bisa mempertimbangkan interval yang lebih umum, di mana probabilitas cakupan dibatasi oleh atau kira-kira sama dengan 1 - α . Alasannya analog.)
Pertimbangkan uji dua sisi dari hipotesis titik-nol terhadap alternatif H 1 ( θ 0 ) : θ ≠ θ 0 . Misalkan λ ( θ 0 , x ) menunjukkan nilai p dari tes. Untuk α ∈ ( 0 , 1 ) , H 0 ( θ 0 ) ditolak pada level α jikaH0(θ0):θ=θ0 H1(θ0):θ≠θ0 λ(θ0,x) α∈(0,1) H0(θ0) α . Level α rejection regionadalah himpunan x yang mengarah pada penolakan H 0 ( θ 0 ) :
R α ( θ 0 ) = { x ∈ R n : λ ( θ 0 , x ) ≤ α } .λ(θ0,x)≤α α x H0(θ0)
Sekarang, pertimbangkan keluarga tes dua sisi dengan nilai-p , untuk θ ∈ Θ . Untuk keluarga seperti itu, kita dapat mendefinisikan daerah penolakan terbalik Q α ( x ) = { θ ∈ Θ : λ ( θ , x ) ≤ α } .λ(θ,x) θ∈Θ
Untuk sembarang , H 0 ( θ 0 ) ditolak jika x ∈ R α ( θ 0 ) , yang terjadi jika dan hanya jika θ 0 ∈ Q α ( x ) , yaitu, x ∈ R α ( θ 0 ) ⇔ θ 0 ∈ Q α ( x ) . Jika tes didasarkan pada statistik uji dengan distribusi nol mutlak benar-benar benar-benar ditentukan, makaθ0 H0(θ0) x∈Rα(θ0) θ0∈Qα(x)
(Banyak dari ini diambil dari tesis PhD saya .)
Sekarang untuk "tidak"
Fenomena ini berkaitan dengan masalah yang terkait dengan interval seperti itu yang tidak disarangkan, yang berarti bahwa interval 94% bisa lebih pendek dari interval 95%. Untuk lebih lanjut tentang ini, lihat Bagian 2.5 dari makalah saya terbaru ini (untuk muncul di Bernoulli).
Dan yang kedua "tidak"
Dan terkadang "ya" bukanlah hal yang baik
Seperti yang ditunjukkan oleh f coppens dalam komentar, terkadang interval dan tes memiliki tujuan yang agak bertentangan. Kami ingin interval pendek dan tes dengan daya tinggi, tetapi interval terpendek tidak selalu sesuai dengan tes dengan daya tertinggi. Untuk beberapa contohnya, lihat makalah ini (distribusi normal multivariat), atau ini (distribusi eksponensial), atau Bagian 4 dari tesis saya .
Bayesians juga bisa mengatakan ya dan tidak
Beberapa tahun yang lalu, saya memposting pertanyaan di sini tentang apakah uji-interval-kesetaraan ada juga dalam statistik Bayesian. Jawaban singkatnya adalah bahwa dengan menggunakan pengujian hipotesis Bayesian standar, jawabannya adalah "tidak". Dengan sedikit merumuskan ulang masalah pengujian, jawabannya bisa "ya". (Upaya saya menjawab pertanyaan saya sendiri akhirnya berubah menjadi kertas !)
sumber
Ketika melihat parameter tunggal, ada kemungkinan bahwa tes tentang nilai parameter dan interval kepercayaan "ketidakcocokan" tergantung pada bagaimana mereka dibangun. Secara khusus, tes hipotesis adalah levelα -test, jika menolak hipotesis nol proporsi ≤ α saat hipotesis nol itu benar. Untuk alasan itu seseorang dapat mis menggunakan estimasi parameter model (misalnya varians) yang hanya valid di bawah hipotesis nol. Jika seseorang kemudian mencoba untuk membangun CI dengan membalikkan tes ini, cakupan mungkin tidak tepat di bawah hipotesis alternatif. Karena alasan itu, orang biasanya membuat interval kepercayaan secara berbeda sehingga cakupannya juga tepat di bawah alternatif, yang kemudian dapat menyebabkan ketidakcocokan (biasanya sangat kecil).
sumber