Ketidaksepakatan antara nilai-p dan interval kepercayaan

8

Ini adalah pertanyaan tentang uji-t di SPSS.

Saya memiliki dua kelompok dan saya ingin menguji apakah kedua cara itu sama. Saya menggunakan uji-t dengan bootstrap. Pada akhirnya saya mendapat nilai-p <0,005, yang umumnya akan menyebabkan saya menolak hipotesis nol bahwa rata-rata dari dua populasi sama tetapi dalam kasus saya nol berada dalam interval kepercayaan bootstrap 95% BCa bootstrap berdasarkan 1000 sampel .

Apakah saya masih menolak hipotesis yang berarti sama?

Liza Vieira
sumber
1
Untuk memperjelas, apakah Anda melakukan t-test bootstrap dari mana Anda sekarang membandingkan nilai p dan 95% CI, atau apakah Anda menjalankan t-test standar (bukan bootstrap) untuk mendapatkan nilai-p dan hanya menggunakan bootstrap untuk CI?
Rose Hartman

Jawaban:

7

Peringatan: Jawaban ini mengasumsikan bahwa pertanyaannya adalah tentang menafsirkan nilai-p dan CI yang di-bootstrap. Perbandingan antara nilai-p tradisional (tidak bootstrap) dan CI bootstrap akan menjadi masalah yang berbeda.

Dengan uji-t tradisional (bukan bootstrap), CI 95% dan posisi nilai-p relatif terhadap batas 0,05 untuk signifikansi akan selalu memberi tahu Anda hal yang sama. Itu karena keduanya didasarkan pada informasi yang sama: distribusi t untuk derajat kebebasan Anda dan kesalahan rata-rata dan standar yang diamati dalam sampel Anda (atau perbedaan antara rata-rata dan kesalahan standar, dalam kasus t-sampel dua sampel). uji). Jika CI Anda tidak tumpang tindih dengan 0, maka nilai-p Anda harus <0,05 --- kecuali, tentu saja, ada bug dalam perangkat lunak atau kesalahan pengguna dalam implementasi atau interpretasi tes.

Dengan uji-t bootstrap, nilai CI dan p keduanya dihitung langsung dari distribusi empiris yang dihasilkan oleh bootstrap: nilai p adalah berapa persen perbedaan kelompok bootstrap yang lebih ekstrem daripada perbedaan yang diamati semula; 95% CI adalah 95% tengah perbedaan kelompok bootstrap. Bukan tidak mungkin nilai-p dan CI tidak setuju tentang signifikansi dalam tes bootstrap.

Apakah Anda menerima atau menolak hipotesis nol?

Dalam konteks tes bootstrap, nilai-p (dibandingkan dengan CI) lebih langsung mencerminkan semangat uji hipotesis, sehingga paling masuk akal untuk mengandalkan nilai itu untuk memutuskan apakah akan menolak nol atau tidak pada alpha yang Anda inginkan (umumnya .05). Jadi dalam kasus Anda, di mana nilai p kurang dari 0,05 tetapi CI 95% mengandung nol, saya sarankan menolak hipotesis nol .

Semua ini melompati ide-ide besar tentang betapa pentingnya "signifikansi" seharusnya dan apakah pengujian hipotesis nol atau tidak benar-benar berguna dari suatu alat. Secara singkat, saya selalu merekomendasikan memuji setiap analisis pengujian signifikansi dengan estimasi ukuran efek (untuk uji dua sampel, estimasi ukuran efek terbaik mungkin adalah Cohen d ), yang dapat memberikan beberapa konteks tambahan untuk membantu Anda memahami hasil Anda.

Posting bermanfaat terkait: Apa arti dari interval kepercayaan yang diambil dari contoh bootstrap?

Rose Hartman
sumber
1
Ini adalah jawaban yang bagus (+1), tetapi beberapa saran tentang bagaimana OP mendekati apakah ia menerima atau menolak Null akan melengkapi jawaban untuk pertanyaan terakhir OP.
Ashe
@ Terima kasih! Anda benar bahwa saya tidak membahas pertanyaan utama secara langsung. Saya akan mengedit untuk memperbaikinya.
Rose Hartman
"untuk uji-t dua sampel, perkiraan ukuran efek terbaik mungkin adalah Cohen d" Apakah ini khusus untuk bootstrap? Karena saya akan berpikir untuk uji-t normal, interval kepercayaan memberi Anda informasi terbaik tentang ukuran efek pada skala aktual yang Anda uji.
David Ernst
Cohen d adalah untuk perbedaan dua kelompok; bootstrap atau tidak tidak relevan. CI umumnya tidak dianggap sebagai perkiraan "efek ukuran" karena mereka tergantung pada ukuran sampel (mis. En.wikipedia.org/wiki/… : "Tidak seperti statistik uji-t, ukuran efek bertujuan untuk memperkirakan parameter populasi dan tidak terpengaruh oleh ukuran sampel. ") Mungkin yang Anda ingin tanyakan adalah perkiraan ukuran efek standar dan tidak standar? Ukuran efek yang tidak standar untuk dua kelompok hanyalah perbedaan baku antara rata-rata.
Rose Hartman
Terimakasih banyak! Penjelasan Anda tentang nilai-p dan CI dalam konteks uji-t bootstrap sangat berguna. Seperti yang Anda sarankan, saya menentukan Cohen d, statistik yang sangat membantu dalam memahami hasil saya.
Liza Vieira
0

Jika nilai p dari hipotesis nol lebih kecil dari 0,05, maka nol tidak boleh terkandung dalam interval kepercayaan pada 0,05 dari parameter yang Anda anggap nol dalam hipotesis nol. Ini adalah hal yang sama. Jadi ada bug atau Anda tidak menguji hipotesis yang sama.

EDIT , seperti yang ditunjukkan oleh jawaban lain dan komentar di bawah ini, ini bukan cerita lengkap. Namun, saya masih berpikir bahwa jika satu tes menunjukkan kelompok memiliki rata-rata yang berbeda (p <0,005), dan yang lainnya tidak menolak (p> 0,05), mungkin tes tersebut benar-benar memeriksa hal yang berbeda.

Sementara secara teoritis perbedaan ini bisa disebabkan oleh asimptotik (bootstraps adalah perkiraan pada sampel hingga, tes lain adalah perkiraan berdasarkan asumsi normalitas), perbedaannya sangat besar. Saya berpendapat ini sangat besar, dan tanpa mencari tahu apa yang terjadi dengan itu, Anda belum bisa menarik kesimpulan. Omong-omong, apa yang Anda lakukan, dengan cara memposting pertanyaan di sini. Mungkin Anda bisa berbagi angka dan membuat pertanyaan menarik ini sedikit lebih konkret.

Gijs
sumber
2
Saya tidak setuju. Interval kepercayaan bootstrap mungkin tidak mengikuti hasil uji-t, karena ini merupakan jenis prosedur yang berbeda sama sekali (dalam hal ini didasarkan pada perbedaan rata-rata kelompok). Terutama ketika interval kepercayaan bootstrap yang dikoreksi dan dipercepat dibuat, hal-hal seperti interval kepercayaan asimetris di sekitar perkiraan awal (yaitu perbedaan cara kelompok dalam kasus ini) dapat terjadi.
IWS