Saya punya dua sampel yang sangat kecil ( untuk masing-masing) dan saya mendapatkan dua sampel uji-t untuk mereka 0,49, yang relatif kecil (dihitung dengan R ). Namun, uji-t Welch Two Sample memberikan nilai-p sini, sehingga hipotesis nol dapat ditolak.power.t.test()
Sekarang haruskah saya khawatir bahwa kekuatannya kecil?
Pemahaman saya adalah bahwa kekuatan = mana adalah probabilitas kesalahan Tipe II. Ini berarti bahwa pengujian saya akan gagal untuk menolak H0 di sekitar 50% dari kasus ketika harus ditolak, jadi saya harus khawatir terutama ketika sampel khusus saya tidak dapat menolak H0. Tetapi dalam kasus sampel khusus saya tampaknya saya beruntung dan uji-t agak kurang berhasil berhasil menolak, jadi saya tidak perlu peduli dengan beta dan saya bisa menikmati dapat menunjukkan perbedaan yang signifikan dalam sampel cara.
Apakah interpretasi saya benar? Atau apakah saya melewatkan sesuatu yang penting?
Jawaban:
Dalam arti sempit, Anda benar. Kekuasaan adalah kesempatan untuk menolak hipotesis nol palsu yang salah, sehingga Anda memiliki peluang kecil tetapi tetap bisa melakukannya.
Namun, dari perspektif pembaruan keyakinan bayesian, "mengurangi kekuatan menyiratkan mengurangi pergeseran kepercayaan yang dijamin dari mengamati hasil yang signifikan secara statistik (McClelland et al. 2015)." Pikirkan seperti ini: jika saya katakan kepada Anda saya mensurvei 30.000 orang dari masyarakat umum dan menemukan bahwa, berlawanan dengan angka penjualan, orang cenderung lebih menyukai Pepsi daripada Coke, itu akan sangat menarik. Saya menemukan hasil setelah mempelajari 1% dari populasi (yaitu masyarakat umum AS). Kemungkinan untuk menggeneralisasi ke populasi yang lebih besar. Jika saya mensurvei 7 orang dan menemukan hal yang sama, meskipun secara statistik signifikan, saya tidak akan meyakinkan siapa pun. Anda bisa berdebat banyak alasan untuk itu (Anda tidak bisa mendapatkan sampel yang representatif, asumsi ANOVA / regresi mungkin tidak terpenuhi, dll.), Tetapi apa Yang penting adalah bahwa kekuatan tinggi berarti sangat persuasif (dan Anda harus menjadi kritis atau lebih dari hasil Anda seperti yang Anda coba meyakinkan). Untuk matematika Bayesian serta penjelasan lebih lanjut, Anda dapat memeriksa salah satu dari yang berikut.
Selain itu, Ioannidis (2005) memberikan beberapa argumen kuat untuk hasil daya rendah yang mencerminkan kesalahan tipe I bahkan tanpa adanya peretasan dan bias lain yang sering diakibatkan oleh daya rendah (dan makalah ini adalah akses terbuka jika Anda tidak bekerja untuk universitas atau yang serupa!).
sumber
Itu tergantung pada bagaimana analisis daya dilakukan. Secara umum, ada hubungan antara empat variabel (alfa, kekuatan, ukuran efek, danN ) sehingga jika Anda menetapkan tiga, Anda dapat menyelesaikan untuk yang keempat.
Biasanya, ketika orang menjalankan analisis daya setelah menganalisis data mereka, mereka melakukan analisis daya post-hoc (maka namanya), yang berarti mereka memasukkan nilai alpha, ukuran efek yang diamati, danN , untuk memecahkan kekuasaan. Anda tentu tidak harus melakukannya dengan cara itu (Anda bisa melakukannya sebelumnya dengan ukuran efek yang disarankan secara teoritis danN Anda tahu akan tersedia untuk Anda), tetapi jika Anda melakukannya, hasilnya sebagian besar hilang. Secara khusus, jika hasil Anda signifikan, kekuatannya akan>50% , dan jika hasil Anda tidak signifikan, kekuatannya akan <50% .
Tampaknya itu bukan apa yang Anda temukan. Satu kemungkinan adalah bahwa ada perbedaan kecil antara metode yang digunakan dalam pengujian Anda dan yang ada dalam analisis daya. Ini disarankan oleh fakta bahwa Anda mengamatip -nilai dekat .05 dan kekuatan komputer Anda sudah dekat 50% , meskipun mereka berada di sisi garis yang berbeda. Kemungkinan lain adalah Anda menggunakan ukuran efek yang sedikit berbeda dari yang Anda temukan.
Jadi, "haruskah [itu] mengganggu [Anda] bahwa kekuatannya kecil?" Iya dan tidak. Jika Anda melakukan analisis kekuatan post-hoc tradisional (tidak valid), Anda tentu akan mendapatkan nilai seperti itu — latihan itu sama sekali tidak informatif. Di sisi lain, jika kita menganggap serius analisis daya, efek signifikan dengan pengaturan berdaya rendah pada dasarnya berarti bahwa efek yang Anda amati harus menjadi bias lebih besar daripada yang sebenarnya, sehingga Anda harus kurang mempercayai hasilnya.
sumber
Menunjukkanp itu p -nilai tes Anda (sebagai variabel acak) dan perbaiki beberapa α . Sebut hasil tes signifikan atau positif kapanp≤α . Kita punyaP(p≤α|H0)≤α . Apalagi, mariβ menjadi seperti itu P(p>α|H1)≤β . Kemudian1−β adalah kekuatan ujian.
MengobatiH0 dan H1 sebagai peristiwa (komplementer), teorema Bayes memberikan:
Untuk ilustrasi lebih lanjut, lihat interval kepercayaan diri (CI). Orang mungkin berpendapat bahwa ukuran sampel yang lebih besar akan membuat CI lebih sempit dan dengan demikian, jika tes signifikan untuk sampel yang lebih kecil, itu juga akan signifikan untuk sampel yang lebih besar. Namun, juga lokasi CI dapat bergeser ketika kami memasukkan lebih banyak data dalam sampel kami, berpotensi menjadikan hasilnya tidak signifikan. Dapat dibayangkan bahwa sampel yang lebih besar akan memiliki kesalahan standar yang jauh lebih besar dan dengan demikian CI akan menjadi lebih luas sebenarnya. Orang bisa mengatakan bahwa ukuran sampel yang lebih besar memberi fakta lebih banyak peluang untuk membuktikan diri.
Ada beberapa diskusi menarik akhir-akhir ini tentang interpretasip -nilai, lihat, misalnya:
[1] Colquhoun, "Penyelidikan tingkat penemuan palsu dan salah tafsir nilai-p", Royal Society Open Science, 2014
[2] Colquhoun, "Reprodusibilitas Penelitian dan Misinterpretasi Nilai P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337
[3] "Apa yang akan dikatakan Cohen? Komentar tentangp<.005 ", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/
Mengenai hasil khusus Anda, saya tidak memenuhi syarat untuk menilai itu. Hanya menggunakanp -nilai dan klasifikasi dari [2], itu adalah antara "bukti lemah: layak dilihat lagi" dan "bukti moderat untuk efek nyata".
sumber