Haruskah saya khawatir bahwa daya uji-t relatif kecil ketika H0 sudah ditolak?

8

Saya punya dua sampel yang sangat kecil ( untuk masing-masing) dan saya mendapatkan dua sampel uji-t untuk mereka 0,49, yang relatif kecil (dihitung dengan R ). Namun, uji-t Welch Two Sample memberikan nilai-p sini, sehingga hipotesis nol dapat ditolak.n=7power.t.test()0.032

Sekarang haruskah saya khawatir bahwa kekuatannya kecil?

Pemahaman saya adalah bahwa kekuatan = mana adalah probabilitas kesalahan Tipe II. Ini berarti bahwa pengujian saya akan gagal untuk menolak H0 di sekitar 50% dari kasus ketika harus ditolak, jadi saya harus khawatir terutama ketika sampel khusus saya tidak dapat menolak H0. Tetapi dalam kasus sampel khusus saya tampaknya saya beruntung dan uji-t agak kurang berhasil berhasil menolak, jadi saya tidak perlu peduli dengan beta dan saya bisa menikmati dapat menunjukkan perbedaan yang signifikan dalam sampel cara.1ββ

Apakah interpretasi saya benar? Atau apakah saya melewatkan sesuatu yang penting?

jrx1301
sumber
2
Kekuatan adalah sesuatu yang harus Anda hitung sebelum merancang percobaan, untuk memilih skala percobaan yang diperlukan untuk mendeteksi perbedaan besarnya tertentu. Tidak ada gunanya menghitung setelah itu.
EdM
Anda menolak karena satu dari dua alasan; null Anda salah atau Anda membuat kesalahan tipe I. Jika nol memiliki beberapa peluang untuk benar, maka semakin rendah kekuatan Anda, semakin tinggi peluang Anda untuk membuat kesalahan tipe I. Namun, jika Anda menghitung kekuatan berdasarkan ukuran efek yang diamati , hati-hati, Anda harus sangat berhati-hati dalam mengerjakannya; itu tidak berperilaku seperti yang Anda harapkan.
Glen_b -Reinstate Monica

Jawaban:

5

Dalam arti sempit, Anda benar. Kekuasaan adalah kesempatan untuk menolak hipotesis nol palsu yang salah, sehingga Anda memiliki peluang kecil tetapi tetap bisa melakukannya.

Namun, dari perspektif pembaruan keyakinan bayesian, "mengurangi kekuatan menyiratkan mengurangi pergeseran kepercayaan yang dijamin dari mengamati hasil yang signifikan secara statistik (McClelland et al. 2015)." Pikirkan seperti ini: jika saya katakan kepada Anda saya mensurvei 30.000 orang dari masyarakat umum dan menemukan bahwa, berlawanan dengan angka penjualan, orang cenderung lebih menyukai Pepsi daripada Coke, itu akan sangat menarik. Saya menemukan hasil setelah mempelajari 1% dari populasi (yaitu masyarakat umum AS). Kemungkinan untuk menggeneralisasi ke populasi yang lebih besar. Jika saya mensurvei 7 orang dan menemukan hal yang sama, meskipun secara statistik signifikan, saya tidak akan meyakinkan siapa pun. Anda bisa berdebat banyak alasan untuk itu (Anda tidak bisa mendapatkan sampel yang representatif, asumsi ANOVA / regresi mungkin tidak terpenuhi, dll.), Tetapi apa Yang penting adalah bahwa kekuatan tinggi berarti sangat persuasif (dan Anda harus menjadi kritis atau lebih dari hasil Anda seperti yang Anda coba meyakinkan). Untuk matematika Bayesian serta penjelasan lebih lanjut, Anda dapat memeriksa salah satu dari yang berikut.

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

Selain itu, Ioannidis (2005) memberikan beberapa argumen kuat untuk hasil daya rendah yang mencerminkan kesalahan tipe I bahkan tanpa adanya peretasan dan bias lain yang sering diakibatkan oleh daya rendah (dan makalah ini adalah akses terbuka jika Anda tidak bekerja untuk universitas atau yang serupa!).

le_andrew
sumber
Terima kasih banyak atas jawaban Anda! Saya pasti akan memeriksa McClelland dan Ioannidis (saya tahu ini makalah yang cukup populer). Contoh Anda dengan survei Pepsi-Coke benar-benar masuk akal, jadi saya hanya mencoba menggambar paralel dengan situasi saya: sampel saya terkait dengan jumlah kekambuhan pasien skizofrenia dalam populasi yang diamati selama 7 tahun dalam dua bulan yang dibandingkan ( mis. Januari vs. Juli). Jadi tidak ada kesempatan untuk meningkatkan protokol eksperimental, seperti mendekati lebih banyak orang. Saya hanya ingin tahu apakah saya sudah bisa mengatakan sesuatu dari data yang sudah saya miliki.
jrx1301
1
Anda pasti bisa. Masalahnya adalah dengan interpretasi, bukan statistik. Beberapa orang akan mengambil hasil Anda dan menyimpulkan, "Saya telah mengatasi skizofrenia!" atau kurang dramatis, "Saya memiliki hasil yang signifikan, oleh karena itu teori saya benar dan berlaku untuk semua orang!" Anda mungkin memiliki bukti yang mendukung suatu teori, tetapi seberapa umum hal itu dapat dipertanyakan. Pertimbangkan hal-hal seperti populasi aktual yang Anda sampel dari, yaitu Anda sebenarnya tidak mengambil sampel dari populasi "pasien skizofrenia" tetapi dari sub-populasi yang lebih kecil. Generalisasi ke pop'n yang lebih besar membutuhkan argumen ekstra-statistik.
le_andrew
Jika Anda mensurvei n = 30.000 orang tetapi hanya mendapat p = 0,032 (seperti dalam OP) untuk perbedaan Pepsi / Coke, saya tidak melihat mengapa ini lebih meyakinkan daripada mendapatkan nilai p yang sama dengan hanya segelintir orang. Setiap ukuran efek yang berarti dengan n = 30.000 harus menghasilkan nilai p kecil, jadi p = 0,032 menunjukkan ukuran efek mikroskopis yang IMHO saya tidak akan mau percaya.
amoeba
Anda menyatakan "Kekuatan adalah peluang untuk menolak hipotesis nol palsu dengan benar." dan Anda melanjutkan '' ... jadi Anda punya peluang kecil tetapi tetap bisa melakukannya '' dan untuk yang terakhir saya ragu karena bagian '' hipotesis nol palsu '' hilang. Kekuasaan adalah probabilitas untuk ditolakH0 kapan H0 itu salah dan bagian kedua dari pernyataan Anda hanya terkait dengan penolakan H0.
2

Itu tergantung pada bagaimana analisis daya dilakukan. Secara umum, ada hubungan antara empat variabel (alfa, kekuatan, ukuran efek, danN) sehingga jika Anda menetapkan tiga, Anda dapat menyelesaikan untuk yang keempat.

Biasanya, ketika orang menjalankan analisis daya setelah menganalisis data mereka, mereka melakukan analisis daya post-hoc (maka namanya), yang berarti mereka memasukkan nilai alpha, ukuran efek yang diamati, danN, untuk memecahkan kekuasaan. Anda tentu tidak harus melakukannya dengan cara itu (Anda bisa melakukannya sebelumnya dengan ukuran efek yang disarankan secara teoritis danNAnda tahu akan tersedia untuk Anda), tetapi jika Anda melakukannya, hasilnya sebagian besar hilang. Secara khusus, jika hasil Anda signifikan, kekuatannya akan>50%, dan jika hasil Anda tidak signifikan, kekuatannya akan <50%.

Tampaknya itu bukan apa yang Anda temukan. Satu kemungkinan adalah bahwa ada perbedaan kecil antara metode yang digunakan dalam pengujian Anda dan yang ada dalam analisis daya. Ini disarankan oleh fakta bahwa Anda mengamatip-nilai dekat .05 dan kekuatan komputer Anda sudah dekat 50%, meskipun mereka berada di sisi garis yang berbeda. Kemungkinan lain adalah Anda menggunakan ukuran efek yang sedikit berbeda dari yang Anda temukan.

Jadi, "haruskah [itu] mengganggu [Anda] bahwa kekuatannya kecil?" Iya dan tidak. Jika Anda melakukan analisis kekuatan post-hoc tradisional (tidak valid), Anda tentu akan mendapatkan nilai seperti itu — latihan itu sama sekali tidak informatif. Di sisi lain, jika kita menganggap serius analisis daya, efek signifikan dengan pengaturan berdaya rendah pada dasarnya berarti bahwa efek yang Anda amati harus menjadi bias lebih besar daripada yang sebenarnya, sehingga Anda harus kurang mempercayai hasilnya.

gung - Pasang kembali Monica
sumber
Pos yang bagus! Jika Anda tidak sadar. Ada posting tindak lanjut ke salah satu jawaban Anda sebelumnya di sini stats.stackexchange.com/questions/309745/…
A Bit Too Curious
-1

Menunjukkan p itu p-nilai tes Anda (sebagai variabel acak) dan perbaiki beberapa α. Sebut hasil tes signifikan atau positif kapanpα. Kita punyaP(pα|H0)α. Apalagi, mariβ menjadi seperti itu P(p>α|H1)β. Kemudian1β adalah kekuatan ujian.

Mengobati H0 dan H1 sebagai peristiwa (komplementer), teorema Bayes memberikan:

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
Ini menunjukkan bahwa peluang posting untuk H1 adalah versi berskala dari peluang sebelumnya, dengan kekuatan penskalaan yang mendukung H1 meningkat dengan 1β. Ini berarti kita belajar lebih banyak dari tes positif kapan1β besar.

Untuk ilustrasi lebih lanjut, lihat interval kepercayaan diri (CI). Orang mungkin berpendapat bahwa ukuran sampel yang lebih besar akan membuat CI lebih sempit dan dengan demikian, jika tes signifikan untuk sampel yang lebih kecil, itu juga akan signifikan untuk sampel yang lebih besar. Namun, juga lokasi CI dapat bergeser ketika kami memasukkan lebih banyak data dalam sampel kami, berpotensi menjadikan hasilnya tidak signifikan. Dapat dibayangkan bahwa sampel yang lebih besar akan memiliki kesalahan standar yang jauh lebih besar dan dengan demikian CI akan menjadi lebih luas sebenarnya. Orang bisa mengatakan bahwa ukuran sampel yang lebih besar memberi fakta lebih banyak peluang untuk membuktikan diri.

Ada beberapa diskusi menarik akhir-akhir ini tentang interpretasi p-nilai, lihat, misalnya:

[1] Colquhoun, "Penyelidikan tingkat penemuan palsu dan salah tafsir nilai-p", Royal Society Open Science, 2014

[2] Colquhoun, "Reprodusibilitas Penelitian dan Misinterpretasi Nilai P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337

[3] "Apa yang akan dikatakan Cohen? Komentar tentang p<.005", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/

Mengenai hasil khusus Anda, saya tidak memenuhi syarat untuk menilai itu. Hanya menggunakanp-nilai dan klasifikasi dari [2], itu adalah antara "bukti lemah: layak dilihat lagi" dan "bukti moderat untuk efek nyata".

Lasse Kliemann
sumber