Mengapa menjalankan tes split hingga signifikan secara statistik merupakan "hal buruk"? (Atau itu?)

Ini adalah fenomena "dua terbaik dari tiga". Anda tahu leluconnya:

"Mari kita membalikkannya."

"Oke, pergi!"

"Ups, aku kalah. Bagaimana kalau membalik dua kali lagi, dengan pemenang menjadi yang terbaik dari total tiga kali?"

Pengujian signifikan persis seperti membalik koin (tetapi biasanya dengan koin bias). Jika Anda menjalankan tes singkat dan tidak signifikan, mungkin Anda dapat mencapai signifikansi (sebagian melalui keberuntungan) dengan memperpanjang pengujian.

Kebalikan dari ini (saya tergoda untuk mengatakan "sisi lain" dari ini :-)) adalah bahwa jika Anda berencana untuk melakukan sejumlah tes dan kebetulan melihat hasil "signifikan" lebih awal, itu juga tidak dispositif. Ini analog dengan kebalikan dari kontes pertama kami:

"Ayo kita balik. Dua dari tiga yang terbaik?"

"Oke, pergi!"

"Ha, aku memenangkan flip pertama, jadi aku menang!"

Karena itu, perhatikan bahwa ada versi pengujian yang memungkinkan Anda untuk memantau signifikansi (nominal) saat Anda melanjutkan. Ini bekerja seperti mengakhiri kontes lebih awal ketika terlalu sepihak, yang disebut aturan belas kasihan . Jika, pada awalnya, menjadi sangat jelas bahwa perbedaan itu nyata, Anda dapat menghemat waktu dan usaha dengan mengakhiri pengujian. Ini disebut prosedur pengujian hipotesis sekuensial . Sebuah kasus yang baik dapat dibuat bahwa ini harus menjadi cara standar Anda melakukan tes AB, karena dalam jangka panjang Anda akan menghabiskan lebih sedikit waktu dan upaya secara keseluruhan.

whuber
sumber

Mengapa menjalankan tes split hingga signifikan secara statistik merupakan "hal buruk"? (Atau itu?)

Jawaban: