Suatu hari webinar oleh perusahaan pengujian a / b telah meminta penduduk mereka "Data Scientist" menjelaskan bahwa Anda harus memvalidasi hasil Anda dengan menjalankan kembali percobaan. Premisnya adalah, jika Anda memilih kepercayaan 95%, ada kemungkinan 5% (1/20) dari false positive. Jika Anda menjalankan kembali percobaan dengan kendala yang sama, sekarang ada 1/400 (Saya berasumsi mereka menentukan ini sebagai 0,05 ^ 2 = 1/400)
Apakah ini pernyataan yang valid? (yaitu, "jalankan dua kali, dua kemenangan signifikansi statistik = 1/400 probabilitas positif palsu")? Apakah ini akan menjadi pendekatan yang lebih baik untuk meningkatkan level signifikansi Anda?
Dari sudut pandang bisnis, kekhawatiran yang saya miliki adalah dengan menjalankan kembali eksperimen, Anda mengekspos lebih banyak pengguna ke halaman yang lebih rendah (pengobatan), dan dengan demikian kehilangan potensi penjualan.
Jawaban:
Mengabaikan probabilitas false positive untuk saat ini, saya akan melihatnya seperti ini:
Dalam kedua kasus, Anda harus menjalankan percobaan ketiga, hanya untuk memastikan. Ini mungkin bagus untuk eksperimen yang relatif murah, tetapi di mana biayanya berpotensi tinggi (seperti kehilangan pelanggan) Anda benar-benar perlu mempertimbangkan manfaatnya.
Melihat probabilitas, pertama kali Anda menjalankan percobaan, ada peluang 1/20 dari hasil positif palsu. Saat kedua Anda menjalankan percobaan, masih ada peluang 1/20 dari hasil positif palsu (anggap itu sebagai menggulung dadu di mana setiap gulungan memiliki 1/6 peluang untuk mendapatkan nomor tertentu). Hanya ada 1/400 kemungkinan memiliki dua kesalahan positif berturut-turut.
Masalah sebenarnya adalah memiliki hipotesis yang terdefinisi dengan baik dengan prosedur yang ketat, dan memiliki ukuran sampel, tingkat kesalahan, dan interval kepercayaan yang dapat Anda jalani atau mampu. Pengulangan percobaan harus diserahkan kepada penjelajahan
alih-alih hasil tebakan kedua. Meskipun menjelaskan hal ini kepada manajer lebih mudah diucapkan daripada dilakukan.
sumber
Ya pernyataan itu benar, dengan asumsi eksperimen Anda ideal. Tetapi mendapatkan eksperimen yang ideal jauh lebih sulit daripada kepercayaan ini. Data "dunia nyata" berantakan, rumit, dan sulit ditafsirkan sejak awal. Ada ruang yang luar biasa untuk analisis cacat, variabel tersembunyi (sangat jarang ada "kendala yang sama"), atau miskomunikasi antara ilmuwan data yang melakukan pekerjaan mereka dan eksekutif yang melakukan tugas mereka.
Dari sudut pandang bisnis, pastikan metodologi yang baik dan tidak terlalu percaya diri dalam hasil; tantangan yang lebih sulit dari yang Anda kira. Setelah Anda menurunkannya, maka kerjakan 5% itu.
sumber