Saya mempelajari statistik bertahun-tahun yang lalu dan telah melupakan semuanya sehingga ini mungkin tampak seperti pertanyaan konseptual umum daripada yang spesifik tetapi di sini adalah masalah saya.
Saya bekerja untuk situs web e-commerce sebagai Desainer UX. Kami memiliki kerangka kerja pengujian A / B yang dibangun bertahun-tahun lalu dan saya mulai meragukannya.
Metrik yang membuat semua keputusan kami dikenal sebagai konversi, dan didasarkan pada persentase pengguna yang mengunjungi situs, akhirnya membeli sesuatu.
Jadi kami ingin menguji mengubah warna tombol Beli dari Hijau ke Biru.
Kontrol adalah apa yang sudah kita miliki, tombol Hijau di mana kita tahu berapa tingkat konversi rata-rata kita. Percobaan ini mengganti tombol Hijau dengan tombol Biru.
Kami setuju signifikansi 95% adalah tingkat kepercayaan yang kami senangi dan kami aktifkan eksperimen, biarkan berjalan.
Ketika pengguna mengunjungi situs, di balik layar ada kemungkinan 50/50 mereka akan dikirim ke versi kontrol (tombol hijau) Vs versi percobaan (tombol biru).
Setelah melihat eksperimen setelah 7 hari, saya melihat peningkatan konversi 10,2% mendukung percobaan dengan ukuran sampel 3000 (1500 untuk kontrol, 1500 untuk percobaan) dan signifikansi statistik 99,2%. Bagus sekali menurut saya.
Percobaan berlanjut, ukuran sampel tumbuh dan kemudian saya melihat peningkatan +9% dalam konversi dengan signifikansi 98,1%. Oke, teruskan percobaan berjalan lebih lama dan sekarang percobaan hanya menunjukkan peningkatan 5% dalam konversi dengan signifikansi statistik hanya 92%, dengan kerangka kerja mengatakan bahwa saya perlu 4600 sampel lagi sebelum saya mencapai signifikansi 95%?
Pada titik apa eksperimen itu meyakinkan?
Jika saya berpikir untuk mengatakan proses uji klinis di mana Anda menyetujui ukuran sampel di muka dan menyelesaikan percobaan Anda melihat peningkatan 10% dari metrik apa pun menjadi signifikansi 99%, maka keputusan dibuat bahwa obat itu kemudian pergi ke pasar. Tetapi kemudian jika mereka melakukan percobaan pada 4000 orang dan mereka melihat peningkatan 5% dari metrik apa pun menjadi hanya 92% signifikan maka obat itu tidak akan diizinkan untuk pergi ke pasar.
Haruskah kita menyetujui ukuran sampel terlebih dahulu dan berhenti setelah ukuran sampel tercapai dan puas dengan hasilnya jika signifikansi itu 99% pada titik mematikan eksperimen?
Jawaban:
Saya pikir konsep yang Anda cari adalah analisis sekuensial. Ada sejumlah pertanyaan di situs ini yang ditandai dengan istilah yang menurut Anda berguna, mungkin Menyesuaikan nilai p untuk analisis sekuensial adaptif (untuk uji chi square)? akan menjadi tempat untuk memulai. Anda juga dapat membaca artikel Wikipedia di sini . Istilah pencarian lain yang bermanfaat adalah pembelanjaan alfa yang berasal dari fakta bahwa ketika Anda mengambil setiap tampilan berulang Anda harus menganggapnya menggunakan sebagian alpha Anda (tingkat signifikansi). Jika Anda terus mengintip data Anda tanpa memperhitungkan banyak perbandingan, Anda mengalami masalah yang Anda uraikan dalam pertanyaan Anda.
sumber
Saya pikir di sinilah kesalahan dalam berpikir. Tidak ada titik di mana percobaan dapat "konklusif" jika Anda menganggap itu berarti "secara deduktif membuktikan sebab akibat". Saat Anda melakukan percobaan yang melibatkan tes statistik, Anda harus membuat komitmen mengenai bukti apa yang Anda anggap cukup baik.
Prosedur eksperimental yang baik secara statistik memberi Anda hasil dengan tingkat positif palsu dan negatif palsu yang diketahui. Jika Anda telah memilih prosedur yang menggunakan 0,05 sebagai ambang batas untuk signifikansi, Anda mengatakan bahwa Anda bersedia menerima bahwa dalam 5% kasus di mana sebenarnya tidak ada perbedaan, tes Anda akan memberi tahu Anda bahwa ada perbedaan.
Jika Anda menyimpang dari prosedur dengan cara yang Anda gambarkan (tidak memilih titik pemberhentian sebelumnya, cukup jalankan tes sampai nilai-p yang dihitung turun di bawah 0,05, atau jalankan seluruh percobaan beberapa kali hingga Anda mendapatkan hasil positif , dll.), Anda membuatnya lebih mungkin bahwa tes Anda akan memberi tahu Anda bahwa ada perbedaan ketika sebenarnya tidak ada perbedaan. Anda membuatnya lebih mungkin bahwa Anda akan tertipu dengan berpikir bahwa perubahan Anda telah efektif. Jangan biarkan diri Anda ditipu.
Baca makalah ini: Psikologi Palsu-Positif Fleksibilitas yang Tidak diungkapkan dalam Pengumpulan dan Analisis Data Memungkinkan Mempresentasikan Apa pun sebagai Signifikan
Ini menyoroti beberapa cara yang bisa Anda campur tangan dengan tidak benar dengan prosedur pengujian yang membuatnya lebih mungkin bagi Anda untuk tertipu, termasuk skenario tepat yang Anda gambarkan (tidak tahu kapan harus menghentikan percobaan).
Jawaban lain memberi Anda beberapa solusi untuk mengurangi masalah ini (analisis sekuensial, koreksi Bonferroni untuk beberapa perbandingan). Tetapi mereka solusi, sementara mampu mengontrol tingkat false-positif, biasanya mengurangi kekuatan percobaan, sehingga lebih kecil kemungkinannya untuk mendeteksi perbedaan ketika mereka lakukan yang ada.
Ada satu kesalahan lain yang Anda buat. Anda berbicara tentang "peningkatan 10% dari metrik apa pun hingga signifikansi 99%". Tes signifikansi hanya dapat memberi tahu Anda apakah perbedaan yang diamati dalam sampel Anda kemungkinan disebabkan oleh perbedaan mendasar yang mendasarinya atau hanya derau acak; mereka tidak memberi Anda interval kepercayaan sekitar seberapa besar perbedaan sebenarnya.
sumber
Saya pikir Anda mengajukan pertanyaan yang salah di sini. Pertanyaan yang Anda tanyakan adalah tentang tes statistik; Saya pikir pertanyaan yang tepat adalah "mengapa efeknya berubah seiring waktu?"
Jika Anda mengukur variabel 0/1 untuk konversi (apakah mereka membeli sama sekali?) Maka orang yang tidak membeli dalam sesi awal dapat kembali dan membeli nanti. Ini berarti bahwa tingkat konversi akan meningkat dari waktu ke waktu dan efek dari memiliki pembelian pelanggan dalam kunjungan pertama mereka sebagai lawan kunjungan kemudian akan hilang.
Dengan kata lain, pertama-tama perbaiki apa yang Anda ukur, lalu khawatirkan bagaimana Anda mengukur.
sumber
Inilah sebabnya mengapa kriteria yang jelas perlu didefinisikan sebelum uji coba. Seperti @mdewey menunjukkan ada metode yang ditetapkan untuk secara berkala mengevaluasi uji coba, tetapi semua ini membutuhkan kriteria penghentian yang jelas untuk mencegah adanya kesalahan dalam pengambilan keputusan. Dua masalah kritis adalah bahwa Anda perlu mengoreksi beberapa perbandingan dan bahwa setiap analisis tidak independen, tetapi hasilnya sangat dipengaruhi oleh hasil analisis sebelumnya.
Sebagai alternatif mungkin merupakan praktik terbaik untuk menentukan ukuran sampel yang ditetapkan berdasarkan argumen yang relevan secara komersial.
Pertama, perusahaan harus menyetujui apa perubahan yang relevan secara komersial dalam tingkat konversi (yaitu ukuran perbedaan apa yang diperlukan untuk menjamin pembuatan kasus komersial agar perubahan tersebut diterapkan secara permanen). Tanpa menyetujui ini, tidak ada patokan yang masuk akal.
Setelah ukuran efek minimum yang relevan secara komersial ditentukan (perhatikan ini dapat berubah berdasarkan kasus per kasus tergantung pada seberapa kritis langkah yang diuji adalah) maka Anda menyetujui tingkat risiko yang bersedia diterima oleh perusahaan untuk melewatkan efek yang sebenarnya ( beta) dan untuk menerima efek salah (alpha).
Setelah Anda memasukkan angka-angka ini ke kalkulator ukuran sampel dan voila, Anda akan memiliki ukuran sampel yang ditetapkan untuk membuat keputusan.
EDIT
Menggunakan ukuran sampel kecil dan berharap mereka akan menunjukkan efek yang cukup besar adalah ekonomi yang salah (karena tujuan Anda adalah hasil yang dapat ditindaklanjuti daripada menghasilkan hipotesis kontroversial untuk publikasi akademik). Dengan asumsi pengambilan sampel tidak bias, pada ukuran sampel rendah probabilitas pemilihan sampel secara acak yang semuanya mengarah ke ekstrem yang berlawanan lebih tinggi daripada dalam ukuran sampel yang tinggi. Ini mengarah pada kemungkinan yang lebih tinggi untuk menolak hipotesis nol padahal sebenarnya tidak ada perbedaan. Jadi ini berarti mendorong melalui perubahan yang sebenarnya tidak membuat dampak nyata atau bahkan lebih buruk memiliki dampak yang sedikit negatif. Ini adalah cara berbeda untuk menjelaskan apa yang dibicarakan @Science ketika mereka menyatakan
Tujuan menentukan analisis statistik Anda (apakah ukuran sampel tetap seperti yang saya jelaskan atau strategi evaluasi berganda) adalah Anda menyeimbangkan tuntutan kesalahan tipe I dan II dengan tepat. Strategi Anda saat ini tampaknya berfokus pada kesalahan tipe I dan sepenuhnya mengabaikan tipe II.
Seperti banyak penjawab lain telah menyatakan hasil tidak pernah konklusif, tetapi jika Anda telah mempertimbangkan kesalahan tipe I dan II dan dampaknya pada bisnis Anda maka Anda akan memiliki kepercayaan diri yang paling besar Anda dapat berharap apakah akan menerapkan perubahan berdasarkan hasil. Pada akhirnya, pengambilan keputusan adalah tentang merasa nyaman dengan tingkat risiko Anda dan tidak pernah memperlakukan 'fakta' Anda sebagai kekal.
Saya tertarik dengan aspek-aspek lain dari desain studi Anda yang mungkin memengaruhi hasil yang Anda lihat. Mereka mungkin mengungkapkan beberapa faktor halus yang tidak Anda inginkan.
Apakah orang-orang yang dipilih untuk sampel semua pengunjung baru, semua pengunjung yang kembali atau apakah itu tidak berbeda? Pelanggan yang sudah mapan mungkin memiliki kecenderungan yang meningkat untuk mencari sesuatu yang baru (jadi bias terhadap perubahan bukan warna tertentu), tetapi bagi pelanggan baru semuanya baru.
Apakah mengklik orang yang sebenarnya berulang dalam jangka waktu penelitian?
Jika orang mengunjungi beberapa kali selama jangka waktu penelitian, apakah mereka akan mendapatkan versi yang sama atau dialokasikan secara acak?
Jika pengunjung berulang termasuk ada bahaya kelelahan paparan (tidak lagi mengganggu karena tidak lagi baru)
sumber
Praktik umum biasanya menentukan bahwa Anda memutuskan ukuran sampel terlebih dahulu (untuk mengontrol kekuatan statistik tes hipotesis Anda), dan kemudian melakukan percobaan.
Menanggapi posisi Anda saat ini, sepertinya Anda setelah menggabungkan serangkaian tes hipotesis. Saya sarankan Anda melihat metode Fisher. Selain itu, Anda mungkin ingin melihat metode Brown atau Kost untuk mengakomodasi metode Fisher terhadap statistik uji dependen. Seperti yang dikatakan responden lain, konversi pelanggan (atau non-konversi) akan berdampak apakah mereka akan melakukan pembelian (atau tidak) pada kunjungan berikutnya - terlepas dari apa warna tombolnya.
Renungan:
sumber