Bagaimana seseorang bisa mengembangkan aturan penghentian dalam analisis kekuatan dua proporsi independen?

18

Saya seorang pengembang perangkat lunak yang bekerja pada sistem pengujian A / B. Saya tidak memiliki latar belakang statistik yang solid tetapi telah mengambil pengetahuan selama beberapa bulan terakhir.

Skenario pengujian tipikal melibatkan membandingkan dua URL di situs web. Pengunjung mengunjungi LANDING_URLdan kemudian secara acak diteruskan ke salah satu URL_CONTROLatau URL_EXPERIMENTAL. Pengunjung merupakan sampel, dan kondisi kemenangan dicapai ketika pengunjung melakukan beberapa tindakan yang diinginkan di situs tersebut. Ini merupakan konversi dan tingkat konversi adalah tingkat konversi (biasanya dinyatakan sebagai persentase). Tingkat konversi khas untuk URL yang diberikan adalah sesuatu di ranah 0,01% hingga 0,08%. Kami menjalankan tes untuk menentukan bagaimana perbandingan URL baru dengan URL lama. Jika URL_EXPERIMENTALditampilkan untuk mengungguli URL_CONTROL, kami ganti URL_CONTROLdengan URL_EXPERIMENTAL.

Kami telah mengembangkan sistem menggunakan teknik pengujian hipotesis sederhana. Saya menggunakan jawaban untuk pertanyaan CrossValidated lain di sini untuk mengembangkan sistem ini.

Tes diatur sebagai berikut:

  • Tingkat konversi perkiraan CRE_CONTROLdari URL_CONTROLdihitung dengan menggunakan data historis.
  • Tingkat konversi yang diinginkan Target CRE_EXPERIMENTALdari URL_EXPERIMENTALadalah set.
  • Tingkat signifikansi 0,95 biasanya digunakan.
  • Kekuatan 0,8 biasanya digunakan.

Bersama-sama, semua nilai ini digunakan untuk menghitung ukuran sampel yang diinginkan. Saya menggunakan fungsi R power.prop.testuntuk mendapatkan ukuran sampel ini.

Tes akan berjalan sampai semua sampel dikumpulkan. Pada titik ini, interval kepercayaan untuk CR_CONTROL dan CR_EXPERIMENTALdihitung. Jika mereka tidak tumpang tindih, maka pemenang dapat dinyatakan dengan tingkat signifikansi 0,95 dan kekuatan 0,8.

Pengguna tes kami memiliki dua masalah utama, meskipun:

1. Jika, pada titik tertentu selama pengujian, cukup sampel dikumpulkan untuk menunjukkan pemenang yang jelas, tidak bisakah tes dihentikan?

2. Jika tidak ada pemenang yang dinyatakan pada akhir tes, dapatkah kami menjalankan tes lebih lama untuk melihat apakah kami dapat mengumpulkan sampel yang cukup untuk menemukan pemenang?

Perlu dicatat bahwa banyak alat komersial di luar sana yang memungkinkan penggunanya melakukan apa yang diinginkan pengguna kami. Saya telah membaca bahwa ada banyak kekeliruan dengan hal di atas, tetapi saya juga menemukan ide tentang penghentian aturan dan ingin mengeksplorasi kemungkinan menggunakan aturan semacam itu dalam sistem kami sendiri.

Berikut adalah dua pendekatan yang ingin kami pertimbangkan:

1. Menggunakan power.prop.test, bandingkan tingkat konversi terukur saat ini dengan jumlah sampel saat ini dan lihat apakah cukup sampel telah dikumpulkan untuk menyatakan pemenang.

Contoh: Tes telah diatur untuk melihat apakah perilaku berikut ada di sistem kami:

  • CRE_CONTROL: 0,1
  • CRE_EXPERIMENTAL: 0.1 * 1.3
  • Dengan parameter ini, ukuran sampel Nadalah 1774.

Namun, seiring dengan kemajuan tes dan mencapai 325 sampel, CRM_CONTROL(tingkat konversi yang diukur untuk kontrol) adalah 0,08 dan CRM_EXPERIMENTAL0,15. power.prop.testdijalankan pada tingkat konversi ini dan Nditemukan menjadi 325. Tepatnya jumlah sampel yang diperlukan untuk menyatakan CRM_EXPERIMENTALsebagai pemenang! Pada titik ini adalah harapan kami bahwa tes dapat berakhir. Demikian pula, jika tes mencapai 1.774 sampel tetapi tidak ada pemenang yang ditemukan, tetapi kemudian mencapai 2.192 sampel yang cukup untuk menunjukkan bahwa CRM_CONTROL0,1 danCRM_EXPERIMENTAL 0,128 adalah hasil di mana pemenang dapat dinyatakan.

Dalam pertanyaan terkait, pengguna menyarankan bahwa tes semacam itu kurang kredibel karena mendorong pemberhentian awal yang memiliki sampel lebih sedikit dan juga rentan terhadap bias estimasi. dan peningkatan jumlah kesalahan Tipe I dan Tipe II. Apakah ada cara untuk membuat aturan penghentian ini berfungsi? Ini adalah pendekatan yang kami sukai karena ini berarti lebih sedikit waktu pemrograman bagi kami. Mungkin aturan penghentian ini bisa berfungsi dengan menawarkan semacam skor numerik atau skor yang mengukur kredibilitas tes jika harus dihentikan lebih awal?

2. Menggunakan analisis sekuensial atau SPRT .

Metode pengujian ini dirancang tepat untuk situasi di mana kita berada: bagaimana pengguna kami dapat memulai tes dan mengakhirinya sedemikian rupa sehingga mereka tidak membuang waktu berlebih dalam pengujian? Baik menjalankan tes terlalu lama, atau harus memulai tes dengan parameter yang berbeda.

Dari dua metode di atas, saya menyukai SPRT karena matematika sedikit lebih mudah bagi saya untuk dipahami dan karena sepertinya lebih mudah diprogram. Namun, saya tidak mengerti bagaimana cara menggunakan fungsi kemungkinan dalam konteks ini. Jika seseorang dapat membuat contoh bagaimana menghitung rasio kemungkinan, jumlah kumulatif rasio kemungkinan, dan melanjutkan melalui contoh yang menggambarkan situasi ketika seseorang akan terus memantau, ketika seseorang akan menerima hipotesis nol dan hipotesis alternatif, itu akan membantu kami menentukan apakah SPRT adalah cara yang tepat untuk pergi.

jkndrkn
sumber
2
Saya memuji Anda yang tidak menggunakan voodoo. Ketika Anda menggunakan alat dan Anda tidak mengerti persis apa yang dilakukannya atau bagaimana cara kerjanya, maka Anda tidak memenuhi syarat untuk menafsirkan hasil dari alat tersebut. Ketika suatu analisis mengarahkan keputusan bisnis, dan Anda memasukkan waktu dan uang ke dalam hasilnya, itu menunjukkan kepemilikan jika Anda meluangkan waktu untuk memahami sumber data. Ini adalah jenis kerja keras yang memberi Anda lebih banyak peluang daripada menjadi "dalam kawanan".
EngrStudent

Jawaban:

7

Ini adalah masalah yang menarik dan teknik yang terkait sudah banyak aplikasi. Mereka sering disebut strategi "pemantauan sementara" atau "desain eksperimental berurutan" (artikel wikipedia, yang Anda tautkan, sayangnya sedikit jarang), tetapi ada beberapa cara untuk melakukannya. Saya pikir @ user27564 keliru dalam mengatakan bahwa analisis ini harus Bayesian - pasti ada pendekatan yang sering digunakan untuk pemantauan sementara juga.

SEBUAHsBsSEBUAHBP(SEBUAH)=P(B)=0,558x seperti yang 1-F(x;100;0,5)<αF adalah distribusi binomial kumulatif.

Logika yang serupa memungkinkan Anda menemukan "poin yang tak terhindarkan" untuk tes lain di mana:

  1. Total ukuran sampel * sudah pasti, dan
  2. Setiap pengamatan berkontribusi jumlah terbatas pada sampel.

Ini mungkin akan mudah bagi Anda untuk menerapkan - menghitung kriteria berhenti offline dan kemudian cukup tancapkan ke kode situs Anda - tetapi Anda sering dapat melakukan lebih baik jika Anda ingin menghentikan percobaan tidak hanya ketika hasilnya tidak bisa dihindari , tetapi ketika itu juga sangat tidak mungkin berubah.

SEBUAHBSEBUAH ; Anda dapat mengintip Bab 10 melalui Google Buku. Selain derivasi, buku ini memiliki beberapa formula di mana Anda dapat lebih atau kurang memasukkan hasil tes sementara Anda.

Ada sejumlah pendekatan lain juga. Metode berurutan kelompok dirancang untuk situasi di mana Anda mungkin tidak dapat memperoleh sejumlah mata pelajaran dan mata pelajaran mengalir dengan laju yang bervariasi. Tergantung pada lalu lintas situs Anda, Anda mungkin atau mungkin tidak ingin melihat ini.

Ada cukup banyak paket R yang beredar di CRAN, jika itu yang Anda gunakan untuk analisis Anda. Tempat yang baik untuk memulai mungkin sebenarnya adalah Clinical Trials Task View , karena banyak pekerjaan ini keluar dari bidang itu.


[*] Hanya beberapa saran ramah: berhati-hatilah ketika melihat nilai signifikansi yang dihitung dari sejumlah besar titik data. Ketika Anda mengumpulkan semakin banyak data, pada akhirnya Anda akan menemukan hasil yang signifikan, tetapi efeknya mungkin sepele. Misalnya, jika Anda bertanya kepada seluruh planet apakah mereka lebih suka A atau B, sangat tidak mungkin bahwa Anda akan melihat perpecahan 50:50, tetapi mungkin tidak ada gunanya memperlengkapi kembali produk Anda jika perpecahan adalah 50.001: 49.999. Terus periksa ukuran efek (yaitu, perbedaan dalam tingkat konversi) juga!

Matt Krause
sumber
1
Untuk secara eksplisit mengatasi masalah pengguna Anda: Ya, Anda pasti dapat mengakhiri analisis lebih awal. Ini terjadi sepanjang waktu untuk uji klinis - obat tersebut merupakan keberhasilan besar sehingga mereka memiliki data yang cukup untuk kemanjurannya dan ingin memberikannya kepada orang-orang yang terjebak dalam kelompok kontrol (atau, lebih mungkin, obat ini sangat besar). bangkrut / memperburuk keadaan). Namun, memperluas percobaan lebih diperdebatkan - ada metode untuk mengoreksi beberapa "tampilan" tetapi Anda akan lebih baik memperbaiki N maksimum di muka - Anda selalu dapat berhenti lebih awal!
Matt Krause
2
Terima kasih untuk ini, saya sepenuhnya setuju dengan penghentian jika percobaan tidak dapat dihindari, itu benar-benar masuk akal! Dengan 'berhenti jika itu benar-benar tidak mungkin' saya akan ragu seorang frequentist sejati akan setuju. Tidak ada yang kurang dari mengatakan: Hei, 95%? Saya akan mengatakan 93% juga bagus! Maksud saya akan lebih baik jika hanya puas dengan kepercayaan 90%, tetapi sebagai sering sebelum melihat data!
SebastianNeubauer
1
Saya bukan seorang yang sering melengkung, saya juga tidak memainkannya di TV, tetapi saya pikir Anda masih dapat memiliki interpretasi sering yang masuk akal dari aturan penghentian awal - jika saya menjalankan percobaan ini 100 kali, seberapa sering saya mendapatkan berbeda jawaban jika saya berhenti sekarang vs. jika saya berlari ke penyelesaian? Ulasan yang saya tautkan menunjukkan bahwa ini adalah salah satu kasus yang bagus di mana dimungkinkan untuk memuaskan Bayesians dan Frequentists pada saat yang sama ...
Matt Krause
α
1
@ RussellS.Pierce: Saya pikir itu tergantung. Jelas, pembatasan tidak akan, tetapi beberapa metode lain melakukannya. Tes O'Brein dan Flemming, misalnya, dapat menggunakan lebih banyak data, tetapi juga dapat menolak lebih awal, dan tes Pocock lebih dari itu. Ini jelas tergantung pada spesifik: buku yang ditautkan di atas memiliki contoh dengan beberapa nilai wajar (efek ukuran: 0,25, alpha = 0,05, daya = 0,9, 5 terlihat). Versi N tetap membutuhkan 170 subjek untuk ditolak; Versi OBF membutuhkan maksimal 180, dan Pocock paling banyak membutuhkan 205, tetapi jumlah subjek yang diharapkan masing-masing adalah 130 dan 117.
Matt Krause
1

Anda dapat berhenti lebih awal, tetapi jika Anda melakukannya, nilai-p Anda tidak mudah ditafsirkan. Jika Anda tidak peduli dengan interpretasi nilai-p Anda, maka cara menjawab dua pertanyaan pertama Anda adalah 'tidak' tidak masalah (terlalu banyak). Klien Anda tampaknya pragmatis, jadi interpretasi sebenarnya dari nilai-p mungkin bukan poin yang baik bagi Anda.

Saya tidak bisa berbicara dengan pendekatan kedua yang Anda usulkan.

Namun, pendekatan pertama tidak di tanah yang kokoh. Perkiraan normal distribusi binomial tidak valid untuk proporsi yang rendah (yang merupakan metode yang digunakan power.prop.test, juga metode yang digunakan oleh Cohen dalam buku klasiknya tentang kekuasaan). Selain itu, sejauh yang saya ketahui, tidak ada solusi analisis daya bentuk tertutup untuk tes proporsi dua sampel (lih. Bagaimana seseorang dapat melakukan analisis daya binomial dua kelompok tanpa menggunakan perkiraan normal? ). Namun ada metode yang lebih baik untuk memperkirakan interval kepercayaan proporsi (lih. Paket binom). Anda dapat menggunakan interval kepercayaan yang tidak tumpang tindih sebagai solusi parsial ... tetapi ini tidak sama dengan memperkirakan nilai-p dan karenanya tidak menyediakan rute menuju kekuasaan secara langsung. Saya harap seseorang memiliki solusi bentuk tertutup yang bagus yang akan mereka bagikan kepada kita semua. Jika saya menemukan satu, saya akan memperbarui pertanyaan yang dirujuk di atas. Semoga berhasil.

Sunting: Sementara saya memikirkannya, izinkan saya benar-benar pragmatis di sini sejenak. Klien Anda ingin agar eksperimen ini berakhir ketika mereka yakin bahwa situs eksperimen berfungsi lebih baik daripada situs kontrol. Setelah Anda mendapatkan sampel yang layak, jika Anda tidak siap untuk mengambil keputusan, mulailah menyesuaikan rasio tugas acak Anda dengan pihak mana pun yang 'menang'. Jika itu hanya blip, regresi menuju mean akan masuk, Anda akan menjadi kurang yakin dan mengurangi rasio. Ketika Anda cukup yakin, sebut itu berhenti dan nyatakan pemenang. Pendekatan optimal mungkin akan melibatkan pembaruan Bayesian, tapi saya tidak cukup tahu tentang topik itu dari atas kepala saya untuk mengarahkan Anda. Namun saya dapat meyakinkan Anda bahwa meskipun kadang-kadang tampak kontra intuitif, matematika itu sendiri tidak terlalu sulit.

russellpierce
sumber
0

Pertanyaan yang Anda miliki adalah pertanyaan umum yang muncul dalam tes statistik. Ada dua 'rasa' statistik di luar sana, frequentist dan bayesian. Jawaban yang sering muncul untuk kedua pertanyaan Anda itu mudah:

  • TIDAK
  • Tidak, Anda tidak bisa berhenti lebih awal
  • Tidak, Anda tidak bisa mengukur lebih lama

Setelah Anda menetapkan pengaturan Anda, Anda tidak dapat melihat bahkan pada data (analisis buta). Dari sudut pandang frequentist, tidak ada jalan lain, tidak ada trik curang! (EDIT: Tentu saja, ada upaya untuk melakukannya, dan mereka juga akan berfungsi jika digunakan dengan benar, tetapi kebanyakan dari mereka diketahui menyebabkan bias.)

Tetapi ada sudut pandang bayesian, yang sangat berbeda. Pendekatan bayesian membutuhkan kontras dengan input tambahan yang sering, distribusi probabilitas a-priori. Kita bisa menyebutnya juga pengetahuan atau prasangka sebelumnya. Dengan ini, kita dapat menggunakan data / pengukuran untuk memperbarui pengetahuan kita ke probabilitas a-posteriori. Intinya adalah, kita bisa menggunakan data dan bahkan lebih, kita bisa menggunakan data di setiap titik menengah dari pengukuran. Dalam setiap pembaruan, posterior terakhir adalah prioritas baru kami dan kami dapat memperbaruinya dengan pengukuran baru sesuai dengan pengetahuan kami yang terbaru. Tidak ada masalah menghentikan sama sekali!

Saya menemukan ceramah yang membahas masalah serupa yang Anda miliki dan saya jelaskan di atas: http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JoAnnAlvarez/BayesianAdaptivePres.pdf

Tetapi di samping ini, apakah Anda benar-benar yakin perlu ini sama sekali? Tampaknya Anda memiliki beberapa sistem yang berjalan memutuskan di mana menautkan permintaan. Untuk ini, Anda tidak perlu membuktikan bahwa keputusan Anda benar dalam arti statistik dengan uji hipotesis. Pernahkah Anda membeli kokas, karena Anda bisa mengecualikan pepsi 'benar' sekarang dengan probabilitas 95%? Sudah cukup untuk mengambil satu yang lebih baik, tidak termasuk hipotesis. Itu akan menjadi algoritma sepele: Hitung ketidakpastian tingkat A, hitung ketidakpastian B. Ambil perbedaan dari kedua tingkat dan bagi itu b ketidakpastian ketidakpastian perbedaan. Hasilnya adalah sesuatu seperti signifikansi perbedaan sigma. Kemudian ambil semua tautan di mana ada lebih dari dua atau tiga perbedaan sigma. Kekurangan,

SebastianNeubauer
sumber
1
Saya pikir empat paragraf pertama Anda sedikit herring merah - ada pendekatan yang sering dilakukan untuk pemantauan sementara. Memang benar bahwa pembaruan posterior (Bayesian) cocok untuk hal ini, tetapi Anda dapat membingkai masalah ini dengan berbagai cara. Terima kasih atas penunjuk ke slide!
Matt Krause
+1 bagaimanapun - pendekatan Bayesian mungkin jelas menuju ke sini daripada perbaikan yang sering.
russellpierce
2
Eh, ini ... meme ... metode Bayesian membiarkan orang mengintip data tanpa henti tanpa komplikasi. Namun, tingkat kesalahan Tipe I keseluruhan tidak benar-benar terkontrol (mengapa bisa demikian?) Dan bisa menjadi besar secara sewenang-wenang jika setelah banyak "terlihat." Anda dapat memperbaiki ini dengan sebelumnya yang sesuai, atau Anda dapat berdebat bahwa mengendalikan kesalahan Tipe I adalah timpang, tetapi tidak seolah-olah semua teknik Bayesian adalah obat mujarab.
Matt Krause
0

mungkin beberapa metode bisa digunakan di sana seperti

  • Pocock
  • O'Brien dan Flemming
  • Peto

ini akan menyesuaikan cutoff P berdasarkan hasil dan akan membantu Anda berhenti mengumpulkan data dan menghemat sumber daya dan waktu.

mungkin karya lain bisa ditambahkan di sini.

HappyMan
sumber
dapatkah Anda memberikan tautan atau informasi lainnya untuk poin-poin Anda?
Antoine
saya tidak memiliki artikel yang tepat karena saya menggunakan artikel ulasan yang mengutip ini, maksud saya pendekatan berbeda tetapi saya dapat merekomendasikan Anda bahwa artikel yang mengelola pertanyaan di bidang medis: Modifikasi ukuran sampel adaptif dalam uji klinis: mulai dari kecil kemudian minta lebih? Christopher Jennisona * † dan BruceW. Turnbullb
HappyMan