R - power.prop.test, prop.test, dan ukuran sampel yang tidak sama dalam tes A / B

8

Katakanlah saya ingin tahu ukuran sampel apa yang saya butuhkan untuk percobaan di mana saya ingin menentukan apakah perbedaan dalam dua proporsi keberhasilan itu signifikan secara statistik. Inilah proses saya saat ini:

  1. Lihatlah data historis untuk menetapkan prediksi baseline. Katakan bahwa di masa lalu, mengambil tindakan menghasilkan tingkat keberhasilan 10% sedangkan tidak mengambil tindakan menghasilkan tingkat kesuksesan 9%. Asumsikan bahwa kesimpulan ini belum divalidasi secara statistik tetapi kesimpulannya didasarkan pada jumlah data yang relatif besar (10.000+ pengamatan).
  2. Tancapkan asumsi ini ke dalam power.prop.test untuk mendapatkan yang berikut:

     power.prop.test(p1=.1,p2=.11,power=.9)
    
     Two-sample comparison of proportions power calculation 
    
              n = 19746.62
             p1 = 0.1
             p2 = 0.11
      sig.level = 0.05
          power = 0.9
    alternative = two.sided
  3. Jadi ini memberitahu saya bahwa saya akan membutuhkan ukuran sampel ~ 20000 dalam setiap kelompok tes A / B untuk mendeteksi perbedaan yang signifikan antara proporsi.

  4. Langkah selanjutnya adalah melakukan percobaan dengan 20.000 pengamatan di setiap kelompok. Grup B (tidak ada tindakan yang diambil) memiliki 2.300 keberhasilan dari 20.000 pengamatan, sedangkan Grup A (tindakan diambil) memiliki 2.200 keberhasilan dari 20.000 pengamatan.

  5. Lakukan prop.test

    prop.test(c(2300,2100),c(20000,20000))
    
    2-sample test for equality of proportions with continuity correction
    
    data:  c(2300, 2100) out of c(20000, 20000)
    X-squared = 10.1126, df = 1, p-value = 0.001473
    alternative hypothesis: two.sided
    95 percent confidence interval:
    0.003818257 0.016181743
    sample estimates:
    prop 1 prop 2 
    0.115  0.105
  6. Jadi kita katakan bahwa kita dapat menolak hipotesis nol bahwa proporsinya sama.

Pertanyaan

  • Apakah metode ini masuk akal atau paling tidak di jalur yang benar?
  • Bisakah saya menentukan alt="greater"prop.test dan mempercayai nilai-p meskipun power.prop.test adalah untuk pengujian dua sisi?
  • Bagaimana jika nilai p lebih besar dari 0,05 pada prop.test? Haruskah saya berasumsi bahwa saya memiliki sampel yang signifikan secara statistik tetapi tidak ada perbedaan yang signifikan secara statistik antara kedua proporsi? Selain itu, apakah signifikansi statistik melekat dalam nilai-p dalam prop.test - yaitu apakah power.prop.test bahkan diperlukan?
  • Bagaimana jika saya tidak bisa melakukan split 50/50 dan perlu melakukan, katakanlah, split 95/5? Apakah ada metode untuk menghitung ukuran sampel untuk kasus ini?
  • Bagaimana jika saya tidak tahu apa yang seharusnya menjadi prediksi dasar saya untuk proporsi? Jika saya menebak dan proporsi sebenarnya jauh, apakah itu akan membatalkan analisis saya?

Setiap celah lain yang bisa Anda isi akan sangat dihargai - permintaan maaf saya atas sifat rumit dari pos ini. Terima kasih!

userNaN
sumber

Jawaban:

3

Apakah metode ini masuk akal atau paling tidak di jalur yang benar?

Ya, saya pikir itu pendekatan yang cukup bagus.

Bisakah saya menentukan alt = "lebih besar" pada prop.test dan mempercayai nilai-p meskipun power.prop.test adalah untuk pengujian dua sisi?

Aku tidak yakin, tapi saya pikir Anda harus menggunakan alternative="two.sided"untuk prop.test.

Bagaimana jika nilai p lebih besar dari 0,05 pada prop.test? Haruskah saya berasumsi bahwa saya memiliki sampel yang signifikan secara statistik tetapi tidak ada perbedaan yang signifikan secara statistik antara kedua proporsi? Selain itu, apakah signifikansi statistik melekat dalam nilai-p dalam prop.test - yaitu apakah power.prop.test bahkan diperlukan?

Ya, jika p-value lebih besar dari 0,05 maka tidak ada keyakinan bahwa ada perbedaan yang dapat terdeteksi antara sampel. Ya, signifikansi statistik tidak dapat dipisahkan dari nilai-p, tetapi pengujian power.prop.t masih diperlukan sebelum Anda memulai percobaan untuk menentukan ukuran sampel Anda. power.prop.testdigunakan untuk mengatur percobaan Anda, prop.testdigunakan untuk mengevaluasi hasil percobaan Anda.

BTW - Anda dapat menghitung interval kepercayaan untuk setiap grup dan melihat apakah mereka tumpang tindih pada tingkat kepercayaan Anda. Anda dapat melakukannya dengan mengikuti langkah-langkah ini untuk Menghitung Banyak Interval Kepercayaan Dari di Distribusi .

Untuk memvisualisasikan apa yang saya maksud, lihat kalkulator ini dengan contoh data Anda terhubung: http://www.evanmiller.org/ab-testing/chi-squared.html#!2300/20000;2100/20000@95

Inilah hasilnya:

interval kepercayaan untuk masing-masing kelompok

Perhatikan grafik yang disediakannya yang menunjukkan kisaran interval kepercayaan untuk masing-masing kelompok.

Bagaimana jika saya tidak bisa melakukan split 50/50 dan perlu melakukan, katakanlah, split 95/5? Apakah ada metode untuk menghitung ukuran sampel untuk kasus ini?

Inilah sebabnya mengapa Anda perlu menggunakan power.prop.testkarena perpecahan tidak masalah. Yang penting adalah Anda memenuhi ukuran sampel minimum untuk setiap kelompok. Jika Anda melakukan pemisahan 95/5, maka hanya perlu waktu lebih lama untuk mencapai ukuran sampel minimum untuk variasi yang mendapatkan 5%.

Bagaimana jika saya tidak tahu apa yang seharusnya menjadi prediksi dasar saya untuk proporsi? Jika saya menebak dan proporsi sebenarnya jauh, apakah itu akan membatalkan analisis saya?

Anda harus menggambar garis di pasir, menebak efek terdeteksi yang masuk akal, dan menghitung ukuran sampel yang diperlukan. Jika Anda tidak memiliki cukup waktu, sumber daya, dll. Untuk memenuhi ukuran sampel yang dihitung power.prop.test, maka Anda harus menurunkan efek yang terdeteksi. Saya biasanya mengaturnya seperti ini dan menjalankan melalui deltanilai yang berbeda untuk melihat ukuran sampel yang diperlukan untuk efek itu.

#Significance Level (alpha)
alpha <- .05

# Statistical Power (1-Beta)
beta <- 0.8

# Baseline conversion rate
p <- 0.2   

# Minimum Detectable Effect
delta <- .05

power.prop.test(p1=p, p2=p+delta, sig.level=alpha, power=beta, alternative="two.sided")
Javid Jamae
sumber
1
Javid, ketika Anda mengutip bagian dari pertanyaan dalam jawaban Anda, Anda dapat mempertimbangkan untuk menggunakan markup yang dimaksudkan untuk menunjukkan kutipan blok ( > pada awal blok yang dikutip) daripada hanya membesar-besarkannya.
Glen_b -Reinstate Monica
2
"Jika Anda melakukan pemisahan 95/5, maka hanya perlu waktu lebih lama untuk mencapai ukuran sampel minimum untuk variasi yang mendapatkan 5%." - walaupun ini adalah pendekatan konservatif untuk setidaknya memenuhi kekuatan tes yang ditentukan, Anda akan pada kenyataannya melebihi kekuatan yang ditentukan yang dimasukkan dalam power.prop.test jika Anda memiliki satu grup "kecil" dan pada "besar" (mis. n1 = 19746, n2 = 375174). Metode yang lebih tepat untuk memenuhi persyaratan daya untuk ukuran sampel yang tidak sama kemungkinan akan diinginkan.
Underminer