Tes mana yang digunakan untuk membandingkan proporsi antara 3 kelompok?

8

Kami sedang menguji kampanye pemasaran email. Pada pengujian awal kami, kami mengirimkan dua jenis email yang berbeda dan memiliki kelompok kontrol ketiga yang tidak menerima email. Sekarang kami mendapatkan kembali "hasil" sebagai proporsi pengguna yang kembali ke aplikasi kami. Inilah hasilnya:

Group | received e-mail | returned | %-returned
A | 16,895 | 934 | 5.53%
B | 17,530 | 717 | 4.09%
C | 42408 | 1618 | 3.82%

Sepertinya Grup A mungkin sebenarnya lebih baik daripada B dan C, tetapi apa tes yang tepat untuk menunjukkan ini?

thecity2
sumber
2
Ingat bahwa standar deviasi proporsi dalam percobaan Binomial yang melibatkan hasil independen dengan probabilitas keberhasilan adalah . Memasukkan perkiraan memberikan kesalahan standar masing-masing %, %, dan %. (Nilai-nilai ini dapat dengan mudah diperkirakan hanya dengan melihat data:. Tidak ada komputer diperlukan) Karena perbedaan % - % = 1,44 % sama dengan hampir sepuluh dari setiap dari kesalahan-kesalahan standar, hasilnya adalah sangat jelas bahwa A memiliki tingkat pengembalian yang lebih besar daripada B atau C dan tidak diperlukan pengujian formal.npp(1p)/np0.180.150.095.53max(4.09,3.82)1.44
whuber
@whuber Hanya pertanyaan tindak lanjut cepat. Dalam hal ini, perkiraan normal dapat dibuat, tetapi bagaimana jika% bahkan lebih kecil, katakan <1%. Tes apa yang masuk akal dalam kasus itu?
thecity2
1
Pertanyaan bagus. Yang penting bukanlah persentase tetapi yang sebenarnya diperhitungkan. Jangan khawatir sampai penghitungan itu (atau pelengkapnya - angka yang tidak diterima) sekitar 30 atau kurang (tergantung pada seberapa jelas hasilnya, kadang-kadang bahkan hitungan 5 bisa ok). Ketika persentase dan jumlah keduanya rendah, perkiraan Poisson hebat dan Anda harus mempertimbangkan regresi logistik, seperti yang direkomendasikan @gung. Itu pendekatan umum yang baik juga.
Whuber

Jawaban:

2

Dalam tabel seperti ini Anda dapat mempartisi statistik-G yang dihasilkan oleh uji-G, daripada menghitung OR atau dengan menjalankan regresi logistik. Meskipun Anda harus memutuskan bagaimana Anda akan mempartisi itu. Di sini statistik-G, yang mirip dengan Pearson's X ^ 2 dan juga mengikuti distribusi X ^ 2, adalah:

G = 2 * jumlah (OBS * ln (OBS / EXP)).

Anda pertama-tama menghitungnya untuk keseluruhan tabel, dalam hal ini: G = 76,42, pada 2 df, yang sangat signifikan (p <0,0001). Dengan kata lain, tingkat pengembalian tergantung pada kelompok (A, B, atau C).

Kemudian, karena Anda memiliki 2 df, Anda dapat melakukan dua tes G 1 df (2x2) yang lebih kecil. Namun, setelah melakukan yang pertama, Anda harus menutup baris dari dua level yang digunakan dalam tes pertama, dan kemudian menggunakan nilai-nilai itu untuk mengujinya terhadap level ketiga. Di sini, katakanlah Anda menguji B terhadap C terlebih dahulu.

Obs   Rec    Ret    Total
B   17530    717    18247
C   42408   1618    44026

Exp     Rec    Ret  Total
B   17562.8  684.2  18247
C   42375.2 1650.8  44026

Ini menghasilkan G-stat 2,29 pada 1 df, yang tidak signifikan (p = 0,1300). Kemudian buat tabel baru, gabungkan baris B dan C. Sekarang uji A terhadap B + C.

Obs   Rec    Ret    Total
A   16895    934    17829
B+C 59938   2335    62273

Exp     Rec    Ret  Total
A   17101.4  727.6  17829
B+C 59731.6 2541.4  62273

Ini menghasilkan G-stat 74,13, pada 1 df, yang juga sangat signifikan (p <0,0001).

Anda dapat memeriksa pekerjaan Anda dengan menambahkan dua statistik uji yang lebih kecil, yang seharusnya sama dengan statistik pengujian yang lebih besar. Itu: 2.29 + 74.13 = 76.42

Cerita di sini adalah bahwa grup B dan C Anda tidak berbeda secara signifikan, tetapi grup A itu memiliki tingkat pengembalian yang lebih tinggi daripada gabungan B dan C.

Semoga itu bisa membantu!

Anda juga bisa mempartisi G-stat secara berbeda dengan membandingkan A ke B terlebih dahulu, lalu C ke A + B, atau dengan membandingkan A ke C, lalu B ke A + C. Selain itu, Anda dapat memperluas ini ke 4 grup atau lebih, tetapi setelah setiap tes Anda harus menutup dua baris yang baru saja Anda uji, dengan jumlah maksimum tes yang sama dengan df di tabel asli Anda. Ada cara lain untuk mempartisi dengan tabel yang lebih rumit. Buku Agresti, "Analisis Data Kategorikal", harus berisi perinciannya. Secara khusus, babnya tentang kesimpulan untuk tabel kontingensi dua arah.

jww
sumber
1

Saya hanya akan menghitung odds (atau risiko) rasio antara kelompok A dan B, antara B dan C, dan antara A dan C dan melihat apakah mereka berbeda secara statistik. Saya tidak melihat alasan untuk melakukan tes proporsi "omnibus" dalam kasus ini karena Anda hanya memiliki tiga grup. Tiga tes chi-square bisa melakukan trik juga.

Seperti beberapa individu telah uraikan dalam komentar di bawah ini, dan regresi logistik dengan kontras yang direncanakan akan bekerja dengan baik juga.

Behacad
sumber
3
Ada beberapa masalah perbandingan potensial di sini. Mengapa tidak hanya melakukan regresi logistik dengan 2 kode boneka untuk B & C?
gung - Reinstate Monica
1
Ya, tentu saja, tetapi masalah beberapa perbandingan cukup minim ketika Anda memiliki tiga perbandingan.
Behacad
@ung membuat beberapa poin bagus. Regresi logistik akan menjadi pendekatan paling sederhana - dan jika seseorang melakukan pendekatan uji chi-squared, maka Anda hampir pasti akan memulai dengan tes omnibus (dari tabel kontingensi tabel 3x2) sebelum melakukan perbandingan dua kelompok (meskipun ini akan sesuai dengan signifikansi "keseluruhan" dari model regresi logistik yang cocok dalam contoh ini.)
James Stanley
1
Menggunakan saran ini (dan Wikipedia), saya menemukan bahwa 95% CI untuk peluang log A / B dan A / C tidak tumpang tindih dengan 0, dan bahwa rasio odds log untuk B / C tumpang tindih dengan 0. Apakah itu menandakan bahwa A berbeda secara signifikan dari B & C?
thecity2
@Behacad, Anda benar bahwa w / hanya 3 perbandingan, beberapa masalah perbandingan akan kurang intens, tapi saya masih akan mulai dengan model LR. Idealnya, itu akan ditindaklanjuti dengan perbandingan yang direncanakan.
gung - Reinstate Monica