Interval kepercayaan sekitar rasio dua proporsi

20

Saya memiliki dua proporsi (mis., Rasio klik-tayang (RKT) pada tautan dalam tata letak kontrol, dan RKT pada tautan dalam tata letak eksperimental), dan saya ingin menghitung interval kepercayaan 95% di sekitar rasio proporsi ini.

Bagaimana saya melakukan ini? Saya tahu saya bisa menggunakan metode delta untuk menghitung varian dari rasio ini, tetapi saya tidak yakin apa yang harus saya lakukan selain itu. Apa yang harus saya gunakan sebagai titik tengah interval kepercayaan (rasio yang saya amati, atau rasio yang diharapkan berbeda), dan berapa banyak standar deviasi di sekitar rasio ini yang harus saya ambil?

Haruskah saya menggunakan varians metode delta sama sekali? (Saya tidak terlalu peduli dengan varians, hanya interval kepercayaan.) Haruskah saya menggunakan Teorema Fieller , menggunakan Case 1 (karena saya melakukan proporsi, saya kira saya memenuhi persyaratan distribusi normal)? Haruskah saya menghitung sampel bootstrap?

raegtin
sumber
1
Anda memiliki masalah mendasar: sebagian besar proporsi memiliki peluang positif menjadi nol, di mana rasio (proporsi independen) memiliki peluang positif untuk tidak terdefinisi. Ini dapat menimbulkan kesulitan besar untuk metode perkiraan (seperti metode delta) dan menunjukkan bahwa perkiraan normal harus dilihat lebih sceptically dan diuji lebih ketat dari biasanya.
whuber
Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Metode Statistik untuk Tarif dan Proporsi [1] membahas Risiko Relatif, yang merupakan hasil bagi dari dua tingkat. Saya tidak punya buku, jadi saya hanya bisa melihat indeks subjek dan daftar isi, tapi mungkin perpustakaan Anda memilikinya. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites mendukung Monica
Tentunya bootstrap persentil akan menjadi metode terbaik?
Peter Ellis

Jawaban:

19

Cara standar untuk melakukan ini dalam epidemiologi (di mana rasio proporsi biasanya disebut sebagai rasio risiko ) adalah dengan pertama-tama log-transform rasio, menghitung interval kepercayaan pada skala log menggunakan metode delta dan mengasumsikan distribusi normal, lalu ubah kembali. Ini bekerja lebih baik dalam ukuran sampel moderat daripada menggunakan metode delta pada skala yang tidak diubah, meskipun masih akan berperilaku buruk jika jumlah peristiwa dalam kedua kelompok sangat kecil, dan gagal sepenuhnya jika tidak ada peristiwa di kedua kelompok.

Jika ada dan berhasil dalam dua grup dari total dan , maka estimasi yang jelas untuk rasio proporsi adalahx 2 n 1 n 2 θ = x 1 / n 1x1x2n1n2

θ^=x1/n1x2/n2.

Dengan menggunakan metode delta dan dengan asumsi kedua grup independen dan keberhasilannya didistribusikan secara binerial, Anda dapat menunjukkan bahwa Mengambil akar kuadrat ini memberikan kesalahan standar . Dengan asumsi bahwa terdistribusi secara normal, interval kepercayaan 95% untuk adalah Secara eksponensial, ini memberikan interval kepercayaan 95% untuk rasio proporsi sebagailog θ ) ] .

Var(logθ^)=1/x1-1/n1+1/x2-1/n2.
log θ login θ log θ ± 1,96 SE ( logSE(logθ^)logθ^logθq q exp[±1,96SE(
logθ^±1.96SE(logθ^).
θ
θ^exp[±1.96SE(logθ^)].
onestop
sumber
5
Ini sangat bagus asalkan dan besar (beberapa ratus atau lebih) dan dan tidak terlalu kecil (c. atau lebih). Kalau tidak, intervalnya cenderung terlalu besar. Itu juga perlu beberapa cara untuk menangani kasus dan . Ternyata kedua masalah dapat diatasi dengan pendekatan kontinuitas-seperti: tambahkan ke kedua , tambahkan ke kedua , dan lanjutkan. Maka CI ini secara mengejutkan baik asalkan keduanya atau lebih besar, bagaimanapunn1n2n1hal1n2hal210x2=0xsaya=nsaya1/2xsaya1nsayahalsayansaya4dari ukuran . nsaya
whuber
@whuber: "pendekatan kontinuitas-suka-seperti" - apakah penggunaan 1/2 secara khusus merupakan trik umum? (Berbeda dengan beberapa pseudocount kecil lainnya.) Cara Anda mengutarakannya membuat 1/2 suara berprinsip dalam beberapa cara =) - bukan?
raegtin
xsayansaya
Mengapa kuadrat akar kesalahan standar varians dalam kasus ini, bukan standar deviasi?
Mikko
2
@onestop Apakah ini diterapkan dalam paket R apa pun?
Bogdan Vasilescu