Saya memiliki tiga kelompok data, masing-masing dengan distribusi binomial (yaitu masing-masing kelompok memiliki elemen yang berhasil atau gagal). Saya tidak memiliki probabilitas keberhasilan yang diprediksi, tetapi sebaliknya hanya dapat mengandalkan tingkat keberhasilan masing-masing sebagai perkiraan untuk tingkat keberhasilan yang sebenarnya. Saya hanya menemukan pertanyaan ini , yang dekat tetapi tampaknya tidak persis berurusan dengan skenario ini.
Untuk menyederhanakan tes, anggap saja saya memiliki 2 kelompok (3 dapat diperpanjang dari kasus dasar ini).
- Uji coba Grup 1: = 2455
- Uji coba Grup 2: = 2730
- Keberhasilan grup 1: = 1556
- Keberhasilan grup 2: = 1671
Saya tidak memiliki probabilitas keberhasilan yang diharapkan, hanya yang saya tahu dari sampel. Jadi tingkat keberhasilan tersirat saya untuk kedua kelompok adalah:
- Tingkat keberhasilan Grup 1: = 1556/2455 = 63,4%
- Tingkat keberhasilan Grup 2: = 1671/2730 = 61.2%
Tingkat keberhasilan masing-masing sampel cukup dekat. Namun ukuran sampel saya juga cukup besar. Jika saya memeriksa CDF dari distribusi binomial untuk melihat betapa berbedanya itu dari yang pertama (di mana saya mengasumsikan yang pertama adalah tes nol) saya mendapatkan probabilitas yang sangat kecil bahwa yang kedua dapat dicapai.
Di Excel:
1-BINOM.DIST (1556.2455,61.2%, BENAR) = 0,012
Namun, ini tidak memperhitungkan perbedaan hasil pertama, hanya mengasumsikan hasil pertama adalah probabilitas pengujian.
Apakah ada cara yang lebih baik untuk menguji apakah kedua sampel data ini secara statistik berbeda satu sama lain?
prop.test
:prop.test(c(1556, 1671), c(2455, 2730))
.Jawaban:
Solusinya adalah google away yang sederhana: http://en.wikipedia.org/wiki/Statribution_hypothesis_testing
Jadi, Anda ingin menguji hipotesis nol berikut terhadap alternatif yang diberikan
versus H A : p 1 ≠ p 2H0:p1=p2 HA:p1≠p2
Jadi Anda hanya perlu menghitung statistik uji yang mana
di mana p = n 1 p 1 + n 2 p 2 .p^=n1p^1+n2p^2n1+n2
Jadi sekarang, dalam masalah , p 2 = 0,612 , n 1 = 2455 dan n 2 = 2730.p^1=.634 p^2=.612 n1=2455 n2=2730.
Setelah Anda menghitung statistik pengujian, Anda hanya perlu menghitung nilai wilayah kritis yang sesuai untuk membandingkan statistik pengujian Anda juga. Misalnya, jika Anda menguji hipotesis ini pada tingkat kepercayaan 95% maka Anda perlu membandingkan statistik pengujian Anda dengan nilai wilayah kritis (untuk tes dua sisi ini).zα/2=1.96
Sekarang, jika maka Anda dapat menolak hipotesis nol, jika tidak Anda harus gagal menolak hipotesis nol.z>zα/2
Nah solusi ini berfungsi untuk kasing saat Anda membandingkan dua grup, tetapi tidak digeneralisir ke kasing di mana Anda ingin membandingkan 3 grup.
Namun Anda dapat menggunakan tes Chi Squared untuk menguji apakah ketiga kelompok memiliki proporsi yang sama seperti yang disarankan oleh @Eric dalam komentarnya di atas: "Apakah pertanyaan ini membantu? Stats.stackexchange.com/questions/25299/ ... - Eric"
sumber
Dalam R jawabannya dihitung sebagai:
sumber
Hanya ringkasan:
Jawaban Dan dan Abaumann menyarankan pengujian di bawah model binomial di mana hipotesis nol adalah model binomial tunggal yang disatukan dengan estimasi rata-rata dari data empiris. Jawaban mereka benar dalam teori tetapi mereka membutuhkan perkiraan menggunakan distribusi normal karena distribusi statistik uji tidak persis mengikuti distribusi normal. Oleh karena itu, itu hanya benar untuk ukuran sampel yang besar.
Tetapi jawaban David menunjukkan tes nonparametrik menggunakan uji Fisher. Informasi ada di sini: https://en.wikipedia.org/wiki/Fisher%27s_exact_test Dan itu dapat diterapkan untuk ukuran sampel kecil tetapi sulit untuk menghitung untuk ukuran sampel besar.
Tes mana yang harus digunakan dan seberapa besar Anda mempercayai nilai-p Anda adalah sebuah misteri. Tetapi selalu ada bias dalam tes mana pun untuk memilih.
sumber
The critical regions areZ>Φ−1(1−α/2) and Z<Φ−1(α/2) for the two-tailed test with the usual adjustments for a one-tailed test.
sumber
In Python, statsmodels has a function called
proportions_ztest
. Here is an example of its usage:This prints out:
sumber
Original post: Dan's answer is actually incorrect, not to offend anyone. A z-test is used only if your data follows a standard normal distribution. In this case, your data follows a binomial distribution, therefore a use a chi-squared test if your sample is large or fisher's test if your sample is small.
Edit: My mistake, apologies to @Dan. A z-test is valid here if your variables are independent. If this assumption is not met or unknown, a z-test may be invalid.
sumber