Saya telah membaca bahwa uji chi square berguna untuk melihat apakah sampel berbeda secara signifikan dari serangkaian nilai yang diharapkan.
Misalnya, berikut adalah tabel hasil survei mengenai warna favorit orang (n = 15 + 13 + 10 + 17 = 55 total responden):
red,blue,green,yellow
15,13,10,17
Sebuah uji chi square dapat memberitahu saya jika sampel ini berbeda secara signifikan dari hipotesis nol probabilitas yang sama orang menyukai setiap warna.
Pertanyaan: Dapatkah tes dijalankan pada proporsi total responden yang menyukai warna tertentu? Seperti di bawah ini:
red,blue,green,yellow
0.273,0.236,0.182,0.309
Di mana, tentu saja, 0,273 + 0,236 + 0,182 + 0,309 = 1.
Jika uji chi square tidak cocok dalam kasus ini, tes apa yang akan dilakukan? Terima kasih!
Sunting: Saya mencoba @Roman Luštrik menjawab di bawah, dan mendapatkan output berikut, mengapa saya tidak mendapatkan nilai-p dan mengapa R mengatakan "Perkiraan Chi-squared mungkin salah"?
> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))
Chi-squared test for given probabilities
data: c(0, 0, 0, 8, 6, 2, 0, 0)
X-squared = NaN, df = 7, p-value = NA
Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395, :
Chi-squared approximation may be incorrect
Jawaban:
Perbaiki saya jika saya salah, tapi saya pikir ini bisa dilakukan di R menggunakan perintah ini
Ini mengasumsikan proporsi masing-masing 1/4. Anda dapat mengubah nilai yang diharapkan melalui argumen
p
. Misalnya, Anda berpikir orang mungkin lebih suka (karena alasan apa pun) satu warna daripada yang lain.sumber
Menggunakan informasi tambahan yang Anda berikan (karena sebagian dari nilai-nilai tersebut adalah 0), cukup jelas mengapa solusi Anda tidak menghasilkan apa-apa. Untuk satu, Anda memiliki probabilitas yaitu 0, jadi:
Yang membuat divisi tidak mungkin. Sekarang mengatakan berarti bahwa tidak mungkin untuk mendapatkan hasil itu. Jika demikian, Anda mungkin juga menghapusnya dari data (lihat komentar @ cardinal). Jika yang Anda maksud sangat tidak mungkin, 'solusi' pertama mungkin untuk meningkatkan peluang 0 itu dengan angka yang sangat kecil.p=0
Diberikan:
Anda bisa melakukannya:
Tapi ini bukan hasil yang benar. Dalam hal apa pun, seseorang harus menghindari penggunaan uji chi-square dalam kasus-kasus batas ini. Pendekatan yang lebih baik adalah menggunakan pendekatan bootstrap, menghitung statistik uji yang disesuaikan dan membandingkan yang dari sampel dengan distribusi yang diperoleh oleh bootstrap.
Dalam kode R ini bisa (langkah demi langkah):
Ini memberikan nilai p 0, yang jauh lebih sesuai dengan perbedaan antara yang diamati dan yang diharapkan. Ingat, metode ini menganggap data Anda diambil dari distribusi multinomial. Jika asumsi ini tidak berlaku, nilai-p tidak berlaku juga.
sumber
Tes chi-square baik selama jumlah yang diharapkan besar, biasanya di atas 10 baik-baik saja. di bawah ini cenderung mendominasi tes. Statistik uji pasti diberikan oleh:1E(xi)
Di mana adalah jumlah yang diamati dalam kategori i . i ∈ { merah, biru, hijau, kuning } dalam contoh Anda. n adalah ukuran sampel Anda, sama dengan 55 pada contoh Anda. p i adalah hipotesis yang ingin Anda uji - yang paling jelas adalah p i = p j (semua probabilitas sama). Anda dapat menunjukkan bahwa statistik chi-square:xi i i∈{red, blue, green, yellow} n 55 pi pi=pj
Dalam hal frekuensi yang diamati, kita dapatkan:fi=xin
χ2=nΣi(fi-pi)2
(Perhatikan bahwa adalah efektif perbedaan KL antara hipotesis dan nilai-nilai yang diamati). Anda mungkin dapat melihat secara intuitif mengapa ψ lebih baik untuk p i kecil , karena ia memiliki 1ψ ψ pi 1pi ψ
sumber
Ya, Anda dapat menguji hipotesis nol: "H0: prop (merah) = prop (biru) = prop (hijau) = prop (kuning) = 1/4" menggunakan uji chi square yang membandingkan proporsi survei (0,273 , ...) dengan proporsi yang diharapkan (1/4, 1/4, 1/4, 1/4)
sumber
Statistik uji untuk uji chi-square Pearson adalah
If you writeoi=Oin and ei=Ein to have proportions, where n=∑ni=1Oi is the sample size and ∑ni=1ei=1 , then the test statistic is is equal to
so a test of the significance of the observed proportions depends on the sample size, much as one would expect.
sumber