Cara aneh menghitung chi-squared di Excel vs R

Saya melihat lembar excel yang mengklaim menghitung $\chi^2$ , tetapi saya tidak mengenali cara melakukannya, dan saya bertanya-tanya apakah saya kehilangan sesuatu.

Berikut adalah data yang dianalisis:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

Dan di sini adalah jumlah yang dilakukan untuk setiap kelompok untuk menghitung chi square:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Jadi untuk setiap grup adalah: $\chi^2$

Dan total Chi Square adalah: 11.54139.

Namun, setiap contoh yang saya lihat tentang menghitung sama sekali berbeda dari ini. Saya akan lakukan untuk setiap kelompok: $\chi^2$

chiSq = (Observed-Expected)^2 / Expected

Dan oleh karena itu untuk contoh di atas saya akan mendapatkan nilai total chi square 11.3538.

Pertanyaan saya adalah - mengapa dalam lembar excel mereka menghitung dengan cara ini? Apakah ini pendekatan yang dikenal? $\chi^2$

MEMPERBARUI

Alasan saya ingin tahu ini adalah karena saya mencoba mereplikasi hasil ini dalam bahasa R. Saya menggunakan fungsi chisq.test dan tidak keluar dengan nomor yang sama dengan lembar Excel. Jadi, jika ada yang tahu bagaimana melakukan pendekatan ini dalam R akan sangat membantu!

PEMBARUAN 2

Jika ada yang tertarik, inilah cara saya menghitungnya di R:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)

r chi-squared excel pengguna1578653
sumber

Pendekatan dalam pembaruan kedua Anda harus memberikan statistik yang benar. Namun, jika ekspektasi Anda tidak didasarkan pada jumlah yang diamati, Anda bisa memiliki masalah karena nilai p ada syarat untuk itu. Namun, saya perhatikan yang diharapkan dan diamati memiliki total yang sama (tidak mungkin terjadi secara kebetulan) jadi ini semua mungkin baik-baik saja. Anda bisa melakukannya dengan lebih mudah dengan cara ini:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))

Glen_b -Reinstate Monica

@ Glen_b Di lembar Excel saya percaya harapan bekerja dengan melakukan Total Population * nilai 'P' yang saya kerjakan di atas. Apakah ini akan menjadi masalah? Juga total populasi berbeda-beda - sebagian besar waktu adalah 2000 tetapi bisa benar-benar jumlahnya. Lembar Excel yang saya coba buat ulang di sini tidak benar-benar memperhitungkan nilai-p, jadi jika statistik tidak akan terpengaruh oleh ini maka mungkin itu bukan masalah ...

user1578653

Pertanyaannya bermuara di mana p berasal. Apakah mereka melibatkan melihat jumlah total yang diamati?

Glen_b -Reinstate Monica

Nah untuk saya sepertinya Ps, dan oleh karena itu diharapkan didasarkan pada kedua jumlah total yang diamati dan jumlah penduduk ... Namun di semua contoh yang telah diberikan dalam lembar Excel nilai yang diharapkan juga tampaknya cocok dengan jumlah total yang diamati / jumlah hitungan.

user1578653

Jika p didasarkan pada penghitungan dengan cara itu, tentu saja yang diharapkan mengikuti. Jika itu masalahnya, kelihatannya derajat kebebasan dan sebagainya sama dengan cara Anda melakukannya di R - tetapi beberapa kata dari penjelasan saya mungkin perlu diubah.

Glen_b -Reinstate Monica

Jawaban:

Ini ternyata sangat mudah.

Ini jelas pengambilan sampel binomial. Ada dua cara untuk melihatnya.

$X_i$ $\sim \text{Bin}(N_i,p_i)$ $\text{N}(\mu_i=N_i\cdot p_i,\sigma_i^2=N_i\cdot p_i(1-p_i))$ $Z_i=(X_i-\mu_i)/\sigma_i$ $Z$ $\sum_i Z_i^2\sim \chi^2$

$Z$

$(O-E)^2/E$

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

$E$ $N_i(1-p_i)$

$(O-E)^2/E$

$1/p + 1/(1-p) = 1/p(1-p)$ $^{th}$

\begin{array}{rcl} \frac{(X_{saya} - μ_{saya})^{2}}{σ_{saya}^{2}} & = & \frac{(X_{saya} - N_{saya} {hal}_{saya})^{2}}{N_{saya} {hal}_{saya} (1 - {hal}_{saya})} \\ = & \frac{(X_{saya} - N_{saya} {hal}_{saya})^{2}}{N_{saya} {hal}_{saya}} + \frac{(X_{saya} - N_{saya} {hal}_{saya})^{2}}{N_{saya} (1 - {hal}_{saya})} \\ = & \frac{(X_{saya} - N_{saya} {hal}_{saya})^{2}}{N_{saya} {hal}_{saya}} + \frac{(N_{saya} - N_{saya} + N_{saya} {hal}_{saya} - X_{saya})^{2}}{N_{saya} (1 - {hal}_{saya})} \\ = & \frac{(X_{saya} - N_{saya} {hal}_{saya})^{2}}{N_{saya} {hal}_{saya}} + \frac{(N_{saya} - X_{saya} - (N_{saya} - N_{saya} {hal}_{saya}))^{2}}{N_{saya} (1 - {hal}_{saya})} \\ = & \frac{(X_{saya} - N_{saya} {hal}_{saya})^{2}}{N_{saya} {hal}_{saya}} + \frac{((N_{saya} - X_{saya}) - N_{saya} (1 - {hal}_{saya}))^{2}}{N_{saya} (1 - {hal}_{saya})} \\ = & \frac{({HAI}_{saya}^{(SEBUAH)} - E_{saya}^{(SEBUAH)})^{2}}{E_{saya}^{(SEBUAH)}} + \frac{({HAI}_{saya}^{(\bar{SEBUAH})} - E_{saya}^{(\bar{SEBUAH})})^{2}}{E_{saya}^{(\bar{SEBUAH})}} \end{array}

$\begin{eqnarray} \frac{(X_i - \mu_i)^2}{\sigma_i^2} &=& \frac{(X_i- N_ip_i)^2}{N_ip_i(1-p_i)}\\ &=& \frac{(X_i- N_ip_i)^2}{N_ip_i} +\frac{(X_i- N_ip_i)^2}{N_i(1-p_i)}\\ &=& \frac{(X_i- N_ip_i)^2}{N_ip_i} +\frac{(N_i-N_i+N_ip_i-X_i)^2}{N_i(1-p_i)}\\ &=& \frac{(X_i- N_ip_i)^2}{N_ip_i} +\frac{(N_i-X_i-(N_i-N_ip_i))^2}{N_i(1-p_i)}\\ &=& \frac{(X_i- N_ip_i)^2}{N_ip_i} +\frac{((N_i-X_i)-N_i(1-p_i))^2}{N_i(1-p_i)}\\ &=& \frac{(O^{(A)}_i- E^{(A)}_i)^2}{E^{(A)}_i} +\frac{(O^{(\bar A)}_i-E^{(\bar A)}_i)^2}{E^{(\bar A)}_i} \end{eqnarray}$

Yang berarti Anda harus mendapatkan jawaban yang sama dua arah, hingga kesalahan pembulatan.

Ayo lihat:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649

Chi-square = 11.353846 + 0.187548 = 11.54139

Yang cocok dengan jawaban mereka.

Glen_b -Reinstate Monica
sumber

Terima kasih atas bantuan Anda! Saya bukan ahli matematika / ahli statistik jadi ini awalnya membingungkan saya, tetapi penjelasan Anda sangat mudah dimengerti.

user1578653