Bagaimana Karl Pearson menghasilkan statistik chi-squared?

14

Bagaimana Pearson menghasilkan statistik chi-square Pearson berikut pada tahun 1900?

bahwa Kχ2

K=(OijEij)2Eij
Kχ2

Apakah dia memiliki chi-squared dalam pikiran dan menyusun metrik (pendekatan bottom-up), atau apakah dia menyusun statistik dan kemudian membuktikan bahwa itu mengikuti distribusi chi-squared (top-down)?K

Saya ingin tahu mengapa ia memilih bahwa bentuk tertentu dan bukan yang lain seperti atau Σ | O i j - E i j | , dan juga mengapa dia membagi kotak dengan penyebut.(OijEij)2|OijEij|

Alby
sumber
1
Anda mungkin menemukan ini menarik: Mengapa kuadratkan perbedaan daripada mengambil nilai absolut dalam standar deviasi?
gung - Reinstate Monica
1
Tentu saja dimungkinkan untuk memiliki sejumlah statistik yang dapat Anda gunakan. Alternatif Anda baik-baik saja, meskipun Anda harus menghitung distribusi sampel untuk mereka, yang akan berbeda berdasarkan jumlah sel. Satu hal yang sesuai dengan formulir ini adalah bahwa ia memiliki hubungan tertentu dengan distribusi lain, misalnya distribusi jumlah k kuadrat standar normal varian acak.
gung - Reinstate Monica

Jawaban:

23

Kertas Pearson 1900 tidak memiliki hak cipta, sehingga kami dapat membacanya secara online .

Anda harus mulai dengan mencatat bahwa makalah ini adalah tentang uji goodness of fit, bukan tes independensi atau homogenitas.

Dia melanjutkan dengan bekerja dengan normal multivariat, dan chi-square muncul sebagai jumlah dari kuadrat normal standar kuadrat.

Anda dapat melihat dari diskusi pada halaman 160-161 dia jelas sedang membahas penerapan tes untuk data terdistribusi multinomial (saya tidak berpikir dia menggunakan istilah itu di mana saja). Dia tampaknya memahami perkiraan normal multivariat multinomial (tentu saja dia tahu margin sekitar normal - itu adalah hasil yang sangat lama - dan tahu cara, varian dan kovarian, karena mereka dinyatakan di koran); Dugaan saya adalah bahwa sebagian besar dari barang-barang itu sudah tua pada tahun 1900. (Perhatikan bahwa distribusi chi-squared sendiri kembali bekerja oleh Helmert pada pertengahan 1870-an.)

Kemudian pada bagian bawah p163 ia memperoleh statistik chi-square sebagai "ukuran goodness of fit" (statistik itu sendiri muncul dalam eksponen perkiraan normal multivariat).

χ122

* (perhatikan bahwa baik paradigma pengujian Fisherian maupun Neyman-Pearson tidak ada, namun kami melihatnya dengan jelas menerapkan konsep nilai-p.)

(OiEi)2/Eim1m2m1e=mme2/m

Sebagian besar cara pemahaman uji chi-square saat ini belum ada, tetapi di sisi lain, sudah cukup banyak (setidaknya jika Anda tahu apa yang harus dicari). Banyak yang terjadi pada 1920-an (dan seterusnya) yang mengubah cara kita memandang hal-hal ini.


EiEiEi


Ditambahkan di edit:

Makalah 1983 oleh Plackett memberikan banyak konteks sejarah, dan sesuatu panduan untuk kertas. Saya sangat merekomendasikan melihatnya. Sepertinya ini online gratis melalui JStor (jika Anda masuk), jadi Anda bahkan tidak perlu akses melalui institusi untuk membacanya.

Plackett, RL (1983),
"Karl Pearson dan Tes Chi-Squared,"
Tinjauan Statistik Internasional ,
Vol. 51, No. 1 (Apr), hlm. 59-72

Glen_b -Reinstate Monica
sumber
1
Saya baru saja membaca ulang posting ini dan saya setiap kali melakukannya, saya mendapatkan wawasan tambahan. @ Glen_b Saya ingin mengucapkan terima kasih atas jawaban luar biasa Anda, yang seharusnya saya lakukan sebelumnya. Jika saya dapat mengajukan pertanyaan tambahan, dalam penjelasan Anda tentang bagaimana pembagian oleh E menyesuaikan kovarians, dapatkah Anda menjelaskan lebih lanjut tentang hal itu atau mengarahkan saya ke sumber yang membahas poin ini? Secara intuitif saya dapat memahami mengapa "normalisasi" diperlukan, tetapi saya ingin mendukung intuisi saya dengan bukti matematika.
Alby
1
Ei
1
XiCov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj)
Terima kasih atas tautannya @Glen_b. Setelah membaca posting, itu jauh lebih jelas sekarang! Saya naif berpikir bahwa penyebut ada untuk menyesuaikan perbedaan awal untuk setiap sel, sehingga istilah "normalisasi", tetapi membaca posting Anda, saya menyadari saya benar-benar keluar dari sasaran.
Alby
Sayangnya, kata 'normalisasi' setidaknya memiliki tiga pengertian berbeda yang relevan dalam statistik. Tanpa hiasan, saya biasanya hanya menggunakannya untuk berarti "standar untuk berarti 0 dan standar deviasi 1" tetapi orang lain menggunakannya untuk berarti 'menormalkan' dalam arti menormalkan vektor sesuai dengan beberapa norma, atau bahkan untuk mengubah ke perkiraan normalitas. Karena ini adalah momok di sini, saya harus tahu sekarang untuk menghindarinya.
Glen_b -Reinstate Monica