Saya mengumpulkan sampel kategori data yang sangat besar (> 1.000.000) setiap hari dan ingin melihat data yang terlihat "berbeda" secara signifikan antar hari untuk mendeteksi kesalahan dalam pengumpulan data.
Saya pikir menggunakan tes good-of-fit (khususnya, G-test) akan menjadi cocok (pun intended) untuk ini. Distribusi yang diharapkan diberikan oleh distribusi hari sebelumnya.
Tapi, karena ukuran sampel saya sangat besar, tes ini memiliki daya yang sangat tinggi dan mengeluarkan banyak positif palsu. Dengan kata lain, fluktuasi harian yang sangat kecil sekalipun akan memberikan nilai p mendekati nol.
Saya akhirnya mengalikan statistik pengujian saya dengan beberapa konstan (0,001), yang memiliki interpretasi yang bagus dari pengambilan sampel data pada tingkat itu. Artikel ini tampaknya setuju dengan pendekatan ini. Mereka mengatakan itu:
Chi square paling dapat diandalkan dengan sampel antara sekitar 100 hingga 2500 orang
Saya mencari beberapa komentar yang lebih otoritatif tentang ini. Atau mungkin beberapa solusi alternatif untuk false positive ketika menjalankan tes statistik pada set data besar.
sumber
Jawaban:
Tes ini mengembalikan hasil yang benar. Distribusi tidak sama dari hari ke hari. Ini, tentu saja, tidak ada gunanya bagimu. Masalah yang Anda hadapi sudah lama diketahui. Lihat: Karl Pearson dan RA Fisher tentang Tes Statistik: Pertukaran 1935 dari Alam
Alih-alih, Anda dapat melihat kembali data sebelumnya (baik milik Anda atau dari tempat lain) dan dapatkan distribusi perubahan harian untuk setiap kategori. Kemudian Anda memeriksa apakah perubahan saat ini kemungkinan telah terjadi mengingat distribusi itu. Sulit untuk menjawab lebih spesifik tanpa mengetahui tentang data dan jenis kesalahan, tetapi pendekatan ini tampaknya lebih cocok untuk masalah Anda.
sumber
Mari kita pergi dan membunuh sapi suci 5%.
Anda telah (dengan benar) menunjukkan bahwa masalahnya adalah kekuatan uji yang sangat bersemangat. Anda mungkin ingin mengkalibrasi ulang ke arah kekuatan yang lebih relevan, seperti mengatakan nilai yang lebih tradisional yaitu 80%:
Perlu diingat bahwa perkiraan, baik untuk nol dan alternatif, dapat bekerja buruk di bagian ekor, lihat diskusi ini .
sumber
Dalam kasus ini, profesor saya menyarankan untuk menghitung Cramér's V yang merupakan ukuran asosiasi berdasarkan statistik chi-squared. Ini akan memberi Anda kekuatan dan membantu Anda memutuskan apakah tes ini hipersensitif. Tapi, saya tidak yakin apakah Anda dapat menggunakan V dengan jenis statistik yang akan diuji kembali oleh G2.
Ini harus menjadi rumus untuk V:
sumber
Salah satu pendekatan adalah untuk membuat tes goodness-of fit lebih bermakna dengan melakukan mereka pada blok data yang lebih kecil.
sumber