Uji statistik untuk meningkatkan kejadian peristiwa langka

Saya telah mengikuti data simulasi dari 2500 orang tentang kejadian penyakit langka selama 20 tahun

year number_affected
1   0
2   0
3   1
4   0
5   0
6   0
7   1
8   0
9   1
10  0
11  1
12  0
13  0
14  1
15  1
16  0
17  1
18  0
19  2
20  1

Tes apa yang dapat saya terapkan untuk menunjukkan bahwa penyakit ini menjadi lebih umum?

Sunting: seperti yang disarankan oleh @Wrzlprmft Saya mencoba korelasi sederhana menggunakan metode Spearman dan juga Kendall:

        Spearman's rank correlation rho

data:  year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.3989206 

Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
  Cannot compute exact p-value with ties
> 



        Kendall's rank correlation tau

data:  year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
      tau 
0.3296319 

Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
  Cannot compute exact p-value with ties

Apakah ini cukup baik untuk jenis data ini? Uji Mann Kendall menggunakan metode yang ditunjukkan oleh @AWebb memberikan nilai P [1] 0,04319868. Regresi Poisson yang disarankan oleh @dsaxton memberikan hasil sebagai berikut:

Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.3187  -0.8524  -0.6173   0.5248   1.2158  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -1.79664    0.85725  -2.096   0.0361 *
year         0.09204    0.05946   1.548   0.1217  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 16.636  on 19  degrees of freedom
Residual deviance: 14.038  on 18  degrees of freedom
AIC: 36.652

Number of Fisher Scoring iterations: 5

Komponen tahun di sini tidak signifikan. Apa yang akhirnya bisa saya simpulkan? Juga, dalam semua analisis ini, angka 2500 (jumlah populasi penyebut) belum digunakan. Apakah angka itu tidak membuat perbedaan? Bisakah kita menggunakan regresi linier sederhana (Gaussian) menggunakan kejadian (number_affected / 2500) dibandingkan tahun?

time-series hypothesis-testing trend juga
sumber

Beberapa sumber daya yang mungkin berguna bagi Anda: Survei Geologi AS telah menerbitkan buku teks online, Metode Statistik dalam Sumber Daya Air . Bab analisis tren, di sini , membahas hal-hal seperti tes Mann-Kendal dan kapan Anda lebih suka melakukan analisis regresi. Ini juga menunjukkan cara menangani musiman, yang mungkin relevan bagi Anda jika data Anda triwulanan dan bukan tahunan.

Silverfish

Menariknya, implementasi Scipy dari Kendall's τ menghasilkan koefisien yang sama tetapi nilai- p yang sangat berbeda , yaitu 0,042.

Wrzlprmft

Mengenai model Poisson, saya lebih suka menggunakan drop1(fit, test="LRT")untuk melakukan tes rasio kemungkinan, daripada melakukan uji- z asimptotik pada statistik Poisson. (Melakukannya memberi Anda nilai- p 0,107, jadi masih tidak signifikan secara statistik.) Anda tidak perlu memasukkan jumlah populasi dalam regresi jika itu sama untuk setiap tahun. Maka itu hanya memainkan peran faktor penskalaan. Tapi Anda harus memasukkannya (dengan nilai-nilai populasi per tahun), sebagai populasi berisiko mungkin tidak bervariasi selama dua puluh tahun. Tambahkan saja offset=log(pop_at_risk)ke glmpanggilan.

Karl Ove Hufthammer

Jawaban:

Anda dapat menggunakan uji Mann-Kendall non-parametrik . Untuk data sampel ini, casesdan hipotesis nol satu sisi bahwa tidak ada tren yang meningkat, Anda dapat menerapkannya sebagai berikutr.

> n<-length(cases)
> d<-outer(cases,cases,"-")
> s<-sum(sign(d[lower.tri(d)]))
> ties<-table(cases)
> v<-1/18*(n*(n-1)*(2*n+5)-sum(ties*(ties-1)*(2*ties+5)))
> t<-sign(s)*(abs(s)-1)/sqrt(v)
> 1-pnorm(t)
[1] 0.04319868

Dan tolak pada level 5% untuk tren yang meningkat.

A. Webb
sumber

Apakah Anda kebetulan tahu apakah ada perbedaan antara tes Mann-Kendall dan tes signifikansi normal untuk Kendall's τ? Atau apakah tes Mann-Kendall bahkan cara normal untuk mendapatkan nilai signifikansi untuk τ Kendall? Setidaknya statistik uji hanya berbeda dengan faktor normalisasi yang hanya tergantung pada panjang deret waktu:

S = \frac{1}{2} n (n - 1) τ .

$S = \tfrac{1}{2} n (n-1) τ.$

Wrzlprmft

@Wrzlprmft Ini adalah tes signifikansi perkiraan normal khas di hadapan ikatan. The Artikel Wikipedia memiliki informasi yang baik / referensi untuk berbagai penyesuaian yang diperlukan untuk account untuk hubungan.

A. Webb

Anda dapat menyesuaikan model regresi yang sangat sederhana yang hanya terdiri dari komponen intersep dan waktu dan uji "signifikansi" komponen waktu. Misalnya, Anda dapat memodelkan Poisson mana adalah jumlah kejadian pada tahun dan dan memeriksa apakah . $Y_t \sim$ $(\lambda_t)$ $Y_t$ $t$ $\log(\lambda_t) = \alpha + \beta t$ $\beta > 0$

dsaxton
sumber

Saya setuju bahwa regresi Poisson sesuai. Dan jika seseorang memiliki lebih banyak data, seseorang bahkan dapat menyesuaikan tingkat kejadian (log) sebagai fungsi waktu non-linear . Keuntungan tambahan dari regresi Poisson adalah mudah untuk memperhitungkan jumlah orang yang berisiko . Dan ketika seseorang berurusan dengan waktu, ini sangat penting, karena tren (mungkin) dalam insiden yang kita lihat mungkin hanya efek dari peningkatan populasi yang berisiko , bukan tingkat insiden yang meningkat . (Misalnya, populasi dunia telah meningkat seperempat dalam dua puluh tahun terakhir.)

Karl Ove Hufthammer

Cukup periksa apakah jumlah kasus baru Anda (yaitu, number_affected) berkorelasi signifikan dengan waktu (yaitu, year). Karena setiap ketergantungan linear yang mungkin dari laju kejadian setidaknya terdistorsi ke diskresi pengamatan, Anda ingin menggunakan koefisien korelasi berbasis peringkat, misalnya, Kendall's τ atau Spearman's ρ.

Wrzlprmft
sumber

Sebenarnya saya maksudkan insiden yaitu number_affected menunjukkan kasus baru pada tahun itu. Tetapi metode korelasi sederhana Anda juga bisa digunakan untuk itu.

rnso

@ rnso: Sebenarnya saya maksudkan insiden yaitu number_affected menunjukkan kasus baru pada tahun itu. - Begitulah saya memahaminya dan saya tidak melihat kontradiksi.

Wrzlprmft

Saya membuat komentar itu karena Anda menggunakan kata 'prevalensi' dalam jawaban Anda. Prevalensi akan mencakup kasus-kasus tahun sebelumnya juga (kecuali jika mereka telah meninggal). en.wikipedia.org/wiki/…

rnso

@ rnso: Ah, poin sudah diambil.

Wrzlprmft

Ukuran korelasi, seperti Kendalls τ atau Spearman ρ, tidak tepat, karena mereka dibuat untuk variabel acak , dan di sini salah satu variabel (waktu) jelas tidak acak sama sekali. Lihat, misalnya, Jangan Merangkum Skema Pengambilan Sampel Regresi dengan Korelasi . Selain itu, τ yang Kendalls atau ρ Spearman tes tidak akan bekerja dengan baik, karena ada sejumlah besar hubungan dalam data. Pendekatan regresi akan lebih baik, misalnya, regresi Poisson (dengan fungsi tren yang sesuai) dan uji rasio kemungkinan.

Karl Ove Hufthammer