Bagaimana cara menghitung tingkat kepercayaan untuk distribusi Poisson?

32

Ingin tahu seberapa yakin saya di saya . Adakah yang tahu cara mengatur tingkat kepercayaan atas dan bawah untuk distribusi Poisson?λ

  • Pengamatan ( ) = 88n
  • Sampel rata-rata ( ) = 47,18182λ

seperti apa kepercayaan 95% untuk ini?

Travis
sumber
Anda juga dapat mempertimbangkan bootstrap estimasi Anda. Berikut ini adalah tutorial singkat tentang bootstrap.
Mark T Patterson

Jawaban:

27

Bagi Poisson, rerata dan varians keduanya . Jika Anda ingin interval kepercayaan sekitar lambda, Anda dapat menghitung kesalahan standar sebagai .λλ/n

Interval kepercayaan 95 persen adalah .λ^±1.96λ^/n

Nick Stauner
sumber
26
Ini bagus ketika besar, karena Poisson cukup didekati dengan distribusi Normal. Untuk nilai yang lebih kecil atau kepercayaan yang lebih tinggi, interval yang lebih baik tersedia. Lihat math.mcmaster.ca/peter/s743/poissonalpha.html untuk mereka berdua bersama dengan analisis cakupan aktual mereka. (Di sini, interval "tepat" adalah (45.7575, 48.6392), interval "Pearson" adalah (45.7683, 48.639), dan perkiraan Normal memberikan (45.7467, 48.617): itu sedikit terlalu rendah, tetapi cukup dekat, karenan λ = 4152nλnλ=4152
4152.
4
Untuk yang lain bingung seperti saya: di sini adalah deskripsi dari mana 1,96 berasal.
mjibson
2
Bagaimana Anda menghitung interval yang tepat untuk masalah ini mengingat informasi di situs web yang diberikan oleh whuber? Saya tidak dapat mengikuti karena situs itu tampaknya hanya menunjukkan cara melanjutkan ketika Anda memiliki satu sampel. Mungkin saya hanya tidak memahami sesuatu yang sederhana tetapi distribusi saya memiliki nilai lambda (n) yang jauh lebih kecil sehingga saya tidak dapat menggunakan perkiraan normal dan saya tidak tahu bagaimana menghitung nilai yang tepat. Bantuan apa pun akan sangat dihargai. Terima kasih!
Di sini mereka menggunakan standar deviasi dari mean bukan? Yaitu , SE = sig/sqrt(N) = sqrt(lam/N)? Ini masuk akal karena standar deviasi nilai tunggal sigmemberi tahu kita tentang kemungkinan pengambilan sampel acak dari distribusi Poisson, sedangkan SEseperti yang didefinisikan di atas memberi tahu kita tentang kepercayaan kita lam, mengingat jumlah sampel yang telah kita gunakan untuk memperkirakannya.
AlexG
17

Makalah ini membahas 19 cara berbeda untuk menghitung interval kepercayaan untuk rata-rata distribusi Poisson.

http://www.ine.pt/revstat/pdf/rs120203.pdf

Tom
sumber
2
Meskipun pemberitahuan mod di sini, saya suka jawaban ini apa adanya, karena menunjukkan bahwa ada kurang dari konsensus umum tentang bagaimana mengevaluasi sistem Poisson yang diukur.
Carl Witthoft
7

Selain jawaban yang diberikan orang lain, pendekatan lain untuk masalah ini dicapai melalui pendekatan berbasis model. Pendekatan teorema limit pusat tentu saja valid, dan perkiraan bootstrap menawarkan banyak perlindungan dari sampel kecil dan masalah kesalahan spesifikasi mode.

Untuk efisiensi semata, Anda bisa mendapatkan interval kepercayaan yang lebih baik untuk dengan menggunakan pendekatan berbasis model regresi. Tidak perlu melalui derivasi, tetapi perhitungan sederhana dalam R seperti ini:λ

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

Ini adalah estimasi interval non-simetris, ingatlah, karena parameter alami poisson glm adalah laju relatif log! Ini merupakan keuntungan karena ada kecenderungan untuk menghitung data yang condong ke kanan.

Pendekatan di atas memiliki formula dan itu adalah:

exp(logλ^±1nλ^)

Interval kepercayaan ini "efisien" dalam arti bahwa ia berasal dari estimasi kemungkinan maksimum pada skala parameter (log) alami untuk data Poisson, dan memberikan interval kepercayaan yang lebih ketat daripada yang didasarkan pada skala hitungan sambil mempertahankan cakupan nominal 95% .

AdamO
sumber
+1 Saya pikir saya akan menggunakan kata sifat yang berbeda dari efisiensi (atau lebih jelas maksud Anda efisiensi komputasi atau kode golf). Komentar whuber menunjuk ke sumber daya yang memberikan interval yang tepat, dan pendekatan glm didasarkan pada hasil asimptotik juga. (Tapi ini lebih umum, jadi saya suka merekomendasikan pendekatan itu juga.)
Andy W
Sebenarnya memikirkan hal ini lagi, cakupan tautan whuber yang tepat ke (saya pikir) hanya berlaku jika Anda menentukan tanpa melihat data. Lihat simulasi cepat, cakupan dihitung berdasarkan nilai yang diamati (untuk pengamatan baru) jauh lebih rendah. Simulasi cepat di sini . μ
Andy W
1
Apa wewenang Anda untuk formula itu. Bisakah kita memiliki kutipan?
pauljohn32
@AndyW: tautan Anda tidak valid untuk simulasi cepat
pauljohn32
1
@ pauljohn32 periksa teks Casella Berger terutama pada keluarga eksponensial, laju log adalah parameter alami.
AdamO
5

Diberikan pengamatan dari distribusi Poisson ,

  • jumlah acara yang dihitung adalah n.
  • mean ( ) dan varians ( ) sama.σ 2λσ2

Selangkah demi selangkah,

  • The estimasi untuk mean adalahλ^=nλ
  • Dengan asumsi jumlah kejadian cukup besar ( ), yang standard error adalah standar deviasi , yang kita juga bisa memperkirakan,σn>20σ

stderr=σ=λn

Sekarang, interval kepercayaan 95% adalah,

I=λ^±1.96 stderr=n±1.96 n

[Diedit] Beberapa perhitungan berdasarkan data pertanyaan,

  • Dengan asumsi ditunjukkan dalam pertanyaan telah dicek secara eksternal atau diberikan kepada kami, yaitu, itu adalah informasi yang baik dan bukan perkiraan.λ

    Saya membuat asumsi ini karena pertanyaan awal tidak memberikan konteks apa pun tentang percobaan atau bagaimana data diperoleh (yang paling penting ketika memanipulasi data statistik).

  • Interval kepercayaan 95% adalah, untuk kasus tertentu,

I=λ±1.96 stderr=λ±1.96 λ=47.18182±1.96 47.18182[33.72,60.64]

Oleh karena itu, karena pengukuran (n = 88 peristiwa) berada di luar interval kepercayaan 95%, kami menyimpulkan bahwa,

  1. Proses tidak mengikuti proses Poisson, atau,

  2. The kita telah diberikan tidak benar.λ


Catatan penting : jawaban yang diterima pertama di atas salah , karena salah menyatakan bahwa kesalahan standar untuk pengamatan Poisson adalah . Itu adalah kesalahan standar untuk proses Sampel Mean (Sampel Survei).λ/n

jose.angel.jimenez
sumber
1
Selamat datang di situs ini! Tapi @Travis "ingin tahu seberapa percaya diri saya di " saya, jadi itu harus menjadi interval kepercayaan di sekitar mean sampel. Selain itu, apa yang Anda maksud dengan , mengingat masing-masing 88 dan 47? n λλnλ
Randel
2
Terima kasih! Saya sekarang telah mengedit jawaban termasuk beberapa perhitungan tertentu. Pertanyaannya tidak menjelaskan bagaimana dan n telah diperoleh, jadi saya membuat tebakan yang berpendidikan. Seperti yang Anda katakan, jika n berbeda terlalu banyak dari adalah petunjuk pertama bahwa model mungkin bukan Poisson atau pengukuran tidak dilakukan dengan benar. Salah satu cara untuk memeriksanya adalah dengan tepat menghitung interval kepercayaan 95% yang, dalam hal ini, menunjukkan n berada di luar interval. λλλ
jose.angel.jimenez
2
Saya percaya respons oleh jose.angel.jiminez di atas tidak benar, dan timbul karena salah membaca pertanyaan awal. Poster asli menyatakan "Pengamatan (n) = 88" - ini adalah jumlah interval waktu yang diamati, bukan jumlah peristiwa yang diamati secara keseluruhan, atau per interval. Jumlah rata-rata peristiwa per interval, di atas sampel 88 interval pengamatan, adalah lambda yang diberikan oleh poster asli. (Saya akan memasukkan ini sebagai komentar pada posting Jose, tetapi saya terlalu baru ke situs untuk diizinkan berkomentar.)
user44436
@ user44436 menambahkan jawaban yang seharusnya menjadi komentar. Saya mem-posting ulang sebagai komentar sehingga Anda dapat melihatnya dan karena sebagai non-jawaban itu bisa dihapus: ------- Saya percaya respons oleh jose di atas tidak benar dan timbul karena salah membaca pertanyaan awal. Poster asli menyatakan Pengamatan (n) = 88 - ini adalah jumlah interval waktu yang diamati, bukan jumlah peristiwa yang diamati secara keseluruhan, atau per interval. Jumlah rata-rata peristiwa per interval selama sampel dari 88 interval pengamatan adalah lambda yang diberikan oleh poster asli.
Mörre