Pertanyaan awal (7/25/14): Apakah kutipan dari media berita ini masuk akal, atau adakah cara statistik yang lebih baik untuk melihat serentetan kecelakaan pesawat baru-baru ini?
Namun, Barnett juga menarik perhatian pada teori distribusi Poisson, yang menyiratkan bahwa interval pendek antara crash sebenarnya lebih mungkin daripada yang lama.
"Misalkan ada rata-rata satu kecelakaan fatal per tahun, yang berarti bahwa kemungkinan kecelakaan pada hari tertentu adalah satu dalam 365," kata Barnett. "Jika ada crash pada 1 Agustus, kemungkinan crash berikutnya terjadi satu hari kemudian pada 2 Agustus adalah 1/365. Tapi kemungkinan crash berikutnya pada 3 Agustus adalah (364/365) x (1/365) , karena crash berikutnya terjadi pada 3 Agustus hanya jika tidak ada crash pada 2 Agustus. "
"Tampaknya berlawanan dengan intuisi, tetapi kesimpulannya mengikuti tanpa henti dari hukum probabilitas," kata Barnett.
Sumber: http://www.bbc.com/news/magazine-28481060
Klarifikasi (7/27/14): Apa yang kontra intuitif (bagi saya) mengatakan bahwa peristiwa langka cenderung terjadi dalam waktu singkat. Secara intuitif, saya akan berpikir bahwa peristiwa langka tidak akan terjadi dalam waktu dekat. Adakah yang bisa mengarahkan saya ke distribusi yang diharapkan secara teoritis atau empiris dari waktu antara peristiwa di bawah asumsi distribusi Poisson? (Yaitu, histogram di mana sumbu y adalah frekuensi atau probabilitas dan sumbu x adalah waktu antara 2 kejadian berurutan yang dikelompokkan menjadi beberapa hari, minggu, bulan, atau tahun, atau sejenisnya.) Terima kasih.
Klarifikasi (7/28/14): Judulnya menyiratkan bahwa itu lebih mungkin untuk memiliki kelompok kecelakaan daripada kecelakaan yang banyak terjadi. Mari kita operasionalkan itu. Katakanlah sebuah cluster adalah 3 kecelakaan pesawat, dan periode waktu yang singkat adalah 3 bulan dan periode waktu yang lama adalah 3 tahun. Tampaknya tidak masuk akal untuk berpikir bahwa ada kemungkinan lebih tinggi bahwa 3 kecelakaan akan terjadi dalam periode 3 bulan daripada dalam periode 3 tahun. Bahkan jika kita menganggap kecelakaan pertama sebagai suatu pemberian, tidak masuk akal untuk berpikir bahwa 2 kecelakaan lagi akan terjadi dalam 3 bulan ke depan dibandingkan dengan dalam 3 tahun ke depan. Jika itu benar, maka berita utama media berita menyesatkan dan salah. Apakah saya melewatkan sesuatu?
sumber
Jawaban:
Ringkasan: Kalimat pertama dalam paragraf BBC yang dikutip adalah ceroboh dan menyesatkan.
Meskipun jawaban dan komentar sebelumnya memberikan diskusi yang sangat baik, saya merasa bahwa pertanyaan utama belum dijawab dengan memuaskan.
Jadi mari kita asumsikan bahwa probabilitas kecelakaan pesawat pada hari tertentu adalah dan yang crash independen dari satu sama lain. Mari kita asumsikan bahwa satu pesawat jatuh pada tanggal 1 Januari Kapan pesawat berikutnya jatuh?p=1/365
Baiklah, mari kita lakukan simulasi sederhana: untuk setiap hari selama tiga tahun ke depan saya akan secara acak memutuskan apakah pesawat lain jatuh dengan probabilitas dan catat hari kecelakaan berikutnya; Saya akan mengulangi prosedur ini 100p kali. Berikut adalah histogram yang dihasilkan:100000
Faktanya, distribusi probabilitas hanya diberikan oleh , di mana t adalah jumlah hari. Saya merencanakan distribusi teoretis ini sebagai garis merah, dan Anda dapat melihatnya cocok dengan histogram Monte Carlo. Catatan: jika waktu tidak lagi tersedia dalam tong yang lebih kecil dan lebih kecil, distribusi ini akan menyatu dengan yang eksponensial; tetapi tidak terlalu penting untuk diskusi ini.Pr(t)=(1−p)tp t
Seperti banyak orang sudah katakan di sini, itu adalah kurva yang menurun . Ini berarti bahwa probabilitas bahwa pesawat berikutnya jatuh pada hari berikutnya, 2 Januari, lebih tinggi daripada probabilitas bahwa pesawat berikutnya akan jatuh pada hari tertentu lainnya, misalnya pada tanggal 2 Januari tahun depan (perbedaannya hampir tiga kali lipat: dan 0,10 % ).0.27% 0.10%
Namun , jika Anda bertanya berapa probabilitas bahwa pesawat berikutnya jatuh dalam tiga hari ke depan, jawabannya adalah , tetapi jika Anda bertanya berapa probabilitasnya akan jatuh setelah tiga hari, tetapi dalam tiga tahun ke depan, maka jawabannya adalah 94 % . Jadi, jelas, kemungkinan besar akan crash dalam tiga tahun ke depan (tetapi setelah tiga hari pertama) daripada dalam tiga hari ke depan. Kebingungan muncul karena ketika Anda mengatakan "peristiwa berkerumun" Anda merujuk ke sepotong awal yang sangat kecil dari distribusi, tetapi ketika Anda mengatakan "banyak ruang" acara Anda merujuk ke sebagian besar dari itu.0.8% 94% Itulah sebabnya bahkan dengan distribusi probabilitas yang menurun secara monoton, sangat mungkin bahwa "cluster" (mis. Dua pesawat jatuh dalam tiga hari) sangat tidak mungkin.
Berikut ini adalah histogram lain untuk benar-benar menjelaskan hal ini. Ini hanyalah jumlah histogram sebelumnya selama beberapa periode waktu yang tidak berpotongan:
sumber
Apa yang dikatakan reporter adalah bahwa kemunculan acak dari kecelakaan pesawat dapat dimodelkan sebagai proses Poisson - situasi di mana probabilitas suatu peristiwa terjadi selama beberapa interval (kecil) sebanding dengan panjang interval tersebut dan di mana setiap kejadian di Independen dari semua yang lain.
Apakah ini model yang masuk akal untuk skenario yang dijelaskan?
Mungkin.
Tentu, peristiwa ini mungkin tidak 100% Independen karena pilot lain cenderung mengubah perilaku mereka (jika hanya sedikit) setelah kecelakaan. [Saya tidak tahu - mungkin beberapa pilot melakukan sedikit pelatihan simulator atau semacamnya]. Namun demikian, asumsi Kemandirian masih sepenuhnya masuk akal.
Bagaimana dengan kluster kecelakaan pesawat?
Iya. Diberikan proses Poisson (atau bahkan beberapa proses acak lainnya), Anda akan mengharapkan untuk melihat beberapa kelompok kejadian.
Bahkan, seperti yang dijelaskan oleh Oxford Dictionary of Statistics dalam entri untuk Proses Poisson (yang merupakan "deskripsi matematis keacakan"):
Sebagai contoh, lihat ini sedikit kode R :
yang menghasilkan:
Meskipun kita tahu ini adalah plot titik acak, sepertinya ada beberapa bit non- acak di dalamnya - khususnya, di beberapa bagian grafik ada gumpalan poin sementara bagian lain terbuka lebar. Ini jenis perilaku yang sama dengan yang coba dijelaskan oleh artikel tersebut (hanya dengan data deret waktu dan bukan data spasial ).
MEMPERBARUI:
@ JoelW .: Jadi, misalnya, katakanlah probabilitas sebuah pesawat jatuh besok (atau hari apa pun) adalah " p " (dan, katakanlah " p " adalah sesuatu seperti 1 dalam seratus).
Alasan mengapa kecelakaan pesawat berikutnya lebih mungkin terjadi besok daripada lebih mungkin terjadi dalam tepat satu tahun (yaitu pada 26 Juli 2015 ) adalah karena probabilitas bahwa kecelakaan berikutnya dalam tepat satu tahun sama dengan:
Masuk akal?
Pada akhirnya, saya pikir bahwa alasan hal-hal ini Counter-intuitif adalah karena biasanya ketika kita berpikir tentang sebuah frase seperti:
"The odds of a plane crash in one month compared with the odds of one happening tomorrow"
. Kami tentu saja tidak segera mempertimbangkan periode 24 jam yang dimulai tepat dalam satu bulan. Sebaliknya, kita (atau paling tidak saya lakukan) cenderung memikirkannya dengan lebih, baik, fleksibel . Jadi lebih seperti:a month ± a week
. Itu dan fakta bahwa kita lupa memperhitungkan kemungkinan tabrakan tidak terjadi untuk sementara ... (Tapi sekali lagi, mungkin itu hanya aku ...).Fiuh!
Sumber daya tambahan:
sumber
Jika jumlah kecelakaan pesawat didistribusikan Poisson (sepertinya ia menyatakan), waktu antara kecelakaan memiliki distribusi eksponensial. Pdf dari distribusi eksponensial adalah fungsi penurunan waktu yang monoton. Oleh karena itu crash sebelumnya lebih mungkin daripada crash kemudian.
sumber
Jawaban lain sudah berurusan dengan caranya cluster peristiwa independen . (Membaca Gleick's Chaos, bertahun-tahun yang lalu, membuka mata saya terhadap ide ini.)
Tapi, sebenarnya ada bukti kuat bahwa kecelakaan pesawat bukanlah peristiwa independen. Cialdini's Influence memiliki bab yang sangat bagus tentang hal ini (juga disebutkan di sini yang memiliki beberapa tautan ke data; dan saya menemukan kutipan dari bagian buku itu ). Jelas ini sangat kontroversial: pada dasarnya mengatakan bahwa semakin banyak dipublikasikannya kecelakaan udara, semakin besar kemungkinan akan mempengaruhi seorang pilot (secara sadar atau tidak sadar) untuk menabrak pesawatnya. Tetapi penjelasan psikologis yang mendasari hipotesis tampaknya masuk akal, dan data tampaknya mendukungnya juga.
(Tautan ke penelitian sanggahan berbasis statistik akan diterima, di komentar.)
sumber