Betapa anehnya sekelompok kecelakaan pesawat?

15

Pertanyaan awal (7/25/14): Apakah kutipan dari media berita ini masuk akal, atau adakah cara statistik yang lebih baik untuk melihat serentetan kecelakaan pesawat baru-baru ini?

Namun, Barnett juga menarik perhatian pada teori distribusi Poisson, yang menyiratkan bahwa interval pendek antara crash sebenarnya lebih mungkin daripada yang lama.

"Misalkan ada rata-rata satu kecelakaan fatal per tahun, yang berarti bahwa kemungkinan kecelakaan pada hari tertentu adalah satu dalam 365," kata Barnett. "Jika ada crash pada 1 Agustus, kemungkinan crash berikutnya terjadi satu hari kemudian pada 2 Agustus adalah 1/365. Tapi kemungkinan crash berikutnya pada 3 Agustus adalah (364/365) x (1/365) , karena crash berikutnya terjadi pada 3 Agustus hanya jika tidak ada crash pada 2 Agustus. "

"Tampaknya berlawanan dengan intuisi, tetapi kesimpulannya mengikuti tanpa henti dari hukum probabilitas," kata Barnett.

Sumber: http://www.bbc.com/news/magazine-28481060

Klarifikasi (7/27/14): Apa yang kontra intuitif (bagi saya) mengatakan bahwa peristiwa langka cenderung terjadi dalam waktu singkat. Secara intuitif, saya akan berpikir bahwa peristiwa langka tidak akan terjadi dalam waktu dekat. Adakah yang bisa mengarahkan saya ke distribusi yang diharapkan secara teoritis atau empiris dari waktu antara peristiwa di bawah asumsi distribusi Poisson? (Yaitu, histogram di mana sumbu y adalah frekuensi atau probabilitas dan sumbu x adalah waktu antara 2 kejadian berurutan yang dikelompokkan menjadi beberapa hari, minggu, bulan, atau tahun, atau sejenisnya.) Terima kasih.

Klarifikasi (7/28/14): Judulnya menyiratkan bahwa itu lebih mungkin untuk memiliki kelompok kecelakaan daripada kecelakaan yang banyak terjadi. Mari kita operasionalkan itu. Katakanlah sebuah cluster adalah 3 kecelakaan pesawat, dan periode waktu yang singkat adalah 3 bulan dan periode waktu yang lama adalah 3 tahun. Tampaknya tidak masuk akal untuk berpikir bahwa ada kemungkinan lebih tinggi bahwa 3 kecelakaan akan terjadi dalam periode 3 bulan daripada dalam periode 3 tahun. Bahkan jika kita menganggap kecelakaan pertama sebagai suatu pemberian, tidak masuk akal untuk berpikir bahwa 2 kecelakaan lagi akan terjadi dalam 3 bulan ke depan dibandingkan dengan dalam 3 tahun ke depan. Jika itu benar, maka berita utama media berita menyesatkan dan salah. Apakah saya melewatkan sesuatu?

Joel W.
sumber
1
Periksa kembali klarifikasi: Anda mungkin perlu membedakan antara probabilitas , probabilitas per satuan waktu , dan harapan . Meskipun proses menggambarkan peristiwa langka akan - praktis dengan sangat berarti dari "langka" - memiliki panjang diharapkan waktu antara peristiwa, yang tidak konsisten dengan probabilitas per satuan waktu menjadi terbesar di awal. Namun demikian, probabilitas kejadian berikutnya yang akan terjadi dalam waktu singkat akan sangat kecil.
whuber
2
Juga, saya baru saja memperhatikan artikel Wikipedia ini - Anda mungkin menyukainya. Oh, dan saya baru saja menemukan pdf ini juga - secara khusus menyebutkan "pengelompokan" dari kecelakaan pesawat (dan menjelaskan masalah ini jauh lebih baik daripada yang saya miliki sejauh ini ...).
Steve S
1
@Glen_b: Kelemahan pada artikel surat kabar (tersirat dalam judul artikel, yang merupakan judul posting saya) adalah bahwa artikel tersebut menunjukkan ada kemungkinan lebih tinggi dari angka yang diberikan (yaitu, sekelompok) kecelakaan yang terjadi di periode waktu yang singkat daripada periode waktu yang lebih lama. Itu salah.
Joel W.
1
@ JoelW .: Jika ada, jurnalis yang akan mengacaukan ... Ngomong-ngomong, apakah semuanya sudah beres atau masih ada reservasi yang tersisa?
Steve S
1
Dugaan saya adalah bahwa ahli statistik yang menyesatkan jurnalis. Saya ragu wartawan itu salah sendiri (karena sangat kontra-intuitif).
Joel W.

Jawaban:

3

Ringkasan: Kalimat pertama dalam paragraf BBC yang dikutip adalah ceroboh dan menyesatkan.

Meskipun jawaban dan komentar sebelumnya memberikan diskusi yang sangat baik, saya merasa bahwa pertanyaan utama belum dijawab dengan memuaskan.

Jadi mari kita asumsikan bahwa probabilitas kecelakaan pesawat pada hari tertentu adalah dan yang crash independen dari satu sama lain. Mari kita asumsikan bahwa satu pesawat jatuh pada tanggal 1 Januari Kapan pesawat berikutnya jatuh?p=1/365

Baiklah, mari kita lakukan simulasi sederhana: untuk setiap hari selama tiga tahun ke depan saya akan secara acak memutuskan apakah pesawat lain jatuh dengan probabilitas dan catat hari kecelakaan berikutnya; Saya akan mengulangi prosedur ini 100p kali. Berikut adalah histogram yang dihasilkan:100000

Distribusi pesawat hancur, model

Faktanya, distribusi probabilitas hanya diberikan oleh , di mana t adalah jumlah hari. Saya merencanakan distribusi teoretis ini sebagai garis merah, dan Anda dapat melihatnya cocok dengan histogram Monte Carlo. Catatan: jika waktu tidak lagi tersedia dalam tong yang lebih kecil dan lebih kecil, distribusi ini akan menyatu dengan yang eksponensial; tetapi tidak terlalu penting untuk diskusi ini.Pr(t)=(1p)tpt

Seperti banyak orang sudah katakan di sini, itu adalah kurva yang menurun . Ini berarti bahwa probabilitas bahwa pesawat berikutnya jatuh pada hari berikutnya, 2 Januari, lebih tinggi daripada probabilitas bahwa pesawat berikutnya akan jatuh pada hari tertentu lainnya, misalnya pada tanggal 2 Januari tahun depan (perbedaannya hampir tiga kali lipat: dan 0,10 % ).0.27%0.10%

Namun , jika Anda bertanya berapa probabilitas bahwa pesawat berikutnya jatuh dalam tiga hari ke depan, jawabannya adalah , tetapi jika Anda bertanya berapa probabilitasnya akan jatuh setelah tiga hari, tetapi dalam tiga tahun ke depan, maka jawabannya adalah 94 % . Jadi, jelas, kemungkinan besar akan crash dalam tiga tahun ke depan (tetapi setelah tiga hari pertama) daripada dalam tiga hari ke depan. Kebingungan muncul karena ketika Anda mengatakan "peristiwa berkerumun" Anda merujuk ke sepotong awal yang sangat kecil dari distribusi, tetapi ketika Anda mengatakan "banyak ruang" acara Anda merujuk ke sebagian besar dari itu.0.8%94% Itulah sebabnya bahkan dengan distribusi probabilitas yang menurun secara monoton, sangat mungkin bahwa "cluster" (mis. Dua pesawat jatuh dalam tiga hari) sangat tidak mungkin.

Berikut ini adalah histogram lain untuk benar-benar menjelaskan hal ini. Ini hanyalah jumlah histogram sebelumnya selama beberapa periode waktu yang tidak berpotongan:

Histogram of plane crushes frequency

amuba kata Reinstate Monica
sumber
Apakah Anda mengatakan bahwa profesor MIT salah?
Steve S
1
Tidak, kutipan dari Barnett dalam artikel BBC sepenuhnya benar. Namun penafsirannya oleh reporter BBC kurang bagus: "Barnett juga menarik perhatian pada teori distribusi Poisson, yang menyiratkan bahwa interval pendek antara tabrakan sebenarnya lebih mungkin daripada yang panjang" . Penafsiran yang paling alami dari kalimat ini adalah salah (dan saya kira Barnett tidak bermaksud untuk menyiratkan hal itu). Mungkin saya harus lebih eksplisit tentang itu dalam balasan saya. Apakah ada bagian substansial dari jawaban saya yang tidak Anda setujui? Semoga tidak, karena saya sepenuhnya setuju dengan Anda.
Amuba mengatakan Reinstate Monica
13

Apa yang dikatakan reporter adalah bahwa kemunculan acak dari kecelakaan pesawat dapat dimodelkan sebagai proses Poisson - situasi di mana probabilitas suatu peristiwa terjadi selama beberapa interval (kecil) sebanding dengan panjang interval tersebut dan di mana setiap kejadian di Independen dari semua yang lain.

Apakah ini model yang masuk akal untuk skenario yang dijelaskan?

Mungkin.

Tentu, peristiwa ini mungkin tidak 100% Independen karena pilot lain cenderung mengubah perilaku mereka (jika hanya sedikit) setelah kecelakaan. [Saya tidak tahu - mungkin beberapa pilot melakukan sedikit pelatihan simulator atau semacamnya]. Namun demikian, asumsi Kemandirian masih sepenuhnya masuk akal.

Bagaimana dengan kluster kecelakaan pesawat?

Iya. Diberikan proses Poisson (atau bahkan beberapa proses acak lainnya), Anda akan mengharapkan untuk melihat beberapa kelompok kejadian.

Bahkan, seperti yang dijelaskan oleh Oxford Dictionary of Statistics dalam entri untuk Proses Poisson (yang merupakan "deskripsi matematis keacakan"):

[R]andomness usually gives rise to apparent clustering, despite the natural
expectation that randomness would lead to regularity.

Sebagai contoh, lihat ini sedikit kode R :

set.seed(123)
x <- runif(500)
y <- runif(500)

plot(x, y, pch=20, col='blue', main="A Random Distribution of Points")

yang menghasilkan:
Notice the clumping?

Meskipun kita tahu ini adalah plot titik acak, sepertinya ada beberapa bit non- acak di dalamnya - khususnya, di beberapa bagian grafik ada gumpalan poin sementara bagian lain terbuka lebar. Ini jenis perilaku yang sama dengan yang coba dijelaskan oleh artikel tersebut (hanya dengan data deret waktu dan bukan data spasial ).


MEMPERBARUI:

@ JoelW .: Jadi, misalnya, katakanlah probabilitas sebuah pesawat jatuh besok (atau hari apa pun) adalah " p " (dan, katakanlah " p " adalah sesuatu seperti 1 dalam seratus).

Alasan mengapa kecelakaan pesawat berikutnya lebih mungkin terjadi besok daripada lebih mungkin terjadi dalam tepat satu tahun (yaitu pada 26 Juli 2015 ) adalah karena probabilitas bahwa kecelakaan berikutnya dalam tepat satu tahun sama dengan:

= Prob(crash tomorrow) * Prob(365 days with *no* crashes)

Masuk akal?

Pada akhirnya, saya pikir bahwa alasan hal-hal ini Counter-intuitif adalah karena biasanya ketika kita berpikir tentang sebuah frase seperti: "The odds of a plane crash in one month compared with the odds of one happening tomorrow". Kami tentu saja tidak segera mempertimbangkan periode 24 jam yang dimulai tepat dalam satu bulan. Sebaliknya, kita (atau paling tidak saya lakukan) cenderung memikirkannya dengan lebih, baik, fleksibel . Jadi lebih seperti: a month ± a week. Itu dan fakta bahwa kita lupa memperhitungkan kemungkinan tabrakan tidak terjadi untuk sementara ... (Tapi sekali lagi, mungkin itu hanya aku ...).

Fiuh!


Sumber daya tambahan:

  • Artikel Wikipedia tentang Clustering Illusion
  • Sebuah pdf yang secara khusus menyebutkan "pengelompokan" kecelakaan pesawat (pada halaman 8) dan menjelaskan secara singkat matematika dari proses Poisson .
Steve S
sumber
1
@ Joel W .: Sebenarnya, saya harus menambahkan lebih banyak ke jawaban ini - beri saya beberapa menit untuk mengedit ...
Steve S
7
Argumen untuk menunda perjalanan adalah sama dengan yang muncul dalam lelucon lama tentang bagaimana TSA menemukan seorang ahli statistik dengan bom di pesawat. Ketika diminta untuk menjelaskan dirinya sendiri, ahli statistik berkata, "Kemungkinan satu orang memiliki bom kecil tapi tidak cukup kecil untuk kenyamanan, tetapi kemungkinan dua orang memiliki bom sangat kecil. Karena itu ketika saya membawa bom, ada hampir tidak ada kemungkinan akan ada dua bom dan kita akan aman sepenuhnya. "
whuber
1
Lelucon Anda benar, @whuber, tetapi tampaknya ada semacam keterputusan logis antara mengatakan bahwa "interval pendek antara crash sebenarnya lebih mungkin daripada yang lama" dan mengatakan bahwa probabilitas crash besok tidak tergantung apakah crash terjadi hari ini. Saya kira probabilitas bisa menjadi kontra-intuitif.
Joel W.
1
Apa yang kontra intuitif (bagi saya) mengatakan bahwa peristiwa langka cenderung terjadi dalam waktu singkat. Secara intuitif, saya akan berpikir bahwa peristiwa langka tidak akan terjadi dalam waktu dekat. Apakah saya satu-satunya dengan tampilan intuitif itu?
Joel W.
1
@Steve S: Terima kasih atas tautannya. Seperti apakah distribusi eksponensial untuk nilai yang diasumsikan dalam artikel berita (1/365)? Dalam kasus apa pun, mungkin Distribusi Eksponensial tidak membahas tajuk artikel, yang menyiratkan perbandingan probabilitas sejumlah peristiwa tertentu yang terjadi dalam periode waktu singkat dengan probabilitas jumlah peristiwa yang terjadi dalam periode waktu yang lama. .
Joel W.
4

Jika jumlah kecelakaan pesawat didistribusikan Poisson (sepertinya ia menyatakan), waktu antara kecelakaan memiliki distribusi eksponensial. Pdf dari distribusi eksponensial adalah fungsi penurunan waktu yang monoton. Oleh karena itu crash sebelumnya lebih mungkin daripada crash kemudian.

Sid
sumber
"Interval pendek antara tabrakan sebenarnya lebih mungkin dari pada tabrakan yang panjang" Apa bedanya dengan mengatakan bahwa jika baru saja terjadi tabrakan pesawat, kita semua harus menunda perjalanan yang akan datang (karena alasan statistik)?
Joel W.
2
Joel, kutipan itu tidak ada artinya sampai penulisnya mengukur apa yang dimaksud dengan "pendek" dan "panjang". Dalam contohnya tentang suatu peristiwa dengan tingkat yang diharapkan dari satu per tahun, peluang kekambuhan selama bulan berikutnya masih akan jauh lebih kecil daripada peluang bahwa kecelakaan berikutnya terjadi lebih dari satu tahun kemudian. Apa yang dia maksudkan adalah bahwa probabilitas per satuan waktu lebih besar dalam jangka pendek daripada dalam jangka panjang. Untuk membandingkan probabilitas aktual Anda harus melipatgandakan probabilitas per unit waktu dengan durasi (secara teknis, Anda harus mengintegrasikannya selama durasi).
whuber
@whuber: Judulnya berbicara tentang kemungkinan sekelompok kecelakaan pesawat. Tidak ada yang dikatakan di stackexchange sejauh ini yang meyakinkan saya bahwa sekelompok kecelakaan pesawat lebih umum atau lebih mungkin terjadi daripada kecelakaan pesawat terbang yang jauh. Jadi, bagi saya tampaknya kutipan dari media berita benar-benar menyesatkan (mungkin karena interval waktu tidak teridentifikasi, seperti yang Anda tulis). Bagaimana menurut anda?
Joel W.
Saya tidak tahu apa yang Anda maksudkan dengan "kecelakaan pesawat terbang yang luas" atau, dalam hal ini, apakah saya benar-benar yakin apa yang Anda pahami sebagai "cluster". Misalkan, untuk membuat situasi menjadi konkret, serangkaian peristiwa langka terjadi pada tahun 0, 10, 11, 12, dan 22 (dihitung dari beberapa tanggal awal). Persisnya berapa banyak peristiwa "banyak ruang" yang terjadi? Berapa banyak "cluster" yang terjadi? Saya dapat menemukan jawaban yang dapat dipertahankan untuk pertanyaan pertama mulai dari nol hingga sepuluh dan jawaban untuk pertanyaan kedua bisa nol atau satu.
whuber
1
@whuber: Judulnya menyiratkan kemungkinannya lebih besar untuk memiliki kelompok kecelakaan daripada kecelakaan yang sering terjadi. Mari kita operasionalkan itu. Katakanlah sebuah cluster adalah 3 kecelakaan pesawat, dan periode waktu yang singkat adalah 3 bulan dan periode waktu yang lama adalah 3 tahun. Tampaknya tidak logis untuk berpikir bahwa ada kemungkinan lebih tinggi bahwa 3 kecelakaan akan terjadi dalam periode 3 bulan daripada dalam periode 3 tahun. Bahkan jika kita menganggap kecelakaan pertama sebagai suatu pemberian, tidak masuk akal untuk berpikir bahwa 2 kecelakaan lagi akan terjadi dalam 3 bulan ke depan dibandingkan dengan dalam 3 tahun ke depan.
Joel W.
0

Jawaban lain sudah berurusan dengan caranya cluster peristiwa independen . (Membaca Gleick's Chaos, bertahun-tahun yang lalu, membuka mata saya terhadap ide ini.)

Tapi, sebenarnya ada bukti kuat bahwa kecelakaan pesawat bukanlah peristiwa independen. Cialdini's Influence memiliki bab yang sangat bagus tentang hal ini (juga disebutkan di sini yang memiliki beberapa tautan ke data; dan saya menemukan kutipan dari bagian buku itu ). Jelas ini sangat kontroversial: pada dasarnya mengatakan bahwa semakin banyak dipublikasikannya kecelakaan udara, semakin besar kemungkinan akan mempengaruhi seorang pilot (secara sadar atau tidak sadar) untuk menabrak pesawatnya. Tetapi penjelasan psikologis yang mendasari hipotesis tampaknya masuk akal, dan data tampaknya mendukungnya juga.

(Tautan ke penelitian sanggahan berbasis statistik akan diterima, di komentar.)

Darren Cook
sumber
Tidak mengatakan bahwa: mengatakan "segera setelah beberapa jenis kisah bunuh diri yang dipublikasikan, jumlah orang yang meninggal dalam kecelakaan pesawat komersial meningkat".
Scortchi
Referensi untuk klaim tersebut adalah, saya kira, Phillips, (1978) "Kematian akibat kecelakaan pesawat meningkat setelah berita di surat kabar tentang pembunuhan dan bunuh diri", Science , 201 , hlm 748-750. Abstrak merujuk pada "pesawat pribadi, bisnis, dan perusahaan-eksekutif".
Scortchi
Atau mungkin yang ini: Phillips (1980), "Kecelakaan pesawat terbang, pembunuhan, dan media massa: menuju teori imitasi dan saran", Social Forces , 58 , 4, di mana "penerbangan" disebutkan secara abstrak.
Scortchi
2
Altheide (1981), Social Forces , 60 , 2 mengemukakan bahwa "semacam kisah bunuh diri yang sangat dipublikasikan" mungkin tidak sepenuhnya didefinisikan secara independen dari 'kecelakaan pesawat - selanjutnya terdengar seperti definisi "rabbi terkenal" .
Scortchi