Model atau algoritme statistik apa yang dapat digunakan untuk menyelesaikan masalah John Snow Cholera?

23

Saya tertarik mempelajari cara mengembangkan perkiraan geografis semacam episentrum berdasarkan data dari wabah John Snow Cholera. Apa pemodelan statistik yang dapat digunakan untuk memecahkan masalah seperti itu tanpa pengetahuan sebelumnya tentang di mana sumur berada.

Sebagai masalah umum, Anda harus menyediakan waktu, lokasi titik yang diketahui, dan jalur berjalan pengamat. Metode yang saya cari akan menggunakan tiga hal ini untuk memperkirakan episentrum "wabah".

berambut pirang
sumber
2
Model Kriging digunakan untuk prediksi geografis. Itu mungkin tempat untuk memulai. Untuk memasukkan informasi waktu, Anda harus melangkah lebih jauh dan menggunakan model spatio-temporal (saya belum pernah menggunakan ini).
Hebat38
4
@Great Kriging akan sulit diterapkan di sini: ini tidak dimaksudkan untuk memperkirakan ekstrema, juga tidak cocok dengan geometri waktu berjalan di sepanjang jalan yang relevan, juga tidak disesuaikan dengan baik untuk mengendalikan kovariat penting seperti kepadatan populasi atau jumlah pekerja di gedung.
whuber
Paket R ini mungkin menarik github.com/lindbrook/cholera .
David C. Norris

Jawaban:

25

Bukan untuk memberikan jawaban yang lengkap atau otoritatif, tetapi hanya untuk merangsang ide, saya akan melaporkan analisis cepat yang saya buat untuk praktikum di kursus statistik spasial yang saya ajarkan sepuluh tahun yang lalu. Tujuannya adalah untuk melihat apa efek akuntansi yang akurat dari jalur perjalanan yang mungkin (berjalan kaki), dibandingkan dengan menggunakan jarak Euclidean, akan memiliki pada metode eksplorasi yang relatif sederhana: perkiraan kepadatan kernel. Di mana puncak (atau puncak) kepadatan relatif terhadap pompa yang pegangannya dilepas Snow?

Dengan menggunakan representasi raster beresolusi tinggi (2946 baris dengan 3160 kolom) dari peta Snow (di-georeferensi dengan tepat), saya mendigitalkan masing-masing dari ratusan peti mati hitam kecil yang ditampilkan di peta (menemukan 558 di antaranya di 309 alamat), menugaskan masing-masing untuk tepi jalan sesuai dengan alamatnya, dan meringkas berdasarkan alamat menjadi hitungan di setiap lokasi.

Dot peta data input

Setelah beberapa pemrosesan gambar untuk mengidentifikasi jalan-jalan dan gang-gang, saya melakukan difusi Gaussian sederhana terbatas pada daerah-daerah (menggunakan sarana fokus berulang dalam GIS). Ini adalah KDE.

Hasilnya berbicara sendiri - hampir tidak perlu legenda untuk menjelaskannya. (Peta menunjukkan banyak pompa lain, tetapi semuanya terletak di luar pandangan ini, yang berfokus pada area dengan kepadatan tertinggi.)

Peta Snow menunjukkan kerapatan dengan warna.

whuber
sumber
WOW. Jadi untuk meringkas; 1. linierkan jalur perjalanan, 2. melakukan pemulusan dalam satu dimensi, 3. memperpanjang pemulusan dalam dua dimensi, 4. rata-rata kde lintas perjalanan?
cylondude
1
Penghalusan dilakukan dalam 2D, tetapi terbatas pada wilayah yang ditunjukkan dalam warna. Ada juga cara lain untuk melakukannya, mirip dengan deskripsi Anda. Namun, tidak perlu rata-rata lebih dari "perjalanan jalan" (apa pun itu). Peta ini menarik sebagian karena berbagi properti dari geometri satu dan dua dimensi.
whuber
Untuk setiap titik A di jalan-jalan, hitung jumlah langkah untuk setiap titik B lainnya di antara lokasi alamat. Masukkan jumlah langkah tersebut ke kepadatan Gaussian, dan gandakan nilainya dengan jumlah kematian di B. Tambahkan semua produk tersebut (mis. Di atas semua titik alamat B) untuk mendapatkan kepadatan kernel di titik A. Lakukan itu untuk semua titik A di jalan. Itulah kepadatan yang kami lihat di setiap titik di peta. Iya nih?
Hatshepsut
2
B
2
@Hat Bukannya Gaussian memiliki unit integral ketika dibatasi ke jalan dan trotoar! Dengan demikian terpotong dan harus dinormalisasi ulang.
whuber
19

Dalam [1, §3.2], David Freedman menyarankan jawaban yang pada dasarnya negatif untuk pertanyaan Anda. Artinya, tidak ada (hanya) model statistik atau algoritma yang bisa menyelesaikan masalah John Snow. Masalah Snow adalah mengembangkan argumen kritis yang mendukung teorinya bahwa kolera adalah penyakit menular yang ditularkan melalui air, terhadap teori racun yang berlaku pada zamannya. (Bab 3 dalam [1], berjudul “Model Statistik dan Kulit Sepatu,” juga tersedia dalam bentuk yang diterbitkan sebelumnya [2] di sini .)

Dalam beberapa halaman pendek ini [1, hal.47–53], banyak di antaranya merupakan kutipan lanjutan dari John Snow sendiri, Freedman berpendapat bahwa "apa yang sebenarnya dilakukan Snow pada 1853–54 bahkan lebih menarik daripada dongeng [Broad] Street Pump]. " Sejauh membuat bukti statistik (pendahuluan lain seperti identifikasi kasus indeks, dll., Dibahas di samping), Snow mengeksploitasi variasi alami untuk menghasilkan eksperimen semu yang benar-benar luar biasa.

Ternyata pada waktu sebelumnya, ada persaingan ketat di antara perusahaan penyedia air di London, dan ini menghasilkan pencampuran spasial dari pasokan air yang (dalam kata-kata Snow) "dari jenis yang paling intim."

Pipa-pipa dari masing-masing Kompi turun ke semua jalan, dan ke hampir semua lapangan dan gang. Beberapa rumah dipasok oleh satu Perusahaan dan beberapa oleh yang lain, sesuai dengan keputusan pemilik atau penghuni pada saat itu ketika Perusahaan Air berada dalam persaingan aktif.

...

Karena tidak ada perbedaan apa pun di rumah-rumah atau orang-orang yang menerima pasokan dari dua Perusahaan Air, atau dalam kondisi fisik dengan mana mereka dikelilingi, jelas bahwa tidak ada percobaan yang dapat dilakukan yang akan lebih teliti menguji efek pasokan air pada kemajuan kolera dari ini, yang keadaan siap dibuat sebelum pengamat.

—John Snow

Bagian lain yang sangat penting dari 'variasi alami' yang dieksploitasi oleh John Snow dalam percobaan semu ini adalah bahwa satu perusahaan air memiliki asupan air di hilir Sungai Thames di hilir pembuangan limbah , sedangkan yang lainnya memiliki beberapa tahun sebelum memindahkan asupannya ke hulu . Saya akan membiarkan Anda menebak yang mana dari tabel data John Snow!

                     | Jumlah | Kolera | Kematian per
Perusahaan | rumah | kematian | 10.000 rumah
-------------------------------------------------- --------
Southwark & ​​Vauxhall | 40.046 | 1263 | 315
Lambeth | 26.107 | 98 | 37
Sisa dari London | 256.423 | 1422 | 59

Sebagai Freedman mencatat dengan sedih,

Sebagai bagian dari teknologi statistik, [tabel di atas] tidak berarti luar biasa. Namun kisah yang diceritakannya sangat persuasif. Kekuatan argumen tersebut dihasilkan dari kejelasan penalaran sebelumnya, penyatuan berbagai garis bukti, dan jumlah kulit sepatu yang bersedia digunakan Snow untuk mendapatkan data. [1, hal.51]

Satu poin lebih lanjut dari variasi alami yang dieksploitasi oleh Snow terjadi dalam dimensi waktu : relokasi asupan air yang disebutkan di atas terjadi di antara dua epidemi, memungkinkan Snow untuk membandingkan air perusahaan yang sama dengan dan tanpa tambahan limbah. (Terima kasih kepada Philip B. Stark, salah satu penulis [1], untuk info ini melalui Twitter . Lihat kuliah online -nya.)


Hal ini juga memberikan studi instruktif dalam kontras antara deductivism dan inductivism , seperti yang dibahas dalam jawaban ini .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. Model Statistik dan Inferensial Kausal: Dialog dengan Ilmu Sosial. Cambridge; New York: Cambridge University Press; 2010

  2. Freedman DA. Model Statistik dan Kulit Sepatu. Metodologi Sosiologis . 1991; 21: 291-313. doi: 10.2307 / 270939. Teks lengkap

David C. Norris
sumber
1
+1 untuk menunjukkan bahwa hanya mengidentifikasi episentrum saja tidak akan cukup untuk menyelesaikan "masalah John Snow" seperti yang dinyatakan. Teori Miasma adalah salah satu teori yang berlaku pada saat David menunjukkan. Untuk memalsukan teori racun, orang harus menunjukkan bahwa tingkat geografis tidak meningkat dengan kedekatannya dengan sungai. Pendekatan modern untuk masalah ini mungkin menggunakan kriging.
AdamO
Terima kasih, @AdamO; tapi saya bertanya-tanya bagaimana Kriging akan mengakomodasi pencampuran spasial "intim" dalam kasus ini, yang hampir tampak penghinaan terhadap kontinuitas yang diperlukan untuk menerapkan teknik interpolasi (seperti yang saya pahami tentang Kriging).
David C. Norris
Mungkin saya salah mengerti kata-kata Snow: anggapan saya adalah bahwa "pencampuran [sumber pasokan pompa air]" yang intim merujuk pada desain blok yang hampir sempurna di mana, dikelompokkan berdasarkan jarak dari sungai, setiap lapisan konsentris blok kota setidaknya memiliki beberapa pompa pemasok A, B, C ... ini ada hubungannya dengan mendukung teori bahwa air yang terkontaminasi menyebabkan kolera. Kriging akan menolak hipotesis racun dengan menunjukkan bahwa kedekatan dengan sungai tidak terkait dengan peningkatan insiden kolera. Ini didukung oleh orang-orang yang berair di pompa: racun tidak bepergian melalui pipa.
AdamO
2
@ Adamo Sebenarnya, William Farr telah mempelajari angka kematian untuk kolera (dari tahun 1849) dan membandingkannya dengan ketinggian di atas Sungai Thames. Korespondensi antara variabel-variabel itu mencolok dan hampir sempurna sejalan dengan prediksi dari teori racun. Lihat Langmuir AD. Tinjauan Bakteriologis 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). Artikel ini mencatat bahwa bahkan pada saat kematian Dr. Snow pada tahun 1858, teorinya "tidak diterima di kalangan resmi."
Whuber
1
Terima kasih banyak atas referensi tersebut, @whuber. Dengan cara kurasi, saya perhatikan artikel Langmuir adalah akses terbuka .
David C. Norris