Contoh konsekuensi mahal dari penggunaan alat statistik yang tidak tepat

12

Saya menduga bahwa sebagian besar pengguna alat statistik adalah pengguna tambahan (orang yang memiliki sedikit atau tidak ada pelatihan formal dalam statistik). Sangat menggoda bagi para peneliti dan profesional lain untuk menerapkan metode statistik pada data mereka hanya karena mereka telah melihatnya "dilakukan sebelumnya" dalam makalah peer-review, literatur abu-abu, web atau di sebuah konferensi. Namun, melakukannya tanpa pemahaman yang jelas tentang asumsi yang diperlukan dan keterbatasan alat statistik dapat menyebabkan hasil yang keliru - kesalahan sering tidak diakui!

Saya menemukan bahwa mahasiswa sarjana (terutama dalam ilmu sosial dan alam) entah tidak menyadari jebakan statistik atau menemukan jebakan ini tidak penting (yang terakhir paling sering terjadi). Meskipun contoh penggunaan alat statistik yang tidak tepat dapat ditemukan di banyak buku teks tingkat pengantar, web atau StackExchange, saya mengalami kesulitan menemukan contoh dunia nyata yang memiliki hasil yang merugikan (misalnya biaya dalam $, nyawa yang terkena dampak dan karier yang hilang) . Untuk itu, saya mencari contoh dunia nyata yang menyoroti penyalahgunaan metode statistik yang:

  1. metode statistik yang digunakan biasanya tercakup dalam kursus statistik pengantar (yaitu statistik inferensial, regresi, dll ...)
  2. hasil akhirnya memiliki konsekuensi yang mahal (kehilangan dolar, dampak nyawa, karier hancur dll ...)
  3. yang data yang sudah tersedia untuk digunakan sebagai contoh bekerja di kursus (tujuannya adalah untuk memiliki pekerjaan siswa melalui contoh nyata yang telah memiliki konsekuensi dunia nyata.)

Salah satu contoh non-statistik yang ingin saya sampaikan kepada siswa ketika membahas pentingnya mendefinisikan unit dalam proyek penelitian adalah “kecelakaan metrik” yang menyebabkan hilangnya satelit $ 125 juta! Ini biasanya menimbulkan: -o faktor dari siswa dan tampaknya memiliki kesan abadi (setidaknya sepanjang kehidupan akademik mereka yang pendek).

MannyG
sumber
2
Contoh non-statistik lain dari Edward Tufte, Powerpoint melakukan Rocket Science . Meskipun itu sedikit lebih erat terkait dengan perkembangan logis dari pemikiran statistik pada umumnya daripada kecelakaan metrik yang Anda sebutkan. Apakah Anda juga mengenal buku ini, The Cult of Statistical Significance ?
Andy W
@AndyW, saya tidak terbiasa dengan "The Cult of Statistical Significance". Apakah Anda tahu jika elemen 2 / dan 3 / dalam pertanyaan saya dibahas dalam buku itu?
MannyG
Saya tidak tahu tentang 3, tetapi jika Anda membaca ulasan buku yang saya tautkan ke itu akan menjawab pertanyaan Anda 2 (atau membaca judul buku yang tersisa!) Memang seluruh buku ini dimaksudkan untuk pertanyaan Anda # 2 dalam referensi untuk menafsirkan tes signifikansi.
Andy W
@AndyW itu adalah buku yang akan saya sebutkan.
Peter Flom - Reinstate Monica
@AndyW, meskipun ulasan yang Anda tautkan merujuk ke salah satu contoh dunia nyata dari penggunaan statistik yang tidak benar, tidak jelas bagi saya jika biaya konsekuensial ditanggulangi. Jika biaya konsekuensial dibahas dalam buku ini, apakah biaya tersebut didasarkan pada analisis independen atau pendapat subyektif penulis?
MannyG

Jawaban:

8

Saya tidak yakin tentang ketersediaan data, tetapi contoh statistik buruk yang baik (jika itu kata yang tepat) adalah Studi Perawat Harvard tentang efektivitas terapi penggantian hormon (HRT) pada wanita menopause.

Apa ide umumnya? Studi Perawat menyarankan bahwa HRT bermanfaat bagi wanita pasca-menopause. Ternyata hasil ini muncul karena kelompok kontrol sangat berbeda dari kelompok perlakuan dan perbedaan ini tidak diperhitungkan dalam analisis. Dalam uji coba acak berikutnya, HRT telah dikaitkan dengan kanker, serangan jantung, stroke, dan pembekuan darah. Dengan koreksi yang tepat, studi Perawat mengungkapkan pola-pola ini juga.

Saya tidak dapat menemukan perkiraan untuk kematian AS terkait dengan HRT, tetapi besarnya adalah puluhan ribu. Satu artikel menghubungkan 1000 kematian di Inggris dengan HRT.

Artikel New York Times Magazine ini memberikan latar belakang statistik yang baik tentang masalah-masalah pengganggu yang hadir dalam penelitian ini.

Ada diskusi akademis dalam edisi American Journal of Epidemiology ini. Artikel-artikel membandingkan hasil penelitian Perawat observasional dengan yang dari Women's Health Initiative, berdasarkan percobaan acak.

Ada juga diskusi (oleh banyak orang yang sama) dalam masalah Biometrics See Freedman dan komentar Petitti khususnya [ versi prepub ].

Charlie
sumber
1
Saya menentang penggunaan contoh ini sebenarnya. Sudah ada lebih banyak pekerjaan sejak 2005, terutama oleh Miguel Hernan, lihat Studi Observasional yang Dianalisa Seperti Percobaan Acak: Aplikasi untuk Terapi Hormon Pascamenopause dan Penyakit Jantung Koroner , Epidemiologi (2008). Kesimpulannya: "Secara ringkas, temuan kami menunjukkan bahwa perbedaan antara perkiraan WHI dan NHS ITT sebagian besar dapat dijelaskan oleh perbedaan dalam distribusi waktu sejak menopause dan lamanya masa tindak lanjut. Sisa yang membingungkan untuk efek inisiasi terapi di NHS tampaknya memainkan peran kecil. "
Fomite
Terlepas dari bagaimana seseorang merasa tentang studi tersebut, perbedaan di antara mereka lebih rumit dan lebih rumit daripada apa yang mungkin berguna dalam pengaturan yang diusulkan OP.
Fomite
@EpiGrad, Ini jelas bukan bidang saya dan saya yakin Anda tahu lebih banyak tentang contoh khusus ini daripada saya. Tapi, saya pikir makalah yang Anda kutip menunjukkan bahwa makalah lain melakukannya. Dalam makalah OSALRE, mereka membuang perempuan dari studi NHS yang tidak memenuhi kriteria penelitian WHI. Proporsi wanita yang dibuang harus bervariasi di seluruh kelompok perawatan dan kontrol NHS (jika tidak hasilnya tidak akan berubah). Mereka dengan demikian membatalkan masalah seleksi yang ditemukan dalam studi NHS. [[Lanjutan]]
Charlie
1
Makalah yang saya sukai menyarankan, setidaknya bagi saya, sesuatu yang lebih sesuai dengan kalimat "Pastikan Anda menanyakan pertanyaan yang sama" dan bukan masalah yang membingungkan. Jangan salah paham, masalah NHS / WHI sangat menarik sebagai masalah statistik dan praktik kesehatan masyarakat. Itu hanya lebih kompleks daripada yang disarankan pertentangan awal, dan saya pikir itu membuatnya agak tidak pantas untuk Poin 1 dari permintaan OP. Poin 3 juga benar.
Fomite
2
@EpiGrad, Cukup adil. Tetapi saya benar-benar ragu bahwa Anda akan menemukan studi yang memiliki kesalahan statistik mencolok yang tidak memerlukan penggalian untuk memahami yang memiliki konsekuensi luas dan substansial. Mungkin responden lain akan membunuh optimisme saya pada peneliti, (heh).
Charlie
8

Sebuah contoh sejarah yang luar biasa diberikan oleh terbitan tahun 1933 tentang Kemenangan Mediokritas dalam Bisnis Horace Secrist . Pada saat itu, Secrist adalah ahli statistik yang mapan, penulis buku teks (kira-kira 1919, saya ingat), memiliki koneksi baik di American Statistics Association, dan kepala kelompok riset statistik di Northwestern University. Dia dan stafnya telah menghabiskan dasawarsa sebelumnya dengan menyusun serangkaian waktu data bisnis, yang direproduksi dan dianalisis dengan susah payah dalam buku ini. Itu dimaksudkan untuk menjadi chef d'oeuvre oleh ahli statistik yang ambisius.

Ulasan Harold Hotelling tentang buku itu, yang muncul di JASA akhir tahun itu, menunjukkan bahwa Secrist hanya mendokumentasikan ratusan contoh regresi terhadap rata-rata (topik mendasar dalam setiap kursus statistik pengantar hari ini, poin # 1 dari pertanyaan). Secrist keberatan dalam balasan yang dipublikasikan. Tanggapan Hotelling untuk itu adalah klasik:

Untuk "membuktikan" hasil matematis seperti itu dengan studi numerik yang mahal dan berkepanjangan ... adalah analog dengan membuktikan tabel perkalian dengan mengatur gajah dalam baris dan kolom, dan kemudian melakukan hal yang sama untuk berbagai jenis hewan lainnya. Pertunjukan itu, meskipun mungkin menghibur, dan memiliki nilai pedagogis tertentu, bukan merupakan kontribusi penting baik untuk zoologi atau matematika.

[JASA v. 29 # 186, Juni 1934, hlm. 199.]

Secrist tampaknya telah memudar dengan cepat dari panggung statistik tak lama setelah itu ("karier hancur," poin # 2 dalam pertanyaan). Bukunya masih tersedia. (Beberapa tahun yang lalu saya memperoleh salinan bersih yang bagus, jelas sedikit membaca, melalui Pinjaman Antar Perpustakaan.) Dari sana Anda dapat mengekstrak sejumlah contoh dataset (poin # 3 dari pertanyaan).

Steven Stigler menceritakan kisah ini dalam sebuah buku dan makalah, Sejarah statistik pada tahun 1933 .

whuber
sumber
4

Menurut saya bahwa Wired's mengambil crash pasar saham 2008 mungkin menjadi contoh informatif. Tidak dapat mengomentari apakah kesimpulannya benar atau tidak, tetapi gagasan untuk menggunakan korelasi terhadap data yang bukan sampel yang representatif sepertinya sesuatu yang mungkin sesuai dengan keadaan yang Anda sarankan. Ini juga saat ini, dan mungkin membuat mereka tertarik.

John Doucette
sumber