Saya menduga bahwa sebagian besar pengguna alat statistik adalah pengguna tambahan (orang yang memiliki sedikit atau tidak ada pelatihan formal dalam statistik). Sangat menggoda bagi para peneliti dan profesional lain untuk menerapkan metode statistik pada data mereka hanya karena mereka telah melihatnya "dilakukan sebelumnya" dalam makalah peer-review, literatur abu-abu, web atau di sebuah konferensi. Namun, melakukannya tanpa pemahaman yang jelas tentang asumsi yang diperlukan dan keterbatasan alat statistik dapat menyebabkan hasil yang keliru - kesalahan sering tidak diakui!
Saya menemukan bahwa mahasiswa sarjana (terutama dalam ilmu sosial dan alam) entah tidak menyadari jebakan statistik atau menemukan jebakan ini tidak penting (yang terakhir paling sering terjadi). Meskipun contoh penggunaan alat statistik yang tidak tepat dapat ditemukan di banyak buku teks tingkat pengantar, web atau StackExchange, saya mengalami kesulitan menemukan contoh dunia nyata yang memiliki hasil yang merugikan (misalnya biaya dalam $, nyawa yang terkena dampak dan karier yang hilang) . Untuk itu, saya mencari contoh dunia nyata yang menyoroti penyalahgunaan metode statistik yang:
- metode statistik yang digunakan biasanya tercakup dalam kursus statistik pengantar (yaitu statistik inferensial, regresi, dll ...)
- hasil akhirnya memiliki konsekuensi yang mahal (kehilangan dolar, dampak nyawa, karier hancur dll ...)
- yang data yang sudah tersedia untuk digunakan sebagai contoh bekerja di kursus (tujuannya adalah untuk memiliki pekerjaan siswa melalui contoh nyata yang telah memiliki konsekuensi dunia nyata.)
Salah satu contoh non-statistik yang ingin saya sampaikan kepada siswa ketika membahas pentingnya mendefinisikan unit dalam proyek penelitian adalah “kecelakaan metrik” yang menyebabkan hilangnya satelit $ 125 juta! Ini biasanya menimbulkan: -o faktor dari siswa dan tampaknya memiliki kesan abadi (setidaknya sepanjang kehidupan akademik mereka yang pendek).
sumber
Jawaban:
Saya tidak yakin tentang ketersediaan data, tetapi contoh statistik buruk yang baik (jika itu kata yang tepat) adalah Studi Perawat Harvard tentang efektivitas terapi penggantian hormon (HRT) pada wanita menopause.
Apa ide umumnya? Studi Perawat menyarankan bahwa HRT bermanfaat bagi wanita pasca-menopause. Ternyata hasil ini muncul karena kelompok kontrol sangat berbeda dari kelompok perlakuan dan perbedaan ini tidak diperhitungkan dalam analisis. Dalam uji coba acak berikutnya, HRT telah dikaitkan dengan kanker, serangan jantung, stroke, dan pembekuan darah. Dengan koreksi yang tepat, studi Perawat mengungkapkan pola-pola ini juga.
Saya tidak dapat menemukan perkiraan untuk kematian AS terkait dengan HRT, tetapi besarnya adalah puluhan ribu. Satu artikel menghubungkan 1000 kematian di Inggris dengan HRT.
Artikel New York Times Magazine ini memberikan latar belakang statistik yang baik tentang masalah-masalah pengganggu yang hadir dalam penelitian ini.
Ada diskusi akademis dalam edisi American Journal of Epidemiology ini. Artikel-artikel membandingkan hasil penelitian Perawat observasional dengan yang dari Women's Health Initiative, berdasarkan percobaan acak.
Ada juga diskusi (oleh banyak orang yang sama) dalam masalah Biometrics See Freedman dan komentar Petitti khususnya [ versi prepub ].
sumber
Sebuah contoh sejarah yang luar biasa diberikan oleh terbitan tahun 1933 tentang Kemenangan Mediokritas dalam Bisnis Horace Secrist . Pada saat itu, Secrist adalah ahli statistik yang mapan, penulis buku teks (kira-kira 1919, saya ingat), memiliki koneksi baik di American Statistics Association, dan kepala kelompok riset statistik di Northwestern University. Dia dan stafnya telah menghabiskan dasawarsa sebelumnya dengan menyusun serangkaian waktu data bisnis, yang direproduksi dan dianalisis dengan susah payah dalam buku ini. Itu dimaksudkan untuk menjadi chef d'oeuvre oleh ahli statistik yang ambisius.
Ulasan Harold Hotelling tentang buku itu, yang muncul di JASA akhir tahun itu, menunjukkan bahwa Secrist hanya mendokumentasikan ratusan contoh regresi terhadap rata-rata (topik mendasar dalam setiap kursus statistik pengantar hari ini, poin # 1 dari pertanyaan). Secrist keberatan dalam balasan yang dipublikasikan. Tanggapan Hotelling untuk itu adalah klasik:
[JASA v. 29 # 186, Juni 1934, hlm. 199.]
Secrist tampaknya telah memudar dengan cepat dari panggung statistik tak lama setelah itu ("karier hancur," poin # 2 dalam pertanyaan). Bukunya masih tersedia. (Beberapa tahun yang lalu saya memperoleh salinan bersih yang bagus, jelas sedikit membaca, melalui Pinjaman Antar Perpustakaan.) Dari sana Anda dapat mengekstrak sejumlah contoh dataset (poin # 3 dari pertanyaan).
Steven Stigler menceritakan kisah ini dalam sebuah buku dan makalah, Sejarah statistik pada tahun 1933 .
sumber
Menurut saya bahwa Wired's mengambil crash pasar saham 2008 mungkin menjadi contoh informatif. Tidak dapat mengomentari apakah kesimpulannya benar atau tidak, tetapi gagasan untuk menggunakan korelasi terhadap data yang bukan sampel yang representatif sepertinya sesuatu yang mungkin sesuai dengan keadaan yang Anda sarankan. Ini juga saat ini, dan mungkin membuat mereka tertarik.
sumber
Saya pikir Anda mungkin menganggap Ted Talk ini menarik dan relevan:
sumber