Apa penjelasan orang awam favorit Anda untuk konsep statistik yang sulit?

36

Saya sangat menikmati mendengar penjelasan sederhana untuk masalah yang kompleks. Apa analogi atau anekdot favorit Anda yang menjelaskan konsep statistik yang sulit?

Favorit saya adalah penjelasan Murray tentang kointegrasi menggunakan pemabuk dan anjingnya. Murray menjelaskan bagaimana dua proses acak (mabuk berkeliaran dan anjingnya, Oliver) dapat memiliki unit root tetapi masih terkait (terkointegrasi) karena perbedaan pertama bersama mereka adalah stasioner.

Pemabuk itu berangkat dari bar, akan berjalan tanpa tujuan dengan cara berjalan acak. Tetapi secara berkala dia berkata, "Oliver, di mana kamu?", Dan Oliver menyela pengembaraannya yang tanpa tujuan untuk menggonggong. Dia mendengarnya; dia mendengarnya. Dia berpikir, "Oh, aku tidak bisa membiarkannya pergi terlalu jauh; dia akan mengurungku." Dia berpikir, "Oh, aku tidak bisa membiarkannya pergi terlalu jauh; dia akan membangunkanku di tengah malam dengan gonggongannya." Masing-masing menilai seberapa jauh yang lain dan bergerak untuk menutup sebagian celah itu.

brotchie
sumber

Jawaban:

18

Nilai p adalah ukuran seberapa memalukan data terhadap hipotesis nol

Nicholas Maxwell, Data Matters: Statistik Konseptual untuk Dunia Acak Emeryville CA: Key College Publishing, 2004.

Frank Harrell
sumber
15
  1. Jika Anda mengukir distribusi (histogram) dari kayu, dan mencoba menyeimbangkannya dengan jari Anda, titik keseimbangan akan menjadi rata-rata, tidak peduli bentuk distribusinya.

  2. Jika Anda meletakkan tongkat di tengah plot pencar Anda, dan menempelkan tongkat ke setiap titik data dengan pegas, titik istirahat tongkat akan menjadi garis regresi Anda. [1]

[1] ini secara teknis akan menjadi komponen utama regresi. Anda harus memaksa pegas untuk bergerak hanya "secara vertikal" menjadi kuadrat terkecil, tetapi contohnya adalah ilustrasi.

Neil McGuigan
sumber
2
Gaya pegas sebanding dengan deformasi, jadi ini bukan regresi kuadrat!
shabbychef
1
Usaha yang bagus! Tergantung pada musim semi. Sebagai contoh, jika konstanta pegas adalah 1 / sigma, bekerja dengan baik;)
Neil McGuigan
2
tidak, tidak, intinya adalah bahwa dalam keseimbangan statis, jumlah gaya akan menjadi nol; dengan asumsi konstanta pegas yang sama, Anda akan meminimalkan jumlah deviasi absolut, yaitu regresi , kuadrat terkecil. Ini mengabaikan fakta bahwa pegas harus bebas mengambang pada tongkat, sehingga mereka akan bergeser sehingga deformasi tidak akan sepenuhnya ke arah y , menghasilkan sesuatu seperti komponen utama cocok, tetapi dengan kesalahan mutlak. L1y
shabbychef
@shabbychef: Gaya pegas sebanding dengan deformasi berarti energi pegas sebanding dengan deformasi kuadrat. Energi pegas memang yang diminimalkan pada kesetimbangan. Jumlah gaya menjadi nol bukan gaya atau diminimalkan. L 1 meminimalkan jumlah nilai absolut. L1L1
Berkumandang
12

Saya telah menggunakan jalan pemabuk sebelumnya untuk jalan acak, dan pemabuk dan anjingnya untuk kointegrasi; mereka sangat membantu (sebagian karena mereka lucu).

Salah satu contoh umum favorit saya adalah Paradox Ulang Tahun ( entri wikipedia ), yang menggambarkan beberapa konsep penting tentang probabilitas. Anda dapat mensimulasikan ini dengan ruangan yang penuh dengan orang.

Secara kebetulan, saya sangat merekomendasikan "Mengajar Statistik: Sekelompok Trik" Andrew Gelman untuk beberapa contoh cara kreatif untuk mengajarkan konsep statistik (lihat daftar isi ). Lihat juga makalahnya tentang kursus yang ia ajarkan tentang pengajaran statistik: "Kursus Pengajaran Statistik di Tingkat Universitas" . Dan pada "Mengajar Bayes untuk Mahasiswa Pascasarjana dalam Ilmu Politik, Sosiologi, Kesehatan Masyarakat, Pendidikan, Ekonomi, ..." .

Untuk menggambarkan metode Bayesian, menggunakan koin yang tidak adil dan membaliknya berkali-kali adalah pendekatan yang cukup umum / efektif.

Shane
sumber
1
Tidak ada yang namanya koin tidak adil: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
Tim
11

Saya suka mendemonstrasikan variasi pengambilan sampel dan pada dasarnya Central Limit Theorem melalui latihan "di dalam kelas". Semua orang di kelas mengatakan 100 siswa menulis usia mereka di selembar kertas. Semua kertas berukuran sama dan dilipat dengan cara yang sama setelah saya menghitung rata-rata. Ini adalah populasi dan saya menghitung usia rata-rata. Kemudian setiap siswa secara acak memilih 10 lembar kertas, menuliskan usia dan mengembalikannya ke kantong. (S) ia menghitung rata-rata dan meneruskan tas ke siswa berikutnya. Akhirnya kami memiliki 100 sampel yang terdiri dari 10 siswa yang masing-masing memperkirakan rata-rata populasi yang dapat kami jelaskan melalui histogram dan beberapa statistik deskriptif.

Kami kemudian mengulangi demonstrasi kali ini menggunakan seperangkat 100 "pendapat" yang mereplikasi beberapa pertanyaan Ya / Tidak dari jajak pendapat baru-baru ini, mis. Jika pemilihan umum (Inggris Raya) dipanggil besok, apakah Anda akan mempertimbangkan memilih untuk Partai Nasional Inggris. Para siswa mengambil sampel 10 pendapat ini.

Pada akhirnya kami telah menunjukkan variasi pengambilan sampel, Teorema Limit Pusat, dll dengan data kontinu dan biner.

Graham Cookson
sumber
10

Pasti Masalah Monty Hall. http://en.wikipedia.org/wiki/Monty_Hall_problem

Stephen Turner
sumber
1
1 masalah yang memutar otak saya ketika saya pertama kali membaca dan memikirkannya- dan solusinya cukup sederhana tetapi mengajarkan banyak tentang probabilitas.
Sharpie
1
Saya menemukan masalah Monty Hall tidak menjadi apa-apa selain penjelasan orang awam yang sederhana tentang probabilitas. Saya memahaminya, tapi saya masih kesulitan membungkus kepala saya di sekitarnya, apalagi memahaminya dengan cukup baik untuk menjelaskannya kepada orang yang bukan-statistik dan meminta mereka belajar sesuatu darinya ... Pokoknya, Anda tidak menentukan apakah masalahnya adalah konsep sulit Anda , atau penjelasan awam Anda . -1 sampai Anda melakukannya.
naught101
2
Cara mudah untuk menjelaskan masalah Monty Hall adalah dengan membayangkan masalah yang sama tetapi dengan 1000 pintu - 999 dari mereka memiliki seekor kambing di belakang mereka dan hanya 1 dari mereka memiliki mobil di belakangnya. Katakanlah Anda memilih pintu, dan pembawa acara game membuka 998 pintu lain dan menanyakan apakah Anda ingin mengubah keputusan Anda ke satu pintu yang tidak dibuka. Mengetahui bahwa dia tidak mungkin membuka pintu dengan mobil di belakangnya, Anda harus beralih ke pintu lain (atau menjadi sangat percaya diri bahwa Anda benar dalam pilihan awal Anda).
Berk U.
10

1) Demonstrasi yang baik tentang bagaimana "acak" perlu didefinisikan untuk mengetahui kemungkinan kejadian tertentu:

Berapakah peluang garis acak yang ditarik melintasi lingkaran akan lebih panjang dari jari-jari?

Pertanyaannya benar-benar tergantung bagaimana Anda menggambar garis Anda. Kemungkinan yang bisa Anda gambarkan dengan cara dunia nyata untuk lingkaran yang digambar di tanah mungkin termasuk:

Gambar dua titik acak di dalam lingkaran dan buat garis melalui itu. (Lihat di mana dua lalat / batu jatuh ...)

Pilih titik tetap pada keliling, lalu titik acak di tempat lain di lingkaran dan bergabunglah dengan mereka. (Akibatnya ini adalah meletakkan tongkat di lingkaran pada sudut variabel melalui titik tertentu dan acak misalnya di mana batu jatuh.)

Gambar sebuah diameter. Pilih satu titik secara acak dan buat garis tegak lurus. (Gulung tongkat di sepanjang garis lurus sehingga bersandar di lingkaran.)

Ini relatif mudah untuk menunjukkan seseorang yang dapat melakukan beberapa geometri (tetapi tidak harus statistik) jawaban atas pertanyaan dapat sangat bervariasi (dari sekitar 2/3 menjadi sekitar 0,866 atau lebih).

(1210)

3) Menjelaskan mengapa diagnosis medis mungkin tampak sangat cacat. Sebuah tes untuk penyakit yang 99,9% akurat dalam mengidentifikasi mereka yang memilikinya tetapi, 1% palsu-positif mendiagnosis mereka yang tidak benar-benar memilikinya mungkin tampak salah sangat sering ketika prevalensi penyakit sangat rendah ( misal 1 banding 1000) tetapi banyak pasien yang diuji.

Ini adalah salah satu yang paling baik dijelaskan dengan bilangan real - bayangkan 1 juta orang diuji, jadi 1000 memiliki penyakit, 999 diidentifikasi dengan benar, tetapi 0,1% dari 999.000 adalah 999 yang diberitahu bahwa mereka memilikinya tetapi tidak. Jadi setengah dari mereka yang diberi tahu sebenarnya tidak memilikinya, meskipun tingkat akurasinya tinggi (99,9%) dan tingkat positif palsu yang rendah (0,1%). Tes kedua (idealnya berbeda) kemudian akan memisahkan kelompok-kelompok ini.

[Kebetulan, saya memilih angka-angka karena mudah dikerjakan, tentu saja mereka tidak perlu menambahkan hingga 100% karena keakuratan / angka positif palsu adalah faktor independen dalam ujian.]

AdamV
sumber
2
Saya pikir contoh pertama Anda mengacu pada paradoks Bertrand. Ilustrasi yang sangat bagus tentang berbagai cara untuk mendefinisikan ruang probabilistik!
chl
9

Buku Sam Savage, Flaw of Averages diisi dengan penjelasan awam yang baik tentang konsep statistik. Secara khusus, ia memiliki penjelasan yang bagus tentang ketidaksetaraan Jensen. Jika grafik pengembalian atas investasi Anda adalah cembung, yaitu "tersenyum pada Anda", maka keacakan menguntungkan Anda: pengembalian rata-rata Anda lebih besar dari pengembalian Anda pada rata-rata.

John D. Cook
sumber
8

Sepanjang garis mean sebagai titik keseimbangan, saya suka pandangan median ini sebagai titik keseimbangan:

ars
sumber
6

Behar et al memiliki koleksi 25 analogi untuk pengajaran statistik. Berikut ini dua contoh:

2.9 Semua Model adalah Teoritis: Tidak Ada Bola Sempurna di Semesta Tampaknya bentuk geometris yang paling umum di alam semesta adalah bola. Tetapi berapa banyak bola matematis yang sempurna yang ada di alam semesta? Jawabannya tidak ada. Baik Bumi, maupun Matahari, atau bola bilyar bukanlah bola yang sempurna. Jadi, jika tidak ada bola yang benar, apa gunanya formula untuk memastikan luas atau volume bola? Begitu pula dengan model statistik pada umumnya dan, khususnya, dengan distribusi normal. Meskipun salah satu contoh yang paling umum adalah distribusi ketinggian, jika kita ingin mengetahui ketinggian setiap orang dewasa di planet ini, profil histogram tidak akan sesuai dengan kurva lonceng Gaussian, bahkan jika data tersebut dikelompokkan berdasarkan jenis kelamin, ras, atau karakteristik lainnya.

2.25 Residual Tidak Harus Mengandung Informasi: Residual Bag Sampah adalah yang tersisa setelah menghapus semua informasi dari data. Karena mereka tidak boleh membawa informasi, kami menganggapnya sebagai "sampah." Penting untuk memastikan bahwa kami tidak membuang sampah yang memiliki nilai (informasi) dan yang dapat dieksploitasi untuk lebih menjelaskan perilaku variabel dependen.

Contoh lain termasuk

  • "Pengaruh Ukuran Sampel pada Perbandingan Perawatan: Magnifikasi Teropong"
  • "Ukuran Sampel versus Ukuran Populasi: Sendok untuk Mencicipi Sup"

Referensi

  • Behar, R., Grima, P., & Marco-Almagro, L. (2012). Dua Puluh Lima Analogi untuk Menjelaskan Konsep Statistik. Ahli Statistik Amerika, (baru saja diterima).
Jeromy Anglim
sumber
3

Pertanyaan menyenangkan.

Seseorang menemukan saya bekerja di biostatistik, dan mereka bertanya kepada saya (pada dasarnya) "Bukankah statistik hanya cara berbohong?"

(Yang membawa kembali kutipan Mark Twain tentang Kebohongan, Kebohongan Sial, dan Statistik.)

Saya mencoba menjelaskan bahwa statistik memungkinkan kita untuk mengatakan dengan ketepatan 100 persen bahwa, dengan asumsi, dan diberikan data, bahwa probabilitas begini-begitu-begitu-begitu-begitu.

Dia tidak terkesan.

Mike Dunlavey
sumber
1
"Memungkinkan kita untuk mengatakan, dengan presisi 100%, seberapa besar kurangnya ketepatan kita"
naught101
Jika bukan sanggahan langsung, jawaban @ Jeromy menunjukkan mengapa gagasan "presisi 100%" harus dihapus.
rolando2