Bagaimana Anda menyampaikan keindahan Teorema Limit Sentral kepada non-ahli statistik?

33

Ayah saya adalah penggemar matematika, tetapi tidak terlalu tertarik pada statistik. Akan rapi untuk mencoba mengilustrasikan beberapa bit statistik yang indah, dan CLT adalah kandidat utama. Bagaimana Anda menyampaikan keindahan matematika dan dampak teorema limit pusat kepada non-ahli statistik?

Vince
sumber
Satu pemikiran cepat adalah membawa aturan 68-95-99.7 ( en.wikipedia.org/wiki/68-95-99.7_rule ) ke dalam diskusi entah bagaimana caranya .
raegtin

Jawaban:

16

Apa yang paling saya sukai dari CLT adalah kasus-kasus yang tidak dapat diterapkan - ini memberi saya harapan bahwa kehidupannya sedikit lebih menarik seperti yang ditunjukkan oleh kurva Gauss. Jadi tunjukkan padanya distribusi Cauchy.

user88
sumber
apa hubungan antara distribusi Cauchy dan CLT atau failling CLT?
robin girard
CLT mensyaratkan bahwa MGF ada di lingkungan 0. Distribusi Cauchy tidak memiliki properti itu. CLT Win. Cauchy bahkan tidak memenuhi persyaratan yang lebih lemah dari versi CLT yang lebih kuat di mana semua yang diperlukan adalah bahwa mean dan varians ada. Distribusi Cauchy menunjukkan bahwa rata-rata diperlukan agar CLT dapat bertahan. Itu tidak membuat CLT gagal.
Baltimark
@Baltimark Anda salah paham tentang posting saya - jelas bahwa Cachy tidak dicakup oleh CLT karena asumsi CLT, jika tidak maka tidak mungkin untuk membuktikan CLT. Saya telah memberikan contoh ini karena orang-orang percaya bahwa CLT bekerja untuk semua distribusi; mungkin "gagal" bukan kata yang sempurna, tapi tetap saja saya tidak berpikir itu adalah alasan untuk downvote. Ok, saya bahkan mengubahnya menjadi tidak berlaku.
Saya lebih suka hasil edit Anda. Distribusi Cauchy jelas sangat keren.
Baltimark
14

Untuk sepenuhnya menghargai CLT, itu harus dilihat.

Oleh karena itu gagasan mesin kacang dan banyak video youtube untuk ilustrasi.

Ami
sumber
Saya pikir ini menunjukkan distribusi binomial; Saya tidak berpikir bahwa asimptotiknya memiliki hubungan langsung dengan CLT.
2
mesin kacang oleh penulis paket animasi ... yihui.name/en/wp-content/uploads/2010/07/
robin
1
@mbq lihat di en.wikipedia.org/wiki/…
robin girard
@robin saya sudah menulis tentang itu, apa masalahnya?
1
@ShreevatsaR Intinya adalah bahwa ilustrasi yang baik harus menunjukkan "inti" dari sesuatu, dan (setidaknya IMO) "inti" dari CLT terletak pada kenyataan bahwa ia memadukan banyak variabel dari distribusi aneh yang berbeda ke dalam gaussian, bukan bahwa itu adalah hanya sebatas distribusi binomial.
7

Seringkali ketika matematikawan berbicara tentang probabilitas mereka mulai dengan distribusi probabilitas yang diketahui kemudian berbicara tentang probabilitas peristiwa. Nilai sebenarnya dari teorema limit pusat adalah bahwa hal itu memungkinkan kita untuk menggunakan distribusi normal sebagai perkiraan dalam kasus di mana kita tidak tahu distribusi sebenarnya. Anda dapat mengajukan pertanyaan statistik standar kepada ayah Anda (tetapi diucapkan sebagai matematika) tentang berapa probabilitas bahwa rata-rata sampel akan lebih besar dari nilai yang diberikan jika data berasal dari distribusi dengan rata-rata mu dan sigma sd, kemudian lihat apakah ia mengasumsikan distribusi (yang kemudian Anda katakan kami tidak tahu) atau mengatakan bahwa ia perlu mengetahui distribusi. Kemudian Anda dapat menunjukkan bahwa kami dapat memperkirakan jawabannya menggunakan CLT dalam banyak kasus.

Untuk membandingkan matematika dengan statistik, saya suka menggunakan teorema nilai rata-rata integrasi (yang mengatakan bahwa untuk integral dari a ke b terdapat persegi dari a ke b dengan area yang sama dan ketinggian persegi panjang adalah rata-rata dari melengkung). Matematikawan melihat teorema ini dan berkata "keren, saya bisa menggunakan integrasi untuk menghitung rata-rata", sedangkan ahli statistik melihat teorema yang sama dan mengatakan "keren, saya bisa menggunakan rata-rata untuk menghitung integral".

Saya sebenarnya memiliki hiasan dinding silang dijahit di kantor saya dari teorema nilai rata-rata dan CLT (bersama dengan teorema Bayes).

Greg Snow
sumber
Hmmm. Saya akan berpikir bahwa sebagian besar ahli matematika menggunakan MVT untuk memperkirakan integral sebagai sebuah persegi panjang.
kardinal
5

Saya suka mendemonstrasikan variasi pengambilan sampel dan pada dasarnya Central Limit Theorem melalui latihan "di dalam kelas". Semua orang di kelas mengatakan 100 siswa menulis usia mereka di selembar kertas. Semua potongan kertas memiliki ukuran yang sama dan dilipat dengan cara yang sama setelah saya menghitung rata-rata. Ini adalah populasi dan saya menghitung usia rata-rata. Kemudian setiap siswa secara acak memilih 10 lembar kertas, menuliskan usia dan mengembalikannya ke kantong. (S) ia menghitung rata-rata dan meneruskan tas ke siswa berikutnya. Akhirnya kami memiliki 100 sampel yang terdiri dari 10 siswa yang masing-masing memperkirakan rata-rata populasi yang dapat kami jelaskan melalui histogram dan beberapa statistik deskriptif.

Kami kemudian mengulangi demonstrasi kali ini menggunakan seperangkat 100 "pendapat" yang mereplikasi beberapa pertanyaan Ya / Tidak dari jajak pendapat baru-baru ini, mis. Jika pemilihan umum (Inggris Raya) dipanggil besok, apakah Anda akan mempertimbangkan memilih untuk Partai Nasional Inggris. Para siswa mengambil sampel 10 pendapat ini.

Pada akhirnya kami telah menunjukkan variasi pengambilan sampel, Teorema Limit Pusat, dll dengan data kontinu dan biner.

Graham Cookson
sumber
4

Bermain-main dengan kode berikut, memvariasikan nilai Mdan memilih distribusi selain seragam dapat menjadi ilustrasi yang menyenangkan.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 
The Eremite
sumber
2

Jika Anda menggunakan Stata, Anda dapat menggunakan perintah -clt- yang membuat grafik distribusi sampel, lihat

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm

Michael Mitchell
sumber
Sepertinya itu bisa sangat bagus, tapi saya baru saja mencoba menginstal dan menjalankannya di Stata 11.1 (yaitu versi terbaru) dan itu terus memberi saya r (3000) kesalahan setelah mengklik "Selesai" dalam dialog, bahkan jika saya mengetik - versi 6: clt-.
onestop
2

Dalam pengalaman saya, CLT kurang bermanfaat daripada yang muncul. Orang tidak pernah tahu di tengah-tengah proyek apakah n cukup besar untuk perkiraan cukup untuk tugas tersebut. Dan untuk pengujian statistik, CLT membantu Anda melindungi kesalahan tipe I tetapi tidak banyak mengurangi kesalahan tipe II. Sebagai contoh, uji-t dapat memiliki daya rendah yang sewenang-wenang untuk n besar ketika distribusi data sangat miring.

Frank Harrell
sumber