Contoh nyata dari distribusi umum

28

Saya seorang mahasiswa pascasarjana yang mengembangkan minat terhadap statistik. Saya suka materi secara keseluruhan, tapi kadang-kadang saya kesulitan memikirkan aplikasi untuk kehidupan nyata. Secara khusus, pertanyaan saya adalah tentang distribusi statistik yang umum digunakan (normal - beta-gamma dll). Saya kira untuk beberapa kasus saya mendapatkan properti tertentu yang membuat distribusi cukup bagus - properti memoryless dari eksponensial misalnya. Tetapi untuk banyak kasus lain, saya tidak memiliki intuisi tentang pentingnya dan area aplikasi dari distribusi umum yang kita lihat di buku pelajaran.

Mungkin ada banyak sumber yang bagus untuk mengatasi masalah saya, saya akan senang jika Anda bisa membagikannya. Saya akan jauh lebih termotivasi ke dalam materi jika saya bisa mengaitkannya dengan contoh-contoh kehidupan nyata.

Roark
sumber
8
Empat belas jenis aplikasi yang mencakup berbagai distribusi dijelaskan di bawah "aplikasi" pada halaman bantuan untuk fungsi Mathematica EstimatedDistribution .
whuber

Jawaban:

23

Wikipedia memiliki halaman yang mencantumkan banyak distribusi probabilitas dengan tautan ke detail lebih lanjut tentang setiap distribusi. Anda dapat melihat daftar dan mengikuti tautan untuk mendapatkan rasa yang lebih baik untuk jenis aplikasi yang biasanya digunakan oleh distribusi yang berbeda.

Ingatlah bahwa distribusi ini digunakan untuk memodelkan realitas dan seperti yang dikatakan Box: "semua model salah, beberapa model berguna".

Berikut adalah beberapa distribusi umum dan beberapa alasan mengapa mereka berguna:

Normal: Ini berguna untuk melihat rata-rata dan kombinasi linear lainnya (misalnya koefisien regresi) karena CLT. Terkait dengan itu adalah jika sesuatu diketahui muncul karena efek aditif dari berbagai penyebab kecil yang berbeda maka yang normal mungkin merupakan distribusi yang masuk akal: misalnya, banyak tindakan biologis adalah hasil dari beberapa gen dan beberapa faktor lingkungan dan karenanya sering kira-kira normal. .

Gamma: Hak condong ke kanan dan berguna untuk benda-benda dengan minimum alami pada 0. Biasa digunakan untuk waktu yang berlalu dan beberapa variabel keuangan.

Eksponensial: kasus khusus Gamma. Itu tanpa memori dan skala mudah.

Chi-squared ( ): kasus khusus Gamma. Muncul sebagai jumlah variabel normal kuadrat (sehingga digunakan untuk varian).χ2

Beta: Didefinisikan antara 0 dan 1 (tetapi dapat diubah menjadi antara nilai-nilai lain), berguna untuk proporsi atau jumlah lain yang harus antara 0 dan 1.

Binomial: Berapa banyak "keberhasilan" dari sejumlah percobaan independen dengan probabilitas "sukses" yang sama.

Poisson: Umum untuk perhitungan. Properti yang bagus bahwa jika jumlah peristiwa dalam periode waktu atau area mengikuti Poisson, maka angka dalam dua kali waktu atau area masih mengikuti Poisson (dengan dua kali rata-rata): ini berfungsi untuk menambahkan Poissons atau penskalaan dengan nilai selain dari 2.

Perhatikan bahwa jika peristiwa terjadi dari waktu ke waktu dan waktu antara kejadian mengikuti eksponensial maka angka yang terjadi dalam periode waktu mengikuti Poisson.

Binomial Negatif: Dihitung dengan minimum 0 (atau nilai lain tergantung pada versi mana) dan tanpa batas atas. Secara konseptual, ini adalah jumlah "kegagalan" sebelum k "sukses". Binomial negatif juga merupakan campuran dari variabel Poisson yang artinya berasal dari distribusi gamma.

Geometrik: kasus khusus untuk binomial negatif dengan jumlah "kegagalan" sebelum "sukses" pertama. Jika Anda memotong (bulatkan) variabel eksponensial untuk membuatnya terpisah, hasilnya adalah geometris.

Greg Snow
sumber
3
Terima kasih atas jawaban Anda. Namun, wikipedia menyediakan deskripsi yang lebih umum yang saya inginkan. Pada dasarnya, pertanyaan saya adalah mengapa beberapa distribusi bagus? Untuk memberikan jawaban yang mungkin dalam kasus distribusi normal, mungkin terkait dengan teorema terbatas pusat - yang mengatakan jika Anda mencicipi jumlah pengamatan yang tak terbatas, Anda dapat benar-benar dalam asympotik melihat bahwa statistik yang cukup dari pengamatan tersebut, mengingat independensi memiliki distribusi normal . Saya mencari lebih banyak contoh seperti itu ..
Roark
Bukan distribusi yang sebenarnya, tapi bagaimana dengan bimodal? Saya tidak dapat memikirkan contoh kehidupan nyata yang biasa dilihat setelah saya menemukan bahwa banyak perbedaan gender pada manusia bukanlah bimodal.
plafon kucing
Tambahkan multinomial
3

Teori asimptotik mengarah pada distribusi normal, tipe nilai ekstrem, hukum stabil dan Poisson. Eksponensial dan Weibull cenderung muncul sebagai waktu parametrik untuk distribusi acara. Dalam kasus Weibull itu adalah tipe nilai ekstrim untuk minimum sampel. Terkait dengan model parametrik untuk pengamatan berdistribusi normal, chi square, distribusi t dan F muncul dalam pengujian hipotesis dan estimasi interval kepercayaan. Chi square juga muncul dalam analisis tabel kontingensi dan uji goodness of fit. Untuk mempelajari kekuatan tes, kami memiliki distribusi t dan F noncentral. Distribusi hypergeometrik muncul dalam uji eksak Fisher untuk tabel kontingensi. Distribusi binomial penting ketika melakukan percobaan untuk memperkirakan proporsi. Binomial negatif adalah distribusi penting untuk memodelkan penyebaran berlebih dalam suatu proses titik. Itu akan memberi Anda awal yang baik pada distribusi parametrik yang praktis. Untuk variabel acak nonnegatif pada (0, ∞) distribusi Gamma fleksibel untuk menyediakan berbagai bentuk dan log normal juga umum digunakan. Pada [0,1] keluarga beta memberikan distribusi simetris termasuk seragam serta distribusi yang condong ke kiri atau condong ke kanan.

Saya juga harus menyebutkan bahwa jika Anda ingin mengetahui semua detail seluk beluk tentang distribusi dalam statistik ada seri klasik buku-buku oleh Johnson dan Kotz yang mencakup distribusi diskrit, distribusi univariat terus-menerus, distribusi multivariat berkelanjutan, dan juga volume 1 dari Teori Lanjut Statistik oleh Kendall dan Stuart.

Michael R. Chernick
sumber
Terima kasih banyak atas jawabannya, ini sangat berguna. Sekali lagi terima kasih, itu sangat membantu saya.
Roark
2

Beli dan baca setidaknya 6 bab pertama (218 halaman pertama) dari William J. Feller "Pengantar Teori Probabilitas dan Penerapannya, Vol. 2" http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . Setidaknya baca semua Masalah untuk Solusi, dan lebih baik cobalah memecahkan sebanyak yang Anda bisa. Anda tidak perlu membaca Vol 1, yang menurut saya tidak terlalu berjasa.

Meskipun penulis telah meninggal 45 1/2 tahun yang lalu, bahkan sebelum buku itu selesai, ini hanyalah buku terbaik, tidak ada, untuk mengembangkan intuisi dalam probabilitas dan proses stokastik, dan memahami dan mengembangkan perasaan untuk berbagai distribusi , bagaimana mereka berhubungan dengan fenomena dunia nyata, dan berbagai fenomena stokastik yang dapat dan memang terjadi. Dan dengan fondasi kuat yang akan Anda bangun darinya, Anda akan dilayani dengan baik dalam statistik.

Jika Anda dapat membuatnya melalui bab-bab berikutnya, yang menjadi agak lebih sulit, Anda akan menjadi tahun cahaya di depan hampir semua orang. Sederhananya, jika Anda tahu Feller Vol 2, Anda tahu probabilitas (dan proses stokastik); artinya, apa pun yang Anda tidak tahu, seperti perkembangan baru, Anda akan dapat dengan cepat mengambil dan menguasai dengan membangun fondasi yang kuat itu.

Hampir semua yang disebutkan sebelumnya di utas ini ada di Feller Vol 2 (tidak semua materi di Kendall Advanced Theory of Statistics, tetapi membaca buku itu akan menjadi sepotong kue setelah Feller Vol 2), dan lebih banyak lagi, semuanya, semuanya dengan cara yang seharusnya mengembangkan pemikiran stokastik dan intuisi Anda. Johnson dan Kotz baik untuk hal-hal kecil pada berbagai distribusi probabilitas, Feller Vol 2 berguna untuk mempelajari cara berpikir secara probabilistik, dan mengetahui apa yang harus diambil dari Johnson dan Kotz dan cara menggunakannya.

Mark L. Stone
sumber
2

Hanya untuk menambah jawaban bagus lainnya.

Distribusi Poisson berguna setiap kali kita memiliki variabel penghitungan, seperti yang telah disebutkan orang lain. Tetapi masih banyak lagi yang harus dikatakan! Poisson muncul secara asimptotik dari variabel terdistribusi secara binerial, ketikanpλ=nptetap konstan, dibatasi jauh dari nol dan tak terhingga. Ini memberi tahu kita bahwa ini berguna setiap kali kita memiliki sejumlah besar peristiwa yang sangat mustahil secara individual. Beberapa contoh yang baik adalah: kecelakaan, seperti jumlah kecelakaan mobil di New York dalam sehari, karena setiap kali dua mobil lewat / bertemu ada kemungkinan kecelakaan yang sangat rendah, dan jumlah peluang seperti itu memang luar biasa! Sekarang Anda sendiri dapat memikirkan contoh lain, seperti jumlah total kecelakaan pesawat di dunia dalam setahun. Contoh klasik di mana jumlah kematian akibat kuda di kavaleri Preusia!

np(1p)p1pnpλpp

kjetil b halvorsen
sumber
0

Penelitian yang baru-baru ini dipublikasikanmenunjukkan bahwa kinerja manusia TIDAK terdistribusi secara normal, bertentangan dengan pemikiran umum. Data dari empat bidang dianalisis: (1) Akademisi di 50 disiplin ilmu, berdasarkan frekuensi penerbitan di jurnal disiplin khusus yang paling menonjol. (2) Penghibur, seperti aktor, musisi dan penulis, dan jumlah penghargaan bergengsi, nominasi atau perbedaan yang diterima. (3) Politisi di 10 negara dan hasil pemilihan / pemilihan ulang. (4) Atlet perguruan tinggi dan profesional melihat langkah-langkah paling individual yang tersedia, seperti jumlah home run, resepsi dalam olahraga tim dan total kemenangan dalam olahraga individu. Penulis menulis, "Kami melihat distribusi hukum-kekuasaan yang jelas dan konsisten terungkap dalam setiap studi, terlepas dari seberapa sempit atau luas kami menganalisis data ..."

Joel W.
sumber
4
Siapa yang menyarankan bahwa kinerja manusia terdistribusi secara normal ?! Prinsip 80-20 disarankan oleh Pareto (1906!).
abaumann