Alasan untuk data terdistribusi secara normal

19

Apa beberapa teorema yang mungkin menjelaskan (yaitu, secara umum) mengapa data dunia nyata mungkin diharapkan terdistribusi secara normal?

Ada dua yang saya tahu:

  1. Theor Limit Limit Theorem (tentu saja), yang memberitahu kita bahwa jumlah dari beberapa variabel acak independen dengan mean dan varians (bahkan ketika mereka tidak terdistribusi secara identik) cenderung terdistribusi secara normal

  2. Biarkan X dan Y menjadi RV kontinu independen dengan densitas yang dapat dibedakan sedemikian rupa sehingga densitas sambungannya hanya bergantung pada + . Maka X dan Y adalah normal.x2y2

(pos silang dari mathexchange )

Sunting: Untuk memperjelas, saya tidak membuat klaim tentang seberapa banyak data dunia nyata terdistribusi secara normal. Saya hanya bertanya tentang teorema yang dapat memberikan wawasan tentang apa jenis proses yang dapat menyebabkan data terdistribusi secara normal.

anonim
sumber
7
Anda mungkin menemukan materi terkait yang menarik di utas kami di stats.stackexchange.com/questions/4364 . Untuk menghindari kemungkinan kebingungan di antara beberapa pembaca, saya ingin menambahkan (dan saya harap ini adalah niat Anda) bahwa pertanyaan Anda tidak boleh dibaca sebagai menyarankan bahwa semua atau bahkan sebagian besar dataset aktual dapat didekati secara memadai oleh distribusi normal. Sebaliknya, dalam kasus-kasus tertentu ketika kondisi tertentu berlaku, mungkin berguna untuk menggunakan distribusi normal sebagai kerangka acuan untuk memahami atau menginterpretasikan data: jadi bagaimana kondisi tersebut?
Whuber
Terima kasih atas tautannya! Dan itu benar sekali, terima kasih atas klarifikasi. Saya akan mengeditnya ke posting asli.
Anonim
@ user43228, " Tentu saja ada banyak distribusi lain yang muncul dalam masalah dunia nyata yang tidak terlihat normal sama sekali. " askamathematician.com/2010/02/…
Pacerier

Jawaban:

17

Banyak distribusi pembatas RV diskrit (poisson, binomial, dll) yang mendekati normal. Pikirkan plinko. Dalam hampir semua kasus ketika perkiraan normal berlaku, normalitas hanya masuk untuk sampel besar.

Sebagian besar data dunia nyata TIDAK terdistribusi secara normal. Sebuah makalah oleh Micceri (1989) yang disebut " The unicorn, kurva normal, dan makhluk mustahil lainnya " meneliti 440 pencapaian skala besar dan ukuran psikometrik. Dia menemukan banyak variabilitas dalam distribusi sesuai dengan momen mereka dan tidak banyak bukti untuk (bahkan perkiraan) normalitas.

Dalam sebuah makalah tahun 1977 oleh Steven Stigler yang disebut " Do Robust Estimators Work with Real Data " ia menggunakan 24 set data yang dikumpulkan dari upaya abad ke-18 yang terkenal untuk mengukur jarak dari bumi ke matahari dan upaya abad ke-19 untuk mengukur kecepatan cahaya. Dia melaporkan sampel skewness dan kurtosis pada Tabel 3. Data tersebut berekor berat.

Dalam statistik, kami menganggap normalitas karena seringkali membuat kemungkinan maksimum (atau metode lain) nyaman. Akan tetapi, yang ditunjukkan oleh kedua makalah di atas adalah bahwa anggapan itu sering lemah. Inilah mengapa studi ketahanan sangat berguna.

bsbk
sumber
2
Sebagian besar posting ini bagus, tetapi paragraf pengantar mengganggu saya karena bisa dengan mudah disalahartikan. Ini tampaknya untuk mengatakan - bukan secara eksplisit - bahwa secara umum, "besar sampel" akan terlihat terdistribusi normal. Mengingat komentar Anda selanjutnya, saya tidak percaya Anda benar-benar bermaksud mengatakan itu.
whuber
Saya seharusnya lebih jelas - saya tidak menyarankan bahwa kebanyakan data dunia nyata terdistribusi secara normal. Tapi itu poin bagus untuk diangkat. Dan saya berasumsi apa yang Anda maksud adalah bahwa distribusi binomial dengan n besar adalah normal, dan distribusi poisson dengan mean besar adalah normal. Distribusi apa yang cenderung normal?
Anonim
Terima kasih, saya mengedit paragraf pertama. Lihat Wald dan Wolfowitz (1944) untuk teorema tentang bentuk-bentuk linier di bawah permutasi, misalnya. Yaitu, mereka menunjukkan dua sampel t statistik di bawah permutasi normal asimptotik.
bsbk
Distribusi sampel bukanlah "dataset dunia nyata"! Mungkin kesulitan yang saya alami dengan ketidakkonsistenan yang jelas dalam posting Anda berasal dari kebingungan antara distribusi dan data. Mungkin itu berasal dari kurangnya kejelasan tentang proses "membatasi" apa yang sebenarnya Anda pikirkan.
whuber
3
Pertanyaan aslinya adalah tentang menjelaskan "secara generatif" bagaimana data dunia nyata yang normal mungkin muncul. Dapat dibayangkan bahwa data nyata dapat dihasilkan dari proses binomial atau poisson, yang keduanya dapat diperkirakan oleh distribusi normal. Op meminta contoh lain dan yang muncul dalam pikiran adalah distribusi permutasi, yang asimtotik normal (tanpa adanya ikatan). Saya tidak bisa memikirkan cara yang begitu saja bahwa data nyata akan dihasilkan dari distribusi itu jadi mungkin itu adalah peregangan.
bsbk
10

Ada juga pembenaran teori informasi untuk penggunaan distribusi normal. Diberikan mean dan varians, distribusi normal memiliki entropi maksimum di antara semua distribusi probabilitas bernilai nyata. Ada banyak sumber yang membahas properti ini. Yang singkat dapat ditemukan di sini . Diskusi yang lebih umum tentang motivasi untuk menggunakan distribusi Gaussian yang melibatkan sebagian besar argumen yang disebutkan sejauh ini dapat ditemukan dalam artikel ini dari majalah Signal Processing.

Igor
sumber
6
Ini mundur, seperti yang saya mengerti. Ini tentang bagaimana membuat asumsi normal dalam arti sempit menjadi asumsi lemah. Saya tidak melihat apa implikasinya tentang data dunia nyata. Anda mungkin juga berpendapat bahwa kurva biasanya lurus karena itulah asumsi paling sederhana yang dapat Anda buat tentang lengkungan. Epistemologi tidak membatasi ontologi! Jika referensi yang Anda kutip lebih dari itu, tolong jelaskan argumennya.
Nick Cox
3

Dalam fisika itu adalah CLT yang biasanya dikutip sebagai alasan untuk memiliki kesalahan yang terdistribusi normal dalam banyak pengukuran.

Dua distribusi kesalahan paling umum dalam fisika eksperimental adalah normal dan Poisson. Yang terakhir ini biasanya ditemui dalam pengukuran jumlah, seperti peluruhan radioaktif.

Fitur lain yang menarik dari kedua distribusi ini adalah bahwa sejumlah variabel acak dari Gaussian dan Poisson adalah milik Gaussian dan Poisson.

Ada beberapa buku tentang statistik dalam ilmu eksperimental seperti ini : Gerhard Bohm, Günter Zech, Pengantar Statistik dan Analisis Data untuk Fisikawan, ISBN 978-3-935702-41-6

Aksakal
sumber
0

CLT sangat berguna ketika membuat kesimpulan tentang hal-hal seperti populasi berarti karena kita sampai di sana dengan menghitung semacam kombinasi linear dari sekelompok pengukuran individu. Namun, ketika kami mencoba membuat kesimpulan tentang pengamatan individu, terutama pengamatan di masa depan ( misalnya , interval prediksi), penyimpangan dari normalitas jauh lebih penting jika kita tertarik pada ekor distribusi. Sebagai contoh, jika kita memiliki 50 pengamatan, kita membuat ekstrapolasi yang sangat besar (dan lompatan iman) ketika kita mengatakan sesuatu tentang kemungkinan pengamatan di masa depan setidaknya 3 standar deviasi dari rata-rata.

Emil Friedman
sumber