Apa beberapa teorema yang mungkin menjelaskan (yaitu, secara umum) mengapa data dunia nyata mungkin diharapkan terdistribusi secara normal?
Ada dua yang saya tahu:
Theor Limit Limit Theorem (tentu saja), yang memberitahu kita bahwa jumlah dari beberapa variabel acak independen dengan mean dan varians (bahkan ketika mereka tidak terdistribusi secara identik) cenderung terdistribusi secara normal
Biarkan X dan Y menjadi RV kontinu independen dengan densitas yang dapat dibedakan sedemikian rupa sehingga densitas sambungannya hanya bergantung pada + . Maka X dan Y adalah normal.
(pos silang dari mathexchange )
Sunting: Untuk memperjelas, saya tidak membuat klaim tentang seberapa banyak data dunia nyata terdistribusi secara normal. Saya hanya bertanya tentang teorema yang dapat memberikan wawasan tentang apa jenis proses yang dapat menyebabkan data terdistribusi secara normal.
Jawaban:
Banyak distribusi pembatas RV diskrit (poisson, binomial, dll) yang mendekati normal. Pikirkan plinko. Dalam hampir semua kasus ketika perkiraan normal berlaku, normalitas hanya masuk untuk sampel besar.
Sebagian besar data dunia nyata TIDAK terdistribusi secara normal. Sebuah makalah oleh Micceri (1989) yang disebut " The unicorn, kurva normal, dan makhluk mustahil lainnya " meneliti 440 pencapaian skala besar dan ukuran psikometrik. Dia menemukan banyak variabilitas dalam distribusi sesuai dengan momen mereka dan tidak banyak bukti untuk (bahkan perkiraan) normalitas.
Dalam sebuah makalah tahun 1977 oleh Steven Stigler yang disebut " Do Robust Estimators Work with Real Data " ia menggunakan 24 set data yang dikumpulkan dari upaya abad ke-18 yang terkenal untuk mengukur jarak dari bumi ke matahari dan upaya abad ke-19 untuk mengukur kecepatan cahaya. Dia melaporkan sampel skewness dan kurtosis pada Tabel 3. Data tersebut berekor berat.
Dalam statistik, kami menganggap normalitas karena seringkali membuat kemungkinan maksimum (atau metode lain) nyaman. Akan tetapi, yang ditunjukkan oleh kedua makalah di atas adalah bahwa anggapan itu sering lemah. Inilah mengapa studi ketahanan sangat berguna.
sumber
Ada juga pembenaran teori informasi untuk penggunaan distribusi normal. Diberikan mean dan varians, distribusi normal memiliki entropi maksimum di antara semua distribusi probabilitas bernilai nyata. Ada banyak sumber yang membahas properti ini. Yang singkat dapat ditemukan di sini . Diskusi yang lebih umum tentang motivasi untuk menggunakan distribusi Gaussian yang melibatkan sebagian besar argumen yang disebutkan sejauh ini dapat ditemukan dalam artikel ini dari majalah Signal Processing.
sumber
Dalam fisika itu adalah CLT yang biasanya dikutip sebagai alasan untuk memiliki kesalahan yang terdistribusi normal dalam banyak pengukuran.
Dua distribusi kesalahan paling umum dalam fisika eksperimental adalah normal dan Poisson. Yang terakhir ini biasanya ditemui dalam pengukuran jumlah, seperti peluruhan radioaktif.
Fitur lain yang menarik dari kedua distribusi ini adalah bahwa sejumlah variabel acak dari Gaussian dan Poisson adalah milik Gaussian dan Poisson.
Ada beberapa buku tentang statistik dalam ilmu eksperimental seperti ini : Gerhard Bohm, Günter Zech, Pengantar Statistik dan Analisis Data untuk Fisikawan, ISBN 978-3-935702-41-6
sumber
CLT sangat berguna ketika membuat kesimpulan tentang hal-hal seperti populasi berarti karena kita sampai di sana dengan menghitung semacam kombinasi linear dari sekelompok pengukuran individu. Namun, ketika kami mencoba membuat kesimpulan tentang pengamatan individu, terutama pengamatan di masa depan ( misalnya , interval prediksi), penyimpangan dari normalitas jauh lebih penting jika kita tertarik pada ekor distribusi. Sebagai contoh, jika kita memiliki 50 pengamatan, kita membuat ekstrapolasi yang sangat besar (dan lompatan iman) ketika kita mengatakan sesuatu tentang kemungkinan pengamatan di masa depan setidaknya 3 standar deviasi dari rata-rata.
sumber