Saya pikir ini adalah topik yang menarik dan saya tidak sepenuhnya memahaminya. Apa hukum fisika dibuat sehingga begitu banyak fenomena alam memiliki distribusi normal? Tampaknya lebih intuitif bahwa mereka akan memiliki distribusi yang seragam.
Sangat sulit bagi saya untuk memahami hal ini dan saya merasa saya kehilangan beberapa informasi. Adakah yang bisa membantu saya dengan penjelasan yang bagus atau menautkan saya ke buku / video / artikel?
Jawaban:
Biarkan saya mulai dengan menyangkal premis. Robert Geary mungkin tidak melebih-lebihkan kasus ketika dia berkata (pada 1947) " ... normalitas adalah mitos; tidak pernah ada, dan tidak akan pernah ada, distribusi normal. " -
distribusi normal adalah model *, sebuah pendekatan yang terkadang lebih atau kurang bermanfaat.
Bahwa beberapa fenomena mendekati normal mungkin bukan kejutan besar, karena jumlah efek independen [atau bahkan tidak terlalu berkorelasi kuat] harus, jika ada banyak dari mereka dan tidak ada yang memiliki varian yang substansial dibandingkan dengan varian dari Jumlah sisanya yang mungkin kita lihat distribusi cenderung terlihat lebih normal.
Teorema batas pusat (yaitu tentang konvergensi ke distribusi normal dari sampel standar berarti sebagain menuju tak terhingga dalam beberapa kondisi ringan) setidaknya menunjukkan bahwa kita mungkin melihat kecenderungan menuju normalitas itu dengan ukuran sampel yang cukup besar tetapi terbatas.
Tentu saja jika cara standar sekitar normal, jumlah standar akan; ini adalah alasan untuk alasan "jumlah banyak efek". Jadi, jika ada banyak kontribusi kecil untuk variasi, dan mereka tidak sangat berkorelasi, Anda mungkin cenderung melihatnya.
Teorema Berry-Esseen memberi kita pernyataan tentang hal itu (konvergensi menuju distribusi normal) benar-benar terjadi dengan sarana sampel standar untuk data iid (di bawah kondisi yang sedikit lebih ketat daripada CLT, karena mengharuskan momen absolut ketiga terbatas), karena serta memberi tahu kami tentang seberapa cepat itu terjadi. Versi berikutnya dari teorema ini berhubungan dengan komponen-komponen yang tidak terdistribusi secara identik dalam penjumlahan , meskipun batas atas pada penyimpangan dari normalitas kurang ketat.
Kurang formal, perilaku konvolusi dengan distribusi yang cukup bagus memberi kita tambahan (meskipun terkait erat) alasan untuk mencurigai itu mungkin cenderung menjadi perkiraan yang adil dalam sampel terbatas dalam banyak kasus. Konvolusi bertindak sebagai semacam operator "mengolesi" yang orang-orang yang menggunakan estimasi kepadatan kernel di berbagai kernel akan terbiasa dengan; setelah Anda membuat standar hasilnya (sehingga varians tetap konstan setiap kali Anda melakukan operasi seperti itu), jelas ada perkembangan menuju bentuk bukit yang semakin simetris saat Anda berulang kali menghaluskan (dan tidak masalah jika Anda mengganti kernel setiap kali).
Terry Tao memberikan beberapa diskusi yang bagus tentang versi teorema limit Tengah dan teorema Berry-Esseen sini , dan di sepanjang jalan menyebutkan pendekatan ke versi Berry-Esseen yang tidak independen.
Jadi ada setidaknya satu kelas situasi di mana kita mungkin berharap melihatnya, dan alasan formal untuk berpikir itu akan cenderung terjadi dalam situasi itu. Namun, paling banter bahwa hasil dari "jumlah banyak efek" akan normal adalah perkiraan. Dalam banyak kasus ini adalah perkiraan yang cukup masuk akal (dan dalam kasus-kasus tambahan meskipun perkiraan distribusi tidak dekat, beberapa prosedur yang menganggap normalitas tidak terlalu sensitif terhadap distribusi nilai-nilai individual, setidaknya dalam sampel besar).
Ada banyak keadaan lain di mana efek tidak "menambah" dan di sana kita dapat mengharapkan hal-hal lain terjadi; misalnya, dalam banyak data keuangan, efek cenderung bersifat multiplikasi (efek akan memindahkan jumlah dalam persentase, seperti bunga dan inflasi dan nilai tukar misalnya). Di sana kita tidak mengharapkan normalitas, tetapi terkadang kita mungkin mengamati perkiraan kasar terhadap normalitas pada skala log. Dalam situasi lain tidak ada yang cocok, bahkan dalam arti kasar. Misalnya, waktu antar-peristiwa umumnya tidak akan didekati dengan baik oleh normalitas atau normalitas log; tidak ada "jumlah" atau "produk" dari efek untuk diperdebatkan di sini. Ada banyak fenomena lain yang bisa kita bahas untuk "hukum" tertentu dalam keadaan tertentu.
sumber
Ada pepatah terkenal oleh Gabriel Lippmann (fisikawan, penerima hadiah Nobel), seperti yang diceritakan oleh Poincaré:
Tampaknya kami tidak memiliki kutipan ini di utas Daftar Kutipan Statistik kami, itu sebabnya saya pikir akan lebih baik untuk mempostingnya di sini.
sumber
Distribusi normal adalah tempat umum dalam ilmu alam. Penjelasan yang biasa adalah mengapa hal itu terjadi dalam kesalahan pengukuran adalah melalui beberapa bentuk sejumlah besar atau alasan sentral limit (CLT), yang biasanya berjalan seperti ini: "karena hasil percobaan dipengaruhi oleh gangguan dalam jumlah besar yang datang dari sumber yang tidak terkait CLT menunjukkan bahwa kesalahan biasanya terdistribusi ". Misalnya, inilah kutipan dari Metode Statistik dalam Analisis Data oleh WJ Metzger:
Namun, karena Anda harus tahu ini tidak berarti bahwa setiap distribusi akan normal, tentu saja. Sebagai contoh, distribusi Poisson sama umum dalam fisika ketika berhadapan dengan proses penghitungan. Dalam spektroskopi, distribusi Cauchy (alias Breit Wigner) digunakan untuk menggambarkan bentuk spektrum radiasi dan sebagainya.
Saya menyadari hal ini setelah menulis: ketiga distribusi yang disebutkan sejauh ini (Gaussian, Poisson, Cauchy) adalah distribusi stabil , dengan Poisson menjadi diskrit stabil . Sekarang saya memikirkan hal ini, sepertinya kualitas penting dari suatu distribusi yang akan membuatnya bertahan dalam agregasi: jika Anda menambahkan banyak angka dari Poisson, jumlahnya adalah Poisson. Ini mungkin "menjelaskan" (dalam beberapa hal) mengapa begitu di mana-mana.
Dalam ilmu yang tidak alami, Anda harus sangat berhati-hati dalam menerapkan distribusi normal (atau lainnya) karena berbagai alasan. Terutama korelasi dan dependensi adalah masalah, karena mereka dapat mematahkan asumsi CLT. Sebagai contoh, di bidang keuangan diketahui bahwa banyak seri terlihat seperti normal tetapi memiliki ekor yang jauh lebih berat , yang merupakan masalah besar dalam manajemen risiko.
Akhirnya, ada alasan yang lebih kuat dalam ilmu pengetahuan alam untuk memiliki distribusi normal daripada alasan "melambaikan tangan" yang saya kutip sebelumnya. Coba perhatikan, gerak Brown. Jika guncangan benar-benar independen dan sangat kecil, maka tak terhindarkan distribusi jalur yang dapat diamati akan memiliki distribusi normal karena CLT, lihat misalnya Persamaan (10) dalam karya Einstein yang terkenal " INVESTIGASI TERHADAP TEORI GERAKAN BROWNIAN ". Dia bahkan tidak repot-repot menyebutnya dengan nama hari ini "Gaussian" atau "normal".
Karenanya, jangan kaget untuk mendapatkan reaksi yang sangat berbeda terhadap penggunaan distribusi Gaussian dari para peneliti di berbagai bidang. Dalam beberapa bidang seperti fisika, fenomena tertentu diperkirakan akan dikaitkan secara alami dengan distribusi Gaussian berdasarkan teori yang sangat kuat yang didukung oleh sejumlah besar pengamatan. Di bidang lain, distribusi normal digunakan untuk kenyamanan teknis, sifat matematika praktis atau alasan yang dipertanyakan lainnya.
sumber
ada banyak sekali penjelasan yang terlalu rumit di sini ...
Cara yang baik terkait dengan saya adalah sebagai berikut:
Gulung satu dadu, dan Anda memiliki kemungkinan yang sama untuk menggulung setiap angka (1-6), dan karenanya, PDFnya konstan.
Gulung dua dadu dan jumlahkan hasilnya, dan PDF tidak lagi konstan. Ini karena ada 36 kombinasi, dan rentang sumatif adalah 2 hingga 12. Kemungkinan 2 adalah kombinasi unik tunggal 1 + 1. Kemungkinan 12, juga unik karena hanya dapat terjadi dalam kombinasi tunggal 6 + 6. Sekarang, melihat 7, ada beberapa kombinasi, yaitu 3 + 4, 5 + 2, dan 6 + 1 ( dan permutasi baliknya). Ketika Anda bekerja jauh dari nilai tengah (yaitu 7), ada kombinasi yang lebih rendah untuk 6 & 8 dll sampai Anda tiba di kombinasi tunggal 2 dan 12. Contoh ini tidak menghasilkan distribusi normal yang jelas, tetapi semakin banyak Anda menambahkan, dan semakin banyak sampel yang Anda ambil, maka hasilnya akan cenderung ke distribusi normal.
Oleh karena itu, ketika Anda menjumlahkan berbagai variabel independen yang tunduk pada variasi acak (yang masing-masing dapat memiliki PDF mereka sendiri), semakin banyak output yang dihasilkan akan cenderung normal. Ini dalam istilah Six Sigma memberi kita apa yang kita sebut 'Suara Proses'. Ini adalah apa yang kita sebut hasil dari 'variasi penyebab umum' dari suatu sistem, dan karenanya, jika output cenderung ke normalitas, maka kita menyebut sistem ini 'dalam pengendalian proses statistik'. Jika outputnya tidak normal (condong atau bergeser), maka kita katakan sistem tunduk pada 'variasi penyebab khusus' di mana telah ada beberapa 'sinyal' yang telah membiaskan hasilnya dengan beberapa cara.
Semoga itu bisa membantu.
sumber
Tidak ada ide. Di sisi lain saya juga tidak tahu apakah itu benar, atau memang apa artinya 'begitu banyak'.
Namun, mengatur ulang masalah sedikit, ada alasan bagus untuk mengasumsikan (yaitu, memodelkan ) kuantitas kontinu yang Anda yakini memiliki mean tetap dan varians dengan distribusi Normal. Itu karena distribusi Normal adalah hasil dari memaksimalkan subjek entropi untuk kendala momen tersebut. Karena, secara kasar, entropi adalah ukuran ketidakpastian, yang menjadikan Normal sebagai pilihan distribusi yang paling non-komital atau tidak pasti maksimal.
Sekarang, gagasan bahwa seseorang harus memilih distribusi dengan memaksimalkan subjek entropi untuk kendala yang diketahui benar-benar memiliki beberapa dukungan fisika dalam hal jumlah cara yang mungkin untuk memenuhinya. Jaynes tentang mekanika statistik adalah referensi standar di sini.
Perhatikan bahwa sementara entropi maksimum memotivasi distribusi normal dalam kasus ini, berbagai jenis kendala dapat ditunjukkan untuk mengarah pada keluarga distribusi yang berbeda, misalnya eksponensial, poisson, binomial, dll.
Sivia dan Skilling 2005 bag.5 memiliki diskusi yang intuitif.
sumber