Ini mungkin pertanyaan amatir, tetapi saya tertarik pada bagaimana para ilmuwan menghasilkan bentuk fungsi kepadatan probabilitas distribusi normal? Pada dasarnya yang menggangguku adalah bahwa bagi seseorang mungkin akan lebih intuitif bahwa fungsi probabilitas dari data yang terdistribusi secara normal memiliki bentuk segitiga sama kaki dan bukan kurva lonceng, dan bagaimana Anda membuktikan kepada orang tersebut bahwa fungsi kepadatan probabilitas dari semua data yang didistribusikan secara normal memiliki bentuk lonceng? Dengan eksperimen? Atau oleh beberapa derivasi matematika?
Lagi pula, apa yang sebenarnya kita anggap data terdistribusi normal? Data yang mengikuti pola probabilitas distribusi normal, atau sesuatu yang lain?
Pada dasarnya pertanyaan saya adalah mengapa fungsi kepadatan probabilitas distribusi normal memiliki lonceng dan bukan yang lain? Dan bagaimana para ilmuwan mencari tahu skenario kehidupan nyata mana yang distribusi normal dapat diterapkan, dengan percobaan atau dengan mempelajari sifat dari berbagai data itu sendiri?
Jadi saya telah menemukan tautan ini sangat membantu dalam menjelaskan derivasi bentuk fungsional dari kurva distribusi normal, dan dengan demikian menjawab pertanyaan "Mengapa distribusi normal terlihat seperti itu dan bukan yang lain?". Pemikiran yang benar-benar menghebohkan, setidaknya untukku.
Jawaban:
" Evolusi Distribusi Normal " oleh SAUL STAHL adalah sumber informasi terbaik untuk menjawab hampir semua pertanyaan di pos Anda. Saya akan melafalkan beberapa poin untuk kenyamanan Anda saja, karena Anda akan menemukan pembahasan terperinci di dalam makalah.
Tidak, ini pertanyaan menarik bagi siapa saja yang menggunakan statistik, karena ini tidak dibahas secara detail di mana pun dalam kursus standar.
Lihatlah gambar ini dari kertas. Ini menunjukkan kurva kesalahan yang dibuat Simpson sebelum Gaussian (Normal) ditemukan untuk menganalisis data eksperimental. Jadi, intuisi Anda tepat.
Ya, itu sebabnya mereka disebut "kurva kesalahan". Percobaan adalah pengukuran astronomi. Para astronom berjuang dengan kesalahan pengukuran selama berabad-abad.
Lagi, YA! Singkat cerita: analisis kesalahan dalam data astronomi mengarahkan Gauss ke distribusinya (alias Normal). Ini adalah asumsi yang dia gunakan:
Omong-omong, Laplace menggunakan beberapa pendekatan berbeda, dan juga muncul dengan distribusinya juga ketika bekerja dengan data astronomi:
Mengenai mengapa distribusi normal menunjukkan dalam percobaan sebagai kesalahan pengukuran, berikut adalah penjelasan fisikawan "tangan-bergelombang" yang biasa digunakan untuk memberikan (kutipan dari Gerhard Bohm, Günter Zech, Pengantar Statistik dan Analisis Data untuk Fisikawan hal.85):
sumber
Anda tampaknya berasumsi dalam pertanyaan Anda bahwa konsep distribusi normal sudah ada sebelum distribusi diidentifikasi, dan orang-orang mencoba mencari tahu apa itu. Tidak jelas bagi saya bagaimana cara kerjanya. [Sunting: setidaknya ada satu indra yang mungkin kami anggap sebagai "pencarian distribusi" tapi itu bukan "pencarian distribusi yang menggambarkan banyak dan banyak fenomena"]
Ini bukan kasusnya; distribusi diketahui sebelum disebut distribusi normal.
Fungsi distribusi normal adalah benda yang memiliki apa yang biasanya disebut "bentuk lonceng" - semua distribusi normal memiliki "bentuk" yang sama (dalam arti bahwa mereka hanya berbeda dalam skala dan lokasi).
Data dapat terlihat kurang lebih "berbentuk lonceng" dalam distribusi tetapi itu tidak membuatnya normal. Banyak distribusi tidak normal terlihat serupa "berbentuk lonceng".
Distribusi populasi aktual yang diambil dari data kemungkinan tidak pernah benar - benar normal, meskipun kadang-kadang perkiraan yang cukup masuk akal.
Ini biasanya berlaku untuk hampir semua distribusi yang kami terapkan pada hal-hal di dunia nyata - mereka adalah model , bukan fakta tentang dunia. [Sebagai contoh, jika kita membuat asumsi tertentu (yang untuk proses Poisson), kita dapat memperoleh distribusi Poisson - distribusi yang banyak digunakan. Tetapi apakah asumsi-asumsi itu pernah benar - benar dipenuhi? Secara umum yang terbaik yang bisa kita katakan (dalam situasi yang tepat) adalah bahwa mereka hampir benar.]
Ya, untuk benar - benar terdistribusi secara normal, populasi sampel diambil dari harus memiliki distribusi yang memiliki bentuk fungsional yang tepat dari distribusi normal. Akibatnya, populasi terbatas apa pun tidak dapat menjadi normal. Variabel yang harus dibatasi tidak boleh normal (misalnya, waktu yang diambil untuk tugas-tugas tertentu, panjang hal-hal tertentu tidak boleh negatif, sehingga mereka sebenarnya tidak dapat didistribusikan secara normal).
Saya tidak mengerti mengapa ini selalu lebih intuitif. Ini tentu saja lebih sederhana.
Ketika pertama kali mengembangkan model untuk distribusi kesalahan (khusus untuk astronomi pada periode awal), matematikawan mempertimbangkan berbagai bentuk dalam kaitannya dengan distribusi kesalahan (termasuk pada satu titik awal distribusi segitiga), tetapi dalam banyak pekerjaan ini adalah matematika (bukan dari intuisi) yang digunakan. Laplace melihat distribusi eksponensial ganda dan normal (antara beberapa lainnya), misalnya. Demikian pula Gauss menggunakan matematika untuk menurunkannya di sekitar waktu yang sama, tetapi dalam kaitannya dengan serangkaian pertimbangan yang berbeda dari yang dilakukan Laplace.
Dalam arti sempit bahwa Laplace dan Gauss sedang mempertimbangkan "distribusi kesalahan", kita bisa menganggapnya sebagai "pencarian distribusi", setidaknya untuk sementara waktu. Keduanya mendalilkan beberapa properti untuk distribusi kesalahan yang mereka anggap penting (Laplace dianggap sebagai urutan kriteria yang agak berbeda dari waktu ke waktu) menyebabkan distribusi yang berbeda.
Bentuk fungsional dari benda yang disebut fungsi kerapatan normal memberinya bentuk itu. Pertimbangkan standar normal (untuk kesederhanaan; setiap normal lainnya memiliki bentuk yang sama, hanya berbeda dalam skala dan lokasi):
(di mana hanyalah sebuah konstanta yang dipilih untuk membuat total area 1)k
ini mendefinisikan nilai kerapatan pada setiap nilai , sehingga itu benar-benar menggambarkan bentuk kerapatan. Objek matematika itulah yang kami lampirkan label "distribusi normal". Tidak ada yang istimewa dari namanya; itu hanya label yang kami lampirkan ke distribusi. Ada banyak nama (dan masih disebut hal yang berbeda oleh orang yang berbeda).x
Sementara beberapa orang menganggap distribusi normal sebagai sesuatu yang "biasa" itu sebenarnya hanya dalam set situasi tertentu yang Anda bahkan cenderung melihatnya sebagai perkiraan.
Penemuan distribusi biasanya dikreditkan ke de Moivre (sebagai perkiraan untuk binomial). Dia pada dasarnya memperoleh bentuk fungsional ketika mencoba untuk memperkirakan koefisien binomial (/ probabilitas binomial) untuk memperkirakan perhitungan yang membosankan, tetapi - sementara dia memang secara efektif menurunkan bentuk distribusi normal - dia tampaknya tidak memikirkan perkiraannya sebagai suatu distribusi probabilitas, meskipun beberapa penulis menyarankan agar ia melakukannya. Diperlukan sejumlah interpretasi tertentu sehingga ada ruang untuk perbedaan dalam interpretasi itu.
Gauss dan Laplace mengerjakannya pada awal 1800-an; Gauss menulis tentang itu pada 1809 (sehubungan dengan itu menjadi distribusi yang rerata adalah MLE pusat) dan Laplace pada 1810, sebagai perkiraan untuk distribusi jumlah variabel acak simetris. Satu dekade kemudian Laplace memberikan bentuk awal teorema limit pusat, untuk diskrit dan variabel kontinu.
Nama awal untuk distribusi termasuk hukum kesalahan , hukum frekuensi kesalahan , dan itu juga dinamai Laplace dan Gauss, kadang-kadang bersama-sama.
Istilah "normal" digunakan untuk menggambarkan distribusi secara independen oleh tiga penulis berbeda pada tahun 1870-an (Peirce, Lexis, dan Galton), yang pertama pada 1873 dan dua lainnya pada 1877. Ini lebih dari enam puluh tahun setelah karya Gauss dan Laplace dan lebih dari dua kali sejak aproksimasi de Moivre. Penggunaannya oleh Galton mungkin paling berpengaruh tetapi ia menggunakan istilah "normal" dalam kaitannya dengan itu hanya sekali dalam pekerjaan 1877 (kebanyakan menyebutnya "hukum penyimpangan").
Namun, pada tahun 1880-an Galton menggunakan kata sifat "normal" dalam kaitannya dengan distribusi berkali-kali (misalnya sebagai "kurva normal" pada tahun 1889), dan ia pada gilirannya memiliki banyak pengaruh pada ahli statistik kemudian di Inggris (terutama Karl Pearson ). Dia tidak mengatakan mengapa dia menggunakan istilah "normal" dengan cara ini, tetapi mungkin berarti dalam arti "khas" atau "biasa".
Penggunaan eksplisit pertama dari frasa "distribusi normal" tampaknya oleh Karl Pearson; dia pasti menggunakannya pada tahun 1894, meskipun dia mengaku telah menggunakannya jauh sebelumnya (klaim yang akan saya lihat dengan hati-hati).
Referensi:
Miller, Jeff
"Penggunaan Awal Beberapa Kata Matematika:"
Distribusi normal (Entri oleh John Aldrich)
http://jeff560.tripod.com/n.html
Stahl, Saul (2006),
"Evolusi Distribusi Normal",
Majalah Matematika , Vol. 79, No. 2 (April), hal 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf
Distribusi normal, (2016, 1 Agustus).
Di Wikipedia, Ensiklopedia Gratis.
Diperoleh 12:02, 3 Agustus 2016, dari
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History
Hald, A (2007),
"Perkiraan Normal De Moivre terhadap Binomial, 1733, dan Generalisasi-nya",
Dalam: Sejarah Kesimpulan Statistik Parametrik dari Bernoulli ke Fisher, 1713–1935; hlm 17-24
[Anda mungkin mencatat perbedaan besar antara sumber-sumber ini sehubungan dengan akun de Moivre mereka]
sumber
Distribusi "normal" didefinisikan sebagai distribusi tertentu.
Pertanyaannya adalah mengapa kita mengharapkan distribusi khusus ini menjadi umum di alam, dan mengapa begitu sering digunakan sebagai perkiraan bahkan ketika data nyata tidak persis mengikuti distribusi itu? (Data nyata sering ditemukan memiliki "ekor gemuk", yaitu nilai-nilai yang jauh dari rata-rata jauh lebih umum daripada yang diprediksi oleh distribusi normal).
Dengan kata lain, apa yang istimewa dari distribusi normal?
Normal memiliki banyak sifat statistik "bagus", (lihat mis. Https://en.wikipedia.org/wiki/Central_limit_theorem ), tetapi IMO yang paling relevan adalah fakta yang merupakan fungsi "entropi maksimum" untuk distribusi apa pun dengan mean dan varian yang diberikan. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution
Untuk mengekspresikan ini dalam bahasa biasa, jika Anda hanya diberi mean (titik pusat) dan varians (lebar) dari suatu distribusi, dan Anda tidak menganggap hal lain apa pun tentangnya, Anda akan dipaksa untuk menggambar distribusi normal. Hal lain memerlukan informasi tambahan (dalam pengertian teori informasi Shannon ), misalnya kemiringan, untuk menentukannya.
Prinsip entropi maksimum diperkenalkan oleh ET Jaynes sebagai cara menentukan prior yang wajar dalam inferensi Bayesian, dan saya pikir dia adalah yang pertama yang menarik perhatian pada properti ini.
Lihat ini untuk diskusi lebih lanjut: http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf
sumber
The Distribusi Normal (alias " Gaussian Distribution ") memiliki dasar matematika yang kuat. The Central Teorema Limit mengatakan bahwa jika Anda memiliki satu set terbatas n independen dan identik didistribusikan variabel acak yang memiliki mean spesifik dan varians, dan Anda mengambil rata-rata dari variabel acak, distribusi hasilnya akan berkumpul untuk Distribusi Gaussian sebagai n pergi hingga tak terbatas. Tidak ada dugaan di sini, karena derivasi matematika mengarah ke fungsi distribusi khusus ini dan tidak ada yang lain.
Untuk memasukkan ini ke dalam istilah yang lebih nyata, pertimbangkan variabel acak tunggal, seperti membalik koin yang adil (2 hasil yang sama-sama mungkin). Peluang mendapatkan hasil tertentu adalah 1/2 untuk kepala dan 1/2 untuk ekor.
Jika Anda menambah jumlah koin dan melacak jumlah total kepala yang diperoleh pada setiap percobaan, maka Anda akan mendapatkan Distribusi Binomial , yang memiliki bentuk lonceng kasar. Cukup gambarkan dengan jumlah kepala di sepanjang sumbu x, dan berapa kali Anda membalik banyak kepala di sepanjang sumbu-y.
Semakin banyak koin yang Anda gunakan, dan semakin sering Anda membalik koin, semakin dekat grafik akan tampak seperti kurva lonceng Gaussian. Itulah yang ditegaskan oleh Teorema Limit Pusat.
Hal yang menakjubkan adalah bahwa teorema tidak bergantung pada bagaimana variabel-variabel acak terdistribusi, asalkan masing-masing variabel acak memiliki distribusi yang sama. Satu ide kunci dalam teorema adalah bahwa Anda menambah atau membuat rata - rata variabel acak. Konsep kunci lainnya adalah bahwa teorema tersebut menggambarkan batas matematika karena jumlah variabel acak menjadi lebih besar dan lebih besar. Semakin banyak variabel yang Anda gunakan, semakin dekat distribusi akan mendekati Distribusi Normal.
Saya sarankan Anda mengambil kelas dalam Statistik Matematika jika Anda ingin melihat bagaimana matematikawan menentukan bahwa Distribusi Normal sebenarnya adalah fungsi yang benar secara matematis untuk kurva lonceng.
sumber
Ada beberapa jawaban bagus untuk utas ini. Saya merasa OP tidak menanyakan pertanyaan yang sama seperti semua orang ingin menjawab. Saya mengerti, karena ini hampir menjadi salah satu pertanyaan paling menarik untuk dijawab - saya benar-benar menemukannya karena saya berharap seseorang mempunyai pertanyaan "Bagaimana kita tahu bahwa PDF normal adalah PDF?" dan saya mencarinya. Tapi saya pikir jawaban untuk pertanyaan itu mungkin untuk menunjukkan asal dari distribusi normal.
Jika saya membuang 100 koin di tanah sekarang dan menghitung berapa banyak kepala yang saya dapatkan, saya mungkin menghitung 0 kepala, atau saya mungkin menghitung 100 kepala, tetapi saya jauh lebih mungkin untuk menghitung angka di suatu tempat di antaranya. Apakah Anda melihat mengapa histogram ini harus berbentuk lonceng?
sumber
Juga akan menyebutkan derivasi Maxwell-Herschel dari distribusi normal multivariat independen dari dua asumsi:
Distribusi tidak terpengaruh oleh rotasi vektor.
Komponen vektor independen.
Ini adalah eksposisi oleh Jaynes
sumber