Di kelas kalkulus saya, kami menjumpai fungsi , atau "kurva lonceng", dan saya diberi tahu bahwa ia memiliki aplikasi yang sering dalam statistik.
Karena penasaran, saya ingin bertanya: Apakah fungsi benar-benar penting dalam statistik? Jika demikian, apa masalahnya dengan yang membuatnya berguna, dan apa saja beberapa aplikasinya? e - x 2
Saya tidak dapat menemukan banyak info tentang fungsi di internet, tetapi setelah melakukan penelitian, saya menemukan hubungan antara kurva lonceng secara umum, dan sesuatu yang disebut distribusi normal . Sebuah halaman Wikipedia menghubungkan jenis fungsi untuk aplikasi statistik, dengan menyoroti oleh saya, bahwa negara-negara:
"Distribusi normal dianggap sebagai distribusi probabilitas yang paling menonjol dalam statistik. Ada beberapa alasan untuk ini: 1 Pertama, distribusi normal muncul dari teorema batas pusat, yang menyatakan bahwa dalam kondisi ringan jumlah dari sejumlah besar variabel acak yang diambil dari distribusi yang sama didistribusikan kira-kira secara normal, terlepas dari bentuk distribusi aslinya . "
Jadi, jika saya mengumpulkan sejumlah besar data dari beberapa jenis survei atau sejenisnya, mereka dapat didistribusikan secara merata di antara fungsi seperti ? Fungsi ini simetris, jadi apakah simetrinya yaitu kegunaannya untuk distribusi normal, apa yang membuatnya sangat berguna dalam statistik? Saya hanya berspekulasi.
Secara umum, apa yang membuat berguna dalam statistik? Jika distribusi normal adalah satu-satunya area, lalu apa yang membuat unik atau berguna secara khusus di antara fungsi tipe gaussian lainnya dalam distribusi normal? e - x 2
sumber
Jawaban:
Alasan mengapa fungsi ini penting adalah memang distribusi normal dan pendamping yang terkait erat, teorema batas pusat (kami memiliki beberapa penjelasan yang baik tentang CLT dalam pertanyaan lain di sini).
Dalam statistik, CLT biasanya dapat digunakan untuk menghitung probabilitas sekitar, membuat pernyataan seperti "kami 95% yakin bahwa ..." mungkin (arti "95% percaya diri" sering disalahpahami, tapi itu masalah yang berbeda).
Fungsi adalah (versi skala) fungsi kepadatan dari distribusi normal. Jika kuantitas acak dapat dimodelkan menggunakan distribusi normal, fungsi ini menjelaskan seberapa besar kemungkinan perbedaan nilai kuantitas tersebut. Hasil di daerah dengan kepadatan tinggi lebih mungkin daripada hasil di daerah dengan kepadatan rendah.exp( - ( x - μ )22 σ2)
dan σ adalah parameter yang menentukan lokasi dan skala fungsi kerapatan. Ini simetris tentang μ , jadi mengubah μ berarti Anda menggeser fungsi ke kanan atau ke kiri. σ menentukan nilai fungsi kerapatan maksimum ( x = μ ) dan seberapa cepat ia pergi ke 0 saat x menjauh dari μ . Dalam pengertian itu, mengubah σ mengubah skala fungsi.μ σ μ μ σ x = μ x μ σ
Untuk pilihan tertentu dan σ = 1 / √μ = 0 kerapatan (sebanding dengan)e - x 2 . Ini bukan pilihan yang sangat menarik dari parameter ini, tetapi memiliki manfaat menghasilkan fungsi kepadatan yang terlihat sedikit lebih sederhana daripada yang lainnya.σ= 1 / 2-√ e- x2
Di sisi lain, kita dapat beralih dari ke kepadatan normal lainnya dengan perubahan variabel x = u - μe- x2 . Alasan bahwa buku teks Anda mengatakan bahwae-x2, dan bukanexp(-(x-μ)2x = u - μ2√σ e- x2 , adalah fungsi yang sangat penting yaitu bahwae-x2lebih mudah untuk ditulis.exp( - ( x - μ )22 σ2) e- x2
sumber
Dan distribusi normal adalah penting terutama karena ("dalam kondisi keteraturan ringan") jumlah dari banyak variabel acak independen dan terdistribusi identik mendekati normal, ketika "banyak" mendekati tak terbatas.
Tidak semuanya terdistribusi normal. Misalnya, hasil survei Anda mungkin tidak, setidaknya jika tanggapannya bahkan tidak pada skala berkelanjutan tetapi sesuatu seperti bilangan bulat 1-5. Tetapi rata - rata hasil secara normal didistribusikan melalui pengambilan sampel berulang, karena rata-rata hanyalah jumlah berskala (dinormalisasi) jumlah, dan tanggapan masing-masing independen satu sama lain. Dengan asumsi sampel cukup besar, tentu saja, karena secara tegas, normalitas hanya muncul ketika ukuran sampel menjadi tak terbatas.
Seperti yang Anda lihat dari contoh, distribusi normal dapat muncul sebagai hasil dari proses estimasi atau pemodelan, bahkan ketika data tidak terdistribusi secara normal. Karenanya distribusi normal ada di mana-mana dalam statistik. Dalam statistik bayesian, banyak distribusi parameter posterior kira-kira normal, atau dapat diasumsikan.
sumber
sumber