Mengapa sering diasumsikan distribusi Gaussian?

13

Mengutip dari artikel Wikipedia tentang estimasi parameter untuk classifier Bayes yang naif : "asumsi umum adalah bahwa nilai kontinu yang terkait dengan setiap kelas didistribusikan sesuai dengan distribusi Gaussian."

Saya mengerti bahwa distribusi Gaussian nyaman untuk alasan analitis. Namun, apakah ada alasan lain di dunia nyata untuk membuat anggapan ini? Bagaimana jika populasinya terdiri dari dua sub populasi (orang pintar / bodoh, apel besar / kecil)?

lmsasu
sumber
5
Mungkin karena teorema batas pusat, distribusi Gaussian memang cocok untuk banyak orang, meskipun tidak semuanya, pengukuran fenomena fisik? Dengan sub-populasi, seseorang dapat memperoleh distribusi campuran Gaussian.
Dilip Sarwate
1
Bagian yang sama (saya berasumsi Anda sedang melihat artikel Naif Bayes) menunjukkan bahwa binning mungkin ide yang lebih baik jika Anda tidak tahu distribusinya. Seseorang mungkin harus mengedit artikel wikipedia untuk membuatnya lebih jelas bahwa seseorang hanya boleh menganggap gaussian jika dia dapat berdebat mengapa itu gaussian (misal plot data, atau mengikuti pola aditif CLT).
rm999

Jawaban:

6

Setidaknya bagi saya, asumsi normalitas muncul dari dua (sangat kuat) alasan:

  1. Teorema Batas Pusat.

  2. Distribusi Gaussian adalah distribusi maksimum entropi (berkenaan dengan versi berkelanjutan dari entropi Shannon).

Saya pikir Anda menyadari poin pertama: jika sampel Anda adalah jumlah dari banyak proses, maka selama beberapa kondisi ringan terpenuhi, distribusinya cukup banyak gaussian (ada generalisasi dari CLT di mana Anda sebenarnya tidak harus mengasumsikan bahwa rv dari jumlah didistribusikan secara identik, lihat, misalnya, Lyapunov CLT).

Poin kedua adalah yang bagi sebagian orang (khususnya fisikawan) lebih masuk akal: mengingat momen pertama dan kedua dari suatu distribusi, distribusi yang dianggap kurang informasi (yaitu yang paling konservatif) berkenaan dengan ukuran entropi Shannon yang berkelanjutan (yang merupakan agak sewenang-wenang pada kasus berkelanjutan, tetapi, setidaknya bagi saya, benar-benar objektif dalam kasus diskrit, tapi itu cerita lain), adalah distribusi gaussian. Ini adalah bentuk dari apa yang disebut "prinsip entropi maksimum", yang tidak begitu tersebar luas karena penggunaan sebenarnya dari bentuk entropi agak sewenang-wenang (lihat artikel Wikipedia ini untuk informasi lebih lanjut tentang ukuran ini ).

μΣ

PD: Saya harus menambahkan prinsip entropi maksimum bahwa, menurut makalah ini , jika Anda mengetahui kisaran variasi variabel Anda, Anda harus membuat penyesuaian pada distribusi yang Anda dapatkan dengan prinsip entropi maksimum.

Néstor
sumber
3

Jawaban saya setuju dengan responden pertama. Teorema batas pusat memberi tahu Anda bahwa jika statistik Anda adalah jumlah atau rata-rata, maka akan mendekati normal dalam kondisi teknis tertentu terlepas dari distribusi masing-masing sampel. Tetapi Anda benar bahwa kadang-kadang orang membawa ini terlalu jauh hanya karena itu tampaknya cocok. Jika statistik Anda adalah rasio dan penyebutnya bisa nol atau mendekati itu, rasio akan terlalu berat untuk normal. Gosset menemukan bahwa bahkan ketika Anda sampel dari distribusi normal rata-rata dinormalisasi di mana standar deviasi sampel digunakan untuk konstanta normalisasi, distribusi adalah distribusi t dengan n-1 derajat kebebasan ketika n adalah ukuran sampel. Dalam eksperimen lapangannya di Guiness Brewery ia memiliki ukuran sampel yang bisa berkisar 5-10. Dalam kasus-kasus tersebut distribusi t mirip dengan distribusi normal standar dalam hal ini simetris sekitar 0 tetapi memiliki ekor yang jauh lebih berat. Perhatikan bahwa distribusi t konvergen ke standar normal ketika n menjadi besar. Dalam banyak kasus, distribusi yang Anda miliki mungkin bimodal karena merupakan campuran dari dua populasi. Beberapa kali distribusi ini dapat digunakan sebagai campuran dari distribusi normal. Tetapi mereka pasti tidak terlihat seperti distribusi normal. Jika Anda melihat buku teks statistik dasar, Anda akan menemukan banyak distribusi parametrik kontinu dan diskrit yang sering muncul dalam masalah inferensi. Untuk data diskrit kami memiliki binomial binomial, Poisson, geometrik, hipergeometrik dan negatif. Contoh kontinu termasuk chi square, lognormal, Cauchy, eksponensial negatif, Weibull dan Gumbel.

Michael R. Chernick
sumber
2

Penggunaan CLT untuk membenarkan penggunaan distribusi Gaussian adalah kesalahan umum karena CLT diterapkan pada mean sampel, bukan pada pengamatan individu. Oleh karena itu, meningkatkan ukuran sampel Anda, tidak berarti bahwa sampel lebih dekat dengan normalitas.

Distribusi Gaussian umumnya digunakan karena:

  1. Estimasi kemungkinan maksimum sangat mudah.
  2. Inferensi Bayesian sederhana (menggunakan prior konjugat atau prioror tipe Jeffreys).
  3. Ini diimplementasikan di sebagian besar paket numerik.
  4. Ada banyak teori tentang distribusi ini dalam hal pengujian hipotesis.
  5. Kurang pengetahuan tentang opsi lain (lebih fleksibel). ...

Tentu saja, opsi terbaik adalah menggunakan distribusi yang memperhitungkan karakteristik konteks Anda, tetapi ini bisa jadi menantang. Namun, adalah sesuatu yang harus dilakukan orang

"Semuanya harus dibuat sesederhana mungkin, tetapi tidak sederhana." (Albert Einstein)

Saya harap ini membantu.

Semoga sukses.

Tony
sumber
Mengapa downvote? apa argumen balik untuk penjelasan ini?
lmsasu
4
Keyakinan bahwa "Penggunaan CLT untuk membenarkan penggunaan distribusi Gaussian adalah kekeliruan umum karena CLT diterapkan pada mean sampel" itu sendiri merupakan kekeliruan. Misalnya, elektron dalam konduktor bergerak secara acak. The kecil muatan pada setiap elektron memberikan kontribusi untuk bersih noise tegangan (disebut thermal noise) yang dapat diukur di terminal konduktor. Setiap kontribusi kecil, ada banyak elektron, dan melalui CLT, noise dimodelkan sebagai proses acak Gaussian. Model ini telah divalidasi silang dalam berbagai studi eksperimental.
Dilip Sarwate
1
Paragraf pertama ini membingungkan dan tampaknya di luar topik. Ketika menerapkan CLT kita sering mengatakan bahwa distribusi bersifat gaussian karena setiap pengamatan individu adalah jumlah / rata-rata dari banyak proses. Jika paragraf pertama dihapus saya pikir ini akan menjadi jawaban yang bagus.
rm999
1
@ rm999 "Jika paragraf pertama dihapus saya pikir ini akan menjadi jawaban yang baik". Sebenarnya, paragraf pertama adalah inti dari jawaban karena sisanya hanya menunjukkan bagaimana model Gaussian sangat membantu secara analitis - yang sudah dipahami OP - dan tidak responsif terhadap pertanyaan yang diajukan.
Dilip Sarwate
@Dilip: (+1) Kernel jawaban yang sangat bagus ada di komentar pertama Anda. Silakan pertimbangkan mengembangkannya di pos terpisah.
kardinal