Mengutip dari artikel Wikipedia tentang estimasi parameter untuk classifier Bayes yang naif : "asumsi umum adalah bahwa nilai kontinu yang terkait dengan setiap kelas didistribusikan sesuai dengan distribusi Gaussian."
Saya mengerti bahwa distribusi Gaussian nyaman untuk alasan analitis. Namun, apakah ada alasan lain di dunia nyata untuk membuat anggapan ini? Bagaimana jika populasinya terdiri dari dua sub populasi (orang pintar / bodoh, apel besar / kecil)?
normal-distribution
lmsasu
sumber
sumber
Jawaban:
Setidaknya bagi saya, asumsi normalitas muncul dari dua (sangat kuat) alasan:
Teorema Batas Pusat.
Distribusi Gaussian adalah distribusi maksimum entropi (berkenaan dengan versi berkelanjutan dari entropi Shannon).
Saya pikir Anda menyadari poin pertama: jika sampel Anda adalah jumlah dari banyak proses, maka selama beberapa kondisi ringan terpenuhi, distribusinya cukup banyak gaussian (ada generalisasi dari CLT di mana Anda sebenarnya tidak harus mengasumsikan bahwa rv dari jumlah didistribusikan secara identik, lihat, misalnya, Lyapunov CLT).
Poin kedua adalah yang bagi sebagian orang (khususnya fisikawan) lebih masuk akal: mengingat momen pertama dan kedua dari suatu distribusi, distribusi yang dianggap kurang informasi (yaitu yang paling konservatif) berkenaan dengan ukuran entropi Shannon yang berkelanjutan (yang merupakan agak sewenang-wenang pada kasus berkelanjutan, tetapi, setidaknya bagi saya, benar-benar objektif dalam kasus diskrit, tapi itu cerita lain), adalah distribusi gaussian. Ini adalah bentuk dari apa yang disebut "prinsip entropi maksimum", yang tidak begitu tersebar luas karena penggunaan sebenarnya dari bentuk entropi agak sewenang-wenang (lihat artikel Wikipedia ini untuk informasi lebih lanjut tentang ukuran ini ).
PD: Saya harus menambahkan prinsip entropi maksimum bahwa, menurut makalah ini , jika Anda mengetahui kisaran variasi variabel Anda, Anda harus membuat penyesuaian pada distribusi yang Anda dapatkan dengan prinsip entropi maksimum.
sumber
Jawaban saya setuju dengan responden pertama. Teorema batas pusat memberi tahu Anda bahwa jika statistik Anda adalah jumlah atau rata-rata, maka akan mendekati normal dalam kondisi teknis tertentu terlepas dari distribusi masing-masing sampel. Tetapi Anda benar bahwa kadang-kadang orang membawa ini terlalu jauh hanya karena itu tampaknya cocok. Jika statistik Anda adalah rasio dan penyebutnya bisa nol atau mendekati itu, rasio akan terlalu berat untuk normal. Gosset menemukan bahwa bahkan ketika Anda sampel dari distribusi normal rata-rata dinormalisasi di mana standar deviasi sampel digunakan untuk konstanta normalisasi, distribusi adalah distribusi t dengan n-1 derajat kebebasan ketika n adalah ukuran sampel. Dalam eksperimen lapangannya di Guiness Brewery ia memiliki ukuran sampel yang bisa berkisar 5-10. Dalam kasus-kasus tersebut distribusi t mirip dengan distribusi normal standar dalam hal ini simetris sekitar 0 tetapi memiliki ekor yang jauh lebih berat. Perhatikan bahwa distribusi t konvergen ke standar normal ketika n menjadi besar. Dalam banyak kasus, distribusi yang Anda miliki mungkin bimodal karena merupakan campuran dari dua populasi. Beberapa kali distribusi ini dapat digunakan sebagai campuran dari distribusi normal. Tetapi mereka pasti tidak terlihat seperti distribusi normal. Jika Anda melihat buku teks statistik dasar, Anda akan menemukan banyak distribusi parametrik kontinu dan diskrit yang sering muncul dalam masalah inferensi. Untuk data diskrit kami memiliki binomial binomial, Poisson, geometrik, hipergeometrik dan negatif. Contoh kontinu termasuk chi square, lognormal, Cauchy, eksponensial negatif, Weibull dan Gumbel.
sumber
Penggunaan CLT untuk membenarkan penggunaan distribusi Gaussian adalah kesalahan umum karena CLT diterapkan pada mean sampel, bukan pada pengamatan individu. Oleh karena itu, meningkatkan ukuran sampel Anda, tidak berarti bahwa sampel lebih dekat dengan normalitas.
Distribusi Gaussian umumnya digunakan karena:
Tentu saja, opsi terbaik adalah menggunakan distribusi yang memperhitungkan karakteristik konteks Anda, tetapi ini bisa jadi menantang. Namun, adalah sesuatu yang harus dilakukan orang
"Semuanya harus dibuat sesederhana mungkin, tetapi tidak sederhana." (Albert Einstein)
Saya harap ini membantu.
Semoga sukses.
sumber