Sudah tertanam dalam pengajaran disiplin ilmu terapan, seperti kedokteran, bahwa pengukuran jumlah bio-medis dalam populasi mengikuti "kurva lonceng" yang normal. Pencarian Google pada string "kami mengasumsikan distribusi normal" menghasilkan hasil ! Mereka terdengar seperti, "mengingat sejumlah kecil titik data ekstrim, kami mengasumsikan distribusi normal untuk anomali suhu" dalam sebuah studi tentang perubahan iklim; atau "kami mengasumsikan distribusi normal tanggal penetasan ayam" pada dokumen yang mungkin kurang kontroversial mengenai penguin; atau "kami mengasumsikan distribusi normal guncangan pertumbuhan PDB" ,, ... dan hal lainnya).
Baru-baru ini, saya mendapati diri saya mempertanyakan perlakuan data hitung seperti yang didistribusikan secara normal karena sifatnya yang benar-benar positif. Tentu saja, penghitungan data bersifat diskrit, menjadikan normalitasnya menjadi lebih tiruan. Tetapi walaupun mengesampingkan poin terakhir ini, mengapa pengukuran empiris terus menerus seperti berat badan, tinggi atau konsentrasi glukosa, yang dianggap prototipikal "berkelanjutan", dianggap normal? Mereka tidak mungkin memiliki pengamatan negatif yang terwujud seperti halnya hitungan!
Saya mengerti bahwa ketika standar deviasi jauh lebih rendah dari rata-rata, menunjukkan beberapa nilai negatif ("cek rentang 95%") itu mungkin asumsi praktis, dan histogram frekuensi dapat mendukungnya jika tidak terlalu miring. Tetapi pertanyaan itu tampaknya tidak sepele, dan pencarian cepat menghasilkan hal-hal menarik.
Di Nature kita dapat menemukan pernyataan berikut pada surat oleh DF Heath : "Saya ingin menunjukkan bahwa untuk analisis statistik dari beberapa jenis data, asumsi bahwa data diambil dari populasi normal biasanya salah, dan bahwa alternatif asumsi distribusi log-normal lebih baik. Alternatif ini banyak digunakan oleh para ahli statistik, ekonom dan fisikawan, tetapi untuk beberapa alasan sering diabaikan oleh para ilmuwan dari beberapa disiplin ilmu lain. "
Limpert mencatat bahwa "model log-normal dapat berfungsi sebagai perkiraan dalam arti bahwa banyak ilmuwan menganggap normal sebagai perkiraan yang valid sekarang" , sementara mencatat rendahnya uji good -of-fit normalitas, dan kesulitan dalam memilih distribusi yang tepat secara empiris ketika berhadapan dengan sampel kecil.
Oleh karena itu pertanyaannya adalah, "Kapan bisa diterima untuk menganggap distribusi normal pengukuran empiris dalam ilmu terapan tanpa bukti pendukung lebih lanjut?" Dan, mengapa alternatif lain, seperti log-normal, belum, dan mungkin tidak akan bertahan?
sumber
Jawaban:
Saya menemukan pertanyaan Anda sangat menarik. Mari kita pertimbangkan beberapa hal:
Dengan mengatakan, mengatakan bahwa setiap variabel yang diamati mengikuti distribusi normal atau Log-Normal terdengar agak gila. Dalam praktiknya, yang dilakukan adalah Anda mengukur penyimpangan dari frekuensi yang diamati dari frekuensi yang diharapkan, jika variabel itu berasal dari populasi normal (atau distribusi lainnya). Jika Anda dapat mengatakan bahwa penyimpangan itu hanya acak, karena Anda mengambil sampel, maka Anda dapat mengatakan sesuatu seperti tidak ada cukup bukti untuk menolak hipotesis nol bahwa variabel ini berasal dari populasi normal , yang diterjemahkan ke dalam kami akan bekerja seolah-olah ( dengan asumsi) variabel mengikuti distribusi normal .
Menjawab pertanyaan pertama Anda, saya tidak berpikir bahwa ada seseorang yang berani mengatakan bahwa suatu variabel diasumsikan terdistribusi normal tanpa bukti lebih lanjut . Untuk mengatakan sesuatu seperti itu, Anda memerlukan setidaknya qq-plot, histogram, tes good-of-fit atau kombinasi dari semuanya.
Untuk menjawab pertanyaan kedua, minat khusus dalam distribusi normal adalah bahwa banyak dari tes klasik didasarkan pada asumsi normalitas variabel, seperti uji-t, atau untuk varian. Jadi, normalitas menyederhanakan pekerjaan, itu saja.χ2
sumber