Jika histogram saya menunjukkan kurva berbentuk lonceng, dapatkah saya mengatakan bahwa data saya terdistribusi secara normal?

11

Saya membuat histogram untuk Usia Responden dan berhasil mendapatkan kurva berbentuk lonceng yang sangat bagus, dari mana saya menyimpulkan bahwa distribusinya normal.

Kemudian saya menjalankan tes normalitas di SPSS, dengan n = 169. Nilai p (Sig.) Dari tes Kolmogorov-Smirnov kurang dari 0,05 sehingga data telah melanggar asumsi normalitas.

Mengapa tes menunjukkan bahwa distribusi usia tidak normal, tetapi histogram menunjukkan kurva berbentuk lonceng, yang dari pemahaman saya normal? Hasil mana yang harus saya ikuti?

NoraNorad
sumber
8
Mengapa Anda menguji normalitas?
Glen_b -Reinstate Monica
6
Selain komentar luar biasa @ Glen_b dan jawaban Aksakal yang sama-sama luar biasa , perhatikan bahwa bahkan untuk distribusi kontinu, KS mensyaratkan bahwa mean dan sd harus diketahui sebelumnya , tidak diperkirakan dari data. Ini pada dasarnya membuat tes KS tidak berguna. "Tes Kolmogorov-Smirnov hanya merupakan keingintahuan historis. Seharusnya tidak pernah digunakan." (D'Agostino dalam d'Agostino & Stephens, eds., 1986). Jika sama sekali, gunakan Shapiro-Wilks sebagai gantinya.
Stephan Kolassa
6
@Stephan Kolassa Nasihat bagus, tapi maksud Anda Shapiro-Wilk. (Saran dari MB Wilk dan SS Wilks sering membingungkan atau membingungkan; penggunaan aneh dari posesif dalam bahasa Inggris di sini juga dapat berkontribusi pada kebingungan, bahkan bagi banyak orang yang menggunakan bahasa Inggris sebagai bahasa pertama mereka.)
Nick Cox
2
Terkait dengan komentar @StephanKolassa, lihat apakah Shapiro-Wilk tes normalitas terbaik? ... jawabannya adalah belum tentu, tergantung pada alternatif yang Anda minati, tetapi ini seringkali merupakan pilihan yang baik.
Silverfish

Jawaban:

34

Kami biasanya tahu itu tidak mungkin untuk variabel yang akan persis terdistribusi secara normal ...

Distribusi normal memiliki ekor yang panjang tak terhingga memanjang ke arah mana pun - tidak mungkin bagi data untuk berada jauh di ekstrem ini, tetapi untuk distribusi normal sejati itu harus dimungkinkan secara fisik. Untuk usia, model yang terdistribusi normal akan memperkirakan ada kemungkinan data tidak nol terletak 5 deviasi standar di atas atau di bawah rata-rata - yang akan sesuai dengan usia yang secara fisik tidak mungkin, seperti di bawah 0 atau di atas 150. (Meskipun jika Anda melihat sebuah piramida penduduk , tidak jelas mengapa Anda harapkan usia untuk menjadi lebih mendekati normal didistribusikan di tempat pertama.) Demikian pula jika Anda memiliki data yang tinggi, yang secara intuitif mungkin mengikuti distribusi yang lebih "normal-seperti", itu hanya bisa benar-benar normal jika ada kemungkinan ketinggian di bawah 0 cm atau di atas 300 cm.

Saya kadang-kadang melihatnya menyarankan agar kita dapat menghindari masalah ini dengan memusatkan data menjadi nol. Dengan begitu baik "usia terpusat" positif dan negatif dimungkinkan. Tetapi meskipun ini membuat kedua nilai negatif secara fisik masuk akal dan dapat ditafsirkan (nilai-nilai berpusat negatif sesuai dengan nilai aktual yang berada di bawah rata-rata), itu tidak menyelesaikan masalah bahwa model normal akan menghasilkan prediksi yang secara fisik tidak mungkin dengan probabilitas nol, setelah Anda decode model "usia terpusat" kembali ke "usia sebenarnya".

... jadi mengapa repot-repot menguji? Bahkan jika tidak tepat, normalitas masih bisa menjadi model yang berguna

Pertanyaan penting sebenarnya bukan apakah data itu benar-benar normal - kita tahu apriori yang tidak dapat terjadi, dalam kebanyakan situasi, bahkan tanpa menjalankan tes hipotesis - tetapi apakah perkiraannya cukup dekat dengan kebutuhan Anda. Lihat pertanyaannya, apakah pengujian normal pada dasarnya tidak berguna? Distribusi normal adalah perkiraan yang nyaman untuk banyak tujuan. Jarang "benar" - tetapi umumnya tidak harus benar-benar tepat untuk berguna. Saya berharap distribusi normal biasanya menjadi model yang masuk akal untuk ketinggian orang, tetapi akan membutuhkan konteks yang lebih tidak biasa agar distribusi normal masuk akal sebagai model usia orang.

Jika Anda benar-benar merasa perlu untuk melakukan tes normalitas, maka Kolmogorov-Smirnov mungkin bukan pilihan terbaik: seperti disebutkan dalam komentar, tersedia tes yang lebih kuat. Shapiro-Wilk memiliki kekuatan yang baik terhadap berbagai alternatif yang memungkinkan, dan memiliki keuntungan bahwa Anda tidak perlu mengetahui mean dan varian sebenarnya sebelumnya . Tetapi berhati-hatilah bahwa dalam sampel kecil, penyimpangan yang berpotensi cukup besar dari normalitas mungkin tetap tidak terdeteksi, sementara dalam sampel besar, penyimpangan yang sangat kecil (dan untuk tujuan praktis, tidak relevan) dari normalitas cenderung muncul sebagai "sangat signifikan" (rendah ). -nilai).

"Berbentuk lonceng" belum tentu normal

Tampaknya Anda telah diberitahu untuk memikirkan data "berbentuk lonceng" - data simetris yang memuncak di bagian tengah dan yang memiliki kemungkinan lebih rendah di bagian ekor - sebagai "normal". Tetapi distribusi normal membutuhkan bentuk khusus untuk puncak dan ekornya. Ada distribusi lain dengan bentuk yang mirip pada pandangan pertama, yang mungkin juga Anda anggap sebagai "lonceng", tetapi tidak normal. Kecuali jika Anda memiliki banyak data, Anda tidak akan dapat membedakan bahwa "sepertinya ini distribusi di luar rak tetapi tidak seperti yang lain". Dan jika Anda memiliki banyak data, Anda mungkin akan mendapati bahwa itu tidak terlihat sama sekali seperti distribusi "di luar rak" sama sekali! Tetapi dalam hal itu untuk banyak tujuan Anda

Galeri distribusi "berbentuk lonceng"

The distribusi normal adalah "bel bentuk" Anda digunakan untuk; yang Cauchy memiliki puncak tajam dan "berat" (yaitu mengandung lebih probabilitas) ekor; yang t distribusi dengan 5 derajat kebebasan datang di suatu tempat di antara (normal adalah t dengan tak terbatas df dan Cauchy adalah t dengan 1 df, sehingga masuk akal); yang Laplace atau ganda distribusi eksponensial telah pdf terbentuk dari dua rescaled distribusi eksponensial back-to-back, menghasilkan puncak tajam dari distribusi normal; yang distribusi Betasangat berbeda - ia tidak memiliki ekor yang mengarah ke infinity misalnya, bukannya memiliki potongan tajam - tetapi masih dapat memiliki bentuk "punuk" di tengah. Sebenarnya dengan bermain-main dengan parameter, Anda juga bisa mendapatkan semacam "punuk miring", atau bahkan bentuk "U" - galeri di halaman Wikipedia yang terhubung cukup instruktif tentang fleksibilitas distribusi itu. Akhirnya, distribusi segitiga adalah distribusi sederhana lain pada dukungan yang terbatas, sering digunakan dalam pemodelan risiko.

Kemungkinan tidak ada distribusi ini yang benar-benar menggambarkan data Anda, dan sangat banyak distribusi lain dengan bentuk yang serupa ada, tetapi saya ingin mengatasi kesalahpahaman bahwa "berpunuk di tengah dan kira-kira simetris berarti normal". Karena ada batasan fisik pada data usia, jika data usia Anda "berpunuk" di tengah maka masih mungkin distribusi dengan dukungan terbatas seperti Beta atau bahkan distribusi segitiga dapat membuktikan model yang lebih baik daripada yang memiliki ekor tanpa batas seperti normal. Perhatikan bahwa meskipun data Anda benar-benar terdistribusi normal, histogram Anda masih tidak mungkin menyerupai "lonceng" klasik kecuali ukuran sampel Anda cukup besar. Bahkan sampel dari distribusi seperti Laplace, yang pdf-nya jelas dapat dibedakan dari yang normal karena titik puncaknya,

Sampel Normal dan Laplace dengan berbagai ukuran sampel

Kode r

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)
Gegat
sumber
11

Usia tidak bisa dari distribusi normal. Berpikirlah secara logis: Anda tidak boleh memiliki usia negatif, namun distribusi normal memungkinkan untuk angka negatif.

Ada banyak distribusi berbentuk lonceng di luar sana. Jika sesuatu terlihat seperti lonceng, itu tidak berarti bahwa itu harus normal.

Tidak ada cara untuk mengetahui dengan pasti apa pun dalam statistik, termasuk dari mana distribusi data berasal. Bentuknya adalah petunjuk: bentuk lonceng adalah salah satu argumen untuk distribusi normal. Juga, memahami data Anda sangat penting. Variabel seperti usia sering miring, yang akan mengesampingkan normalitas. Seperti disebutkan distribusi normal tidak memiliki batas, tetapi kadang-kadang digunakan untuk variabel terikat. Misalnya, jika usia rata-rata adalah 20 tahun, dan standar deviasi adalah 1, maka probabilitas usia <17 atau> 23 kurang dari 0,3%. Jadi, itu mungkin dari distribusi normal bisa menjadi perkiraan yang baik .

Anda dapat mencoba menjalankan uji statistik untuk normalitas seperti Jarque-Bera, yang memperhitungkan kemiringan dan kurtosis sampel. Kurtosis dapat menjadi penting dalam beberapa kasus. Ini sangat penting dalam keuangan, karena jika Anda memodelkan data dengan distribusi normal, tetapi data sebenarnya dari distribusi berekor lemak, Anda mungkin berakhir dengan meremehkan risiko dan harga aset.

Ini akan membantu Anda melaporkan beberapa statistik deskriptif atau histogram data usia dan tinggi badan Anda, seperti rata-rata, varians, skewness, kurtosis.

Aksakal
sumber
Terima kasih atas bantuan Anda, dapatkah Anda memberi tahu saya cara mengetahui bahwa data tertentu berasal dari distribusi normal misalnya dalam jawaban Anda menyatakan bahwa usia tidak dapat berasal dari distribusi normal, bagaimana dengan data lain seperti tinggi badan. Apa kriteria yang harus saya know.i ingin mempelajari lebih lanjut tentang ini karena tampaknya saya telah salah paham konsep ini karena saya baru dalam hal ini. Terima kasih lagi.
NoraNorad
4
Namun, distribusi normal sering adalah digunakan sebagai pendekatan untuk variabel seperti usia. Dan itu tidak benar-benar masalah karena Anda dapat mendefinisikan age_centredsebagai age - mean(age)dan Anda memiliki variabel dengan rata-rata 0, dengan beberapa standar deviasi, nilai positif dan negatif. Jadi saya tidak akan terlalu ketat tentang itu.
Tim
3
Anda juga tidak dapat memiliki tinggi badan negatif, tetapi itu tidak akan menjadi penghalang bagi saya untuk menggambarkan tinggi badan yang terdistribusi normal jika itu perkiraan yang baik. Untuk itu, mengapa menggunakan distribusi dengan batas tak terbatas untuk pengukuran yang hanya bisa terbatas? Seperti yang dikatakan @Tim, itu semua adalah masalah perkiraan yang dapat diterima mengingat data dan tujuannya.
Nick Cox
1
Saya setuju bahwa distribusi normal kadang-kadang bisa menjadi perkiraan yang baik untuk data yang dibatasi, tetapi pertanyaannya adalah apakah data itu dari normal atau tidak.
Aksakal
Usia lulusan senior dari sekolah menengah berpotensi terdistribusi secara normal dan juga mengambil nilai negatif jika rata-rata berpusat seperti @Tim yang disebutkan.
ui_90jax