Seorang mantan kolega pernah berdebat dengan saya sebagai berikut:
Kami biasanya menerapkan tes normalitas pada hasil proses yang, di bawah nol, menghasilkan variabel acak yang hanya asimtotik atau hampir normal (dengan bagian 'asimtotik' bergantung pada beberapa kuantitas yang tidak dapat kami hasilkan besar); Di era memori murah, data besar, dan prosesor cepat, tes normalitas harus selalu menolak nol distribusi normal untuk sampel besar (meskipun tidak besar). Dan, sebaliknya, tes normal hanya boleh digunakan untuk sampel kecil, ketika mereka mungkin memiliki daya yang lebih rendah dan lebih sedikit kontrol atas tingkat tipe I.
Apakah ini argumen yang valid? Apakah ini argumen yang terkenal? Apakah ada tes terkenal untuk hipotesis nol 'fuzzier' dari normalitas?
sumber
Jawaban:
Itu bukan argumen. Ini adalah fakta (sedikit sangat jelas) bahwa uji normalitas formal selalu menolak ukuran sampel besar yang kami kerjakan hari ini. Bahkan mudah untuk membuktikan bahwa ketika n menjadi besar, bahkan penyimpangan terkecil dari normalitas sempurna akan menghasilkan hasil yang signifikan. Dan karena setiap dataset memiliki tingkat keacakan tertentu, tidak ada satu pun dataset yang akan menjadi sampel yang terdistribusi normal. Tetapi dalam statistik terapan, pertanyaannya bukan apakah data / residu ... adalah normal, tetapi cukup normal untuk asumsi.
Biarkan saya ilustrasikan dengan tes Shapiro-Wilk . Kode di bawah ini membangun satu set distribusi yang mendekati normalitas tetapi tidak sepenuhnya normal. Selanjutnya, kami menguji dengan
shapiro.test
apakah sampel dari distribusi yang hampir normal ini menyimpang dari normalitas. Dalam R:Baris terakhir memeriksa bagian mana dari simulasi untuk setiap ukuran sampel yang menyimpang secara signifikan dari normalitas. Jadi dalam 87% kasus, sampel 5000 pengamatan menyimpang secara signifikan dari normalitas menurut Shapiro-Wilks. Namun, jika Anda melihat plot qq, Anda tidak akan pernah memutuskan penyimpangan dari normalitas. Di bawah ini Anda melihat sebagai contoh plot qq untuk satu set sampel acak
dengan nilai-p
sumber
R
penerapannya). Tapi itu saja - tidak ada hubungannya dengan ruang lingkup kegunaan pengujian normalitas secara umum. Pernyataan awal bahwa tes normalitas selalu ditolak pada ukuran sampel besar sama sekali tidak benar.Ketika berpikir tentang apakah pengujian normal 'pada dasarnya tidak berguna', orang pertama-tama harus berpikir tentang apa yang seharusnya berguna. Banyak orang (yah ... setidaknya, banyak ilmuwan) salah paham dengan pertanyaan yang dijawab oleh tes normalitas.
Pertanyaan tes normalitas menjawab: Apakah ada bukti yang meyakinkan tentang penyimpangan dari cita-cita Gaussian? Dengan set data nyata yang cukup besar, jawabannya hampir selalu ya.
Para ilmuwan pertanyaan sering mengharapkan tes normalitas untuk menjawab: Apakah data cukup menyimpang dari ideal Gaussian untuk "melarang" penggunaan tes yang mengasumsikan distribusi Gaussian? Para ilmuwan sering ingin uji normalitas menjadi wasit yang memutuskan kapan harus meninggalkan tes konvensional (ANOVA, dll.) Dan sebagai gantinya menganalisis data yang diubah atau menggunakan tes nonparametrik berbasis pangkat atau pendekatan resampling atau bootstrap. Untuk tujuan ini, tes normal tidak terlalu berguna.
sumber
Saya pikir tes normalitas bisa bermanfaat sebagai pendamping ujian grafis. Mereka harus digunakan dengan cara yang benar. Menurut pendapat saya, ini berarti bahwa banyak tes populer, seperti tes Shapiro-Wilk, Anderson-Darling dan Jarque-Bera tidak boleh digunakan.
Sebelum saya menjelaskan sudut pandang saya, izinkan saya membuat beberapa pernyataan:
(Dalam definisi saya) tes normalitas diarahkan terhadap kelas alternatif jika sensitif terhadap alternatif dari kelas itu, tetapi tidak sensitif terhadap alternatif dari kelas lain. Contoh umum adalah tes yang diarahkan ke alternatif miring atau kurtotik . Contoh paling sederhana menggunakan skewness sampel dan kurtosis sebagai statistik uji.
Tes normalitas terarah sering kali lebih disukai daripada tes omnibus (seperti tes Shapiro-Wilk dan Jarque-Bera) karena itu umum bahwa hanya beberapa jenis non-normal yang menjadi perhatian untuk prosedur inferensial tertentu .
Mari kita pertimbangkan uji-t Student sebagai contoh. Asumsikan bahwa kita memiliki sampel pertama dari distribusi dengan skewness dan (kelebihan) kurtosisJika simetris tentang rata-rata, . Baik dan adalah 0 untuk distribusi normal.γ=E(X−μ)3σ3 κ=E(X−μ)4σ4−3. X γ=0 γ κ
Berdasarkan asumsi keteraturan, kami memperoleh perluasan asimptotik berikut untuk cdf statistik uji :Tn P(Tn≤x)=Φ(x)+n−1/216γ(2x2+1)ϕ(x)−n−1x(112κ(x2−3)−118γ2(x4+2x2−3)−14(x2+3))ϕ(x)+o(n−1),
di mana adalah cdf dan adalah pdf dari distribusi normal standar.Φ(⋅) ϕ(⋅)
Dapat diverifikasi menggunakan simulasi bahwa ini berlaku untuk kecil juga. Dengan demikian uji-t Student sensitif terhadap kemiringan tetapi relatif kuat terhadap ekor yang berat, dan masuk akal untuk menggunakan uji normalitas yang diarahkan pada alternatif miring sebelum menerapkan uji-t .n
Sebagai aturan praktis ( bukan hukum alam), kesimpulan tentang cara sensitif terhadap kemiringan dan kesimpulan tentang varians sensitif terhadap kurtosis.
Menggunakan tes yang diarahkan untuk normalitas memiliki keuntungan mendapatkan kekuatan yang lebih tinggi terhadap alternatif 'berbahaya' dan daya yang lebih rendah terhadap alternatif yang kurang 'berbahaya', yang berarti bahwa kita cenderung menolak normalitas karena penyimpangan dari normalitas yang memenangkan dapat mempengaruhi kinerja prosedur inferensial kami. Ketidaknormalan dikuantifikasi dengan cara yang relevan dengan masalah yang dihadapi. Ini tidak selalu mudah dilakukan secara grafis.
Ketika bertambah besar, skewness dan kurtosis menjadi kurang penting - dan tes terarah cenderung mendeteksi apakah jumlah ini menyimpang dari 0 bahkan dengan jumlah kecil. Dalam kasus seperti itu, tampaknya masuk akal untuk, misalnya, menguji apakah atau (melihat istilah pertama dari ekspansi di atas) daripada apakah . Ini menangani beberapa masalah yang sebaliknya kita hadapi saat bertambah besar.n |γ|≤1 |n−1/216γ(2z2α/2+1)ϕ(zα/2)|≤0.01 γ=0 n
sumber
Tes normalitas IMHO sama sekali tidak berguna karena alasan berikut:
Pada sampel kecil, ada kemungkinan besar bahwa distribusi populasi yang sebenarnya pada dasarnya tidak normal, tetapi uji normalitas tidak kuat untuk mengambilnya.
Pada sampel besar, hal-hal seperti T-test dan ANOVA cukup kuat untuk non-normalitas.
Ide keseluruhan dari populasi yang terdistribusi normal hanyalah perkiraan matematis yang nyaman. Tak satu pun dari jumlah yang biasanya ditangani secara statistik dapat secara masuk akal memiliki distribusi dengan dukungan semua bilangan real. Misalnya, orang tidak dapat memiliki ketinggian negatif. Sesuatu tidak dapat memiliki massa negatif atau massa lebih banyak daripada yang ada di alam semesta. Oleh karena itu, itu aman untuk mengatakan bahwa tidak ada yang persis terdistribusi normal di dunia nyata.
sumber
Saya pikir pra-pengujian untuk normalitas (yang mencakup penilaian informal menggunakan grafik) tidak tepat.
sumber
Sebelum bertanya apakah tes atau semacam pemeriksaan kasar untuk "normal" adalah "Anda harus menjawab pertanyaan di balik pertanyaan:" Mengapa Anda bertanya? "
Misalnya, jika Anda hanya ingin menempatkan batas kepercayaan di sekitar rata - rata kumpulan data, keberangkatan dari normalitas mungkin atau tidak penting, tergantung pada seberapa banyak data yang Anda miliki dan seberapa besar keberangkatannya. Namun, penyimpangan dari normalitas cenderung menjadi penting jika Anda ingin memperkirakan nilai paling ekstrem dalam pengamatan di masa depan atau dalam populasi yang telah Anda sampel.
sumber
Biarkan saya menambahkan satu hal kecil:
Melakukan tes normalitas tanpa memperhitungkan kesalahan alpha-nya mempertinggi probabilitas keseluruhan Anda melakukan kesalahan alpha.
Anda tidak boleh lupa bahwa setiap tes tambahan melakukan ini selama Anda tidak mengontrol akumulasi kesalahan alpha. Oleh karena itu, alasan bagus lainnya untuk menolak pengujian normal.
sumber
Jawaban di sini telah membahas beberapa poin penting. Untuk meringkas dengan cepat:
Saya menambahkan jawaban pertama untuk mengutip ke salah satu artikel statistik saya, secara pribadi, paling sering diakses dan dibaca: " Pentingnya Asumsi Normalitas dalam Kumpulan Data Kesehatan Masyarakat Besar " oleh Lumley et. Al. Ini layak dibaca secara keseluruhan. Ringkasannya menyatakan:
Untuk meringkas: normalitas umumnya tidak sepadan dengan diskusi atau perhatian yang diterimanya berbeda dengan pentingnya menjawab pertanyaan ilmiah tertentu. Jika keinginan untuk merangkum perbedaan rata-rata dalam data, maka uji-t dan ANOVA atau regresi linier dibenarkan dalam arti yang jauh lebih luas. Pengujian yang didasarkan pada model-model ini tetap memiliki tingkat alfa yang benar, bahkan ketika asumsi distribusi tidak terpenuhi, meskipun daya dapat terpengaruh.
Alasan mengapa distribusi normal dapat menerima perhatian yang mereka lakukan mungkin karena alasan klasik, di mana tes yang tepat berdasarkan pada distribusi-F untuk ANOVA dan distribusi Student-T untuk uji-T dapat diperoleh. Yang benar adalah, di antara banyak kemajuan ilmu pengetahuan modern, kita umumnya berurusan dengan kumpulan data yang lebih besar daripada yang dikumpulkan sebelumnya. Jika seseorang sebenarnya berurusan dengan dataset kecil, alasan mengapa data-data tersebut terdistribusi secara normal tidak dapat berasal dari data itu sendiri: tidak ada daya yang cukup. Mengomentari penelitian lain, replikasi, atau bahkan biologi atau ilmu proses pengukuran, menurut pendapat saya, pendekatan yang jauh lebih dibenarkan untuk membahas kemungkinan model yang mendasari data yang diamati.
Untuk alasan ini, memilih untuk tes berbasis peringkat sebagai alternatif melewatkan poin sepenuhnya. Namun, saya akan setuju bahwa menggunakan penaksir varians yang kuat seperti jackknife atau bootstrap menawarkan alternatif komputasi penting yang memungkinkan dilakukannya pengujian di bawah berbagai pelanggaran spesifikasi model yang lebih penting, seperti independensi atau distribusi kesalahan yang identik.
sumber
Dulu saya berpikir bahwa tes normal sama sekali tidak berguna.
Namun, sekarang saya melakukan konsultasi untuk peneliti lain. Seringkali, mendapatkan sampel sangat mahal, sehingga mereka ingin melakukan inferensi dengan n = 8, katakanlah.
Dalam kasus seperti itu, sangat sulit untuk menemukan signifikansi statistik dengan tes non-parametrik, tetapi uji-t dengan n = 8 sensitif terhadap penyimpangan dari normalitas. Jadi yang kita dapatkan adalah kita dapat mengatakan "baik, tergantung pada asumsi normalitas, kita menemukan perbedaan yang signifikan secara statistik" (jangan khawatir, ini biasanya studi percontohan ...).
Maka kita perlu cara mengevaluasi asumsi itu. Saya setengah jalan di kamp bahwa melihat plot adalah cara yang lebih baik, tetapi sejujurnya ada banyak ketidaksepakatan tentang hal itu, yang bisa sangat bermasalah jika salah satu orang yang tidak setuju dengan Anda adalah resensi naskah Anda.
Dalam banyak hal, saya masih berpikir ada banyak kekurangan dalam tes normalitas: misalnya, kita harus memikirkan kesalahan tipe II lebih dari tipe I. Tetapi ada kebutuhan untuk itu.
sumber
Untuk apa nilainya, saya pernah mengembangkan sampler cepat untuk distribusi normal terpotong, dan pengujian normalitas (KS) sangat berguna dalam men-debug fungsi. Sampler ini lulus tes dengan ukuran sampel yang besar tetapi, yang menarik, ziggurat sampler GSL tidak.
sumber
Argumen yang Anda berikan adalah pendapat. Saya pikir pentingnya pengujian normalitas adalah untuk memastikan bahwa data tidak menyimpang jauh dari normal. Saya menggunakannya kadang-kadang untuk memutuskan antara menggunakan tes parametrik versus nonparametrik untuk prosedur inferensi saya. Saya pikir tes ini dapat berguna dalam sampel sedang dan besar (ketika teorema limit pusat tidak ikut bermain). Saya cenderung menggunakan tes Wilk-Shapiro atau Anderson-Darling tetapi menjalankan SAS saya mendapatkan semuanya dan mereka umumnya setuju dengan cukup baik. Pada catatan yang berbeda, saya pikir prosedur grafis seperti plot QQ bekerja dengan baik. Keuntungan dari tes formal adalah bahwa tes ini objektif. Dalam sampel kecil memang benar bahwa uji kelaikan ini praktis tidak memiliki daya dan itu masuk akal karena sampel kecil dari distribusi normal mungkin terlihat agak tidak normal dan yang diperhitungkan dalam pengujian. Skewness dan kurtosis yang tinggi yang membedakan banyak distribusi tidak normal dari distribusi normal tidak mudah terlihat pada sampel kecil.
sumber
Saya pikir pendekatan entropi maksimum bisa berguna di sini. Kami dapat menetapkan distribusi normal karena kami percaya data "terdistribusi normal" (apa pun artinya) atau karena kami hanya berharap untuk melihat penyimpangan dengan sekitar Magnitude yang sama. Juga, karena distribusi normal hanya memiliki dua statistik yang cukup, itu tidak sensitif terhadap perubahan data yang tidak mengubah jumlah ini. Jadi dalam arti tertentu Anda dapat menganggap distribusi normal sebagai "rata-rata" atas semua distribusi yang mungkin dengan momen pertama dan kedua yang sama. ini memberikan satu alasan mengapa kuadrat terkecil harus bekerja sebaik itu.
sumber
Saya tidak akan mengatakan itu tidak berguna, tetapi itu benar-benar tergantung pada aplikasi. Catatan, Anda tidak pernah benar-benar tahu distribusi data berasal, dan yang Anda miliki hanyalah sekumpulan kecil realisasi. Rerata sampel Anda selalu terbatas dalam sampel, tetapi rerata tersebut dapat tidak ditentukan atau tak terbatas untuk beberapa jenis fungsi kepadatan probabilitas. Mari kita perhatikan tiga jenis distribusi stabil Retribusi yaitu distribusi Normal, distribusi Retribusi dan distribusi Cauchy. Sebagian besar sampel Anda tidak memiliki banyak pengamatan di bagian ekor (yaitu jauh dari mean sampel). Jadi secara empiris sangat sulit untuk membedakan antara ketiganya, sehingga Cauchy (memiliki mean yang tidak ditentukan) dan Levy (memiliki mean yang tak terbatas) dapat dengan mudah menyamar sebagai distribusi normal.
sumber
Saya pikir 2 pertanyaan pertama telah dijawab secara menyeluruh tetapi saya tidak berpikir pertanyaan 3 telah diatasi. Banyak tes membandingkan distribusi empiris dengan distribusi hipotesis yang diketahui. Nilai kritis untuk uji Kolmogorov-Smirnov didasarkan pada F yang sepenuhnya ditentukan. Ini dapat dimodifikasi untuk menguji terhadap distribusi parametrik dengan parameter yang diperkirakan. Jadi, jika fuzzier berarti memperkirakan lebih dari dua parameter, maka jawabannya adalah ya. Tes-tes ini dapat diterapkan 3 kelompok parameter atau lebih. Beberapa tes dirancang untuk memiliki kekuatan yang lebih baik ketika menguji terhadap keluarga distribusi tertentu. Sebagai contoh ketika menguji normalitas, Anderson-Darling atau Shapiro-Wilk test memiliki kekuatan lebih besar dari KS atau chi square ketika distribusi nol yang dihipotesiskan adalah normal.
sumber
Tes di mana "sesuatu" yang penting untuk analisis ini didukung oleh nilai-p yang tinggi menurut saya salah arah. Seperti yang ditunjukkan orang lain, untuk set data besar, nilai p di bawah 0,05 terjamin. Jadi, tes ini pada dasarnya "hadiah" untuk set data kecil dan kabur dan "hadiah" karena kurangnya bukti. Sesuatu seperti plot qq jauh lebih bermanfaat. Keinginan untuk angka-angka sulit untuk memutuskan hal-hal seperti ini selalu (ya / tidak normal / tidak normal) merindukan bahwa pemodelan sebagian merupakan seni dan bagaimana hipotesis sebenarnya didukung.
sumber
Salah satu penggunaan normalitas tes yang saya pikir tidak disebutkan adalah untuk menentukan apakah menggunakan skor-z tidak apa-apa. Katakanlah Anda memilih sampel acak dari suatu populasi, dan Anda ingin menemukan probabilitas untuk memilih satu individu acak dari populasi dan mendapatkan nilai 80 atau lebih tinggi. Ini dapat dilakukan hanya jika distribusinya normal, karena untuk menggunakan skor-z, asumsinya adalah bahwa distribusi populasi normal.
Tapi kemudian saya kira saya bisa melihat ini diperdebatkan juga ...
sumber