Apakah pengujian normal 'pada dasarnya tidak berguna'?

298

Seorang mantan kolega pernah berdebat dengan saya sebagai berikut:

Kami biasanya menerapkan tes normalitas pada hasil proses yang, di bawah nol, menghasilkan variabel acak yang hanya asimtotik atau hampir normal (dengan bagian 'asimtotik' bergantung pada beberapa kuantitas yang tidak dapat kami hasilkan besar); Di era memori murah, data besar, dan prosesor cepat, tes normalitas harus selalu menolak nol distribusi normal untuk sampel besar (meskipun tidak besar). Dan, sebaliknya, tes normal hanya boleh digunakan untuk sampel kecil, ketika mereka mungkin memiliki daya yang lebih rendah dan lebih sedikit kontrol atas tingkat tipe I.

Apakah ini argumen yang valid? Apakah ini argumen yang terkenal? Apakah ada tes terkenal untuk hipotesis nol 'fuzzier' dari normalitas?

hypothesis-testing normality-assumption philosophical Jeromy Anglim
sumber

23

Untuk referensi: Saya tidak berpikir bahwa ini perlu wiki komunitas.

Shane

2

Saya tidak yakin ada 'jawaban yang benar' ...

shabbychef

5

Dalam arti tertentu, ini berlaku untuk semua pengujian sejumlah parameter yang terbatas. Dengan fix (jumlah parameter yang akan dites tes) dan growthing tanpa batas, setiap perbedaan antara kedua kelompok (tidak peduli seberapa kecil) akan selalu memecahkan nol di beberapa titik. Sebenarnya, ini adalah argumen yang mendukung tes bayesian.

k

$k$

n

$n$

user603

2

Bagi saya, ini bukan argumen yang valid. Pokoknya, sebelum memberikan jawaban apa pun Anda perlu memformalkan sedikit. Anda mungkin salah dan mungkin tidak, tetapi sekarang apa yang Anda miliki tidak lebih dari intuisi: bagi saya kalimat "Di era memori murah, data besar, dan prosesor cepat, tes normalitas harus selalu menolak nol normal" butuh klarifikasi :) Saya pikir jika Anda mencoba memberikan presisi yang lebih formal jawabannya akan sederhana.

robin girard

8

Utas di "Apakah kumpulan data besar tidak sesuai untuk pengujian hipotesis" membahas generalisasi pertanyaan ini. ( stats.stackexchange.com/questions/2516/… )

whuber

229

Itu bukan argumen. Ini adalah fakta (sedikit sangat jelas) bahwa uji normalitas formal selalu menolak ukuran sampel besar yang kami kerjakan hari ini. Bahkan mudah untuk membuktikan bahwa ketika n menjadi besar, bahkan penyimpangan terkecil dari normalitas sempurna akan menghasilkan hasil yang signifikan. Dan karena setiap dataset memiliki tingkat keacakan tertentu, tidak ada satu pun dataset yang akan menjadi sampel yang terdistribusi normal. Tetapi dalam statistik terapan, pertanyaannya bukan apakah data / residu ... adalah normal, tetapi cukup normal untuk asumsi.

Biarkan saya ilustrasikan dengan tes Shapiro-Wilk . Kode di bawah ini membangun satu set distribusi yang mendekati normalitas tetapi tidak sepenuhnya normal. Selanjutnya, kami menguji dengan shapiro.testapakah sampel dari distribusi yang hampir normal ini menyimpang dari normalitas. Dalam R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87

Baris terakhir memeriksa bagian mana dari simulasi untuk setiap ukuran sampel yang menyimpang secara signifikan dari normalitas. Jadi dalam 87% kasus, sampel 5000 pengamatan menyimpang secara signifikan dari normalitas menurut Shapiro-Wilks. Namun, jika Anda melihat plot qq, Anda tidak akan pernah memutuskan penyimpangan dari normalitas. Di bawah ini Anda melihat sebagai contoh plot qq untuk satu set sampel acak

teks alternatif

dengan nilai-p

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007

Joris Meys
sumber

40

Di samping catatan, teorema batas pusat membuat pemeriksaan normalitas formal tidak diperlukan dalam banyak kasus ketika n besar.

Joris Meys

31

ya, pertanyaan sebenarnya bukanlah apakah data benar-benar didistribusikan secara normal tetapi apakah cukup normal untuk asumsi yang mendasari normalitas masuk akal untuk tujuan praktis analisis, dan saya akan berpikir argumen berbasis CLT biasanya [sic] cukup untuk itu.

Dikran Marsupial

53

Jawaban ini tampaknya tidak menjawab pertanyaan: itu hanya menunjukkan bahwa uji SW tidak mencapai tingkat kepercayaan nominalnya, dan karenanya ia mengidentifikasi cacat dalam tes itu (atau setidaknya dalam Rpenerapannya). Tapi itu saja - tidak ada hubungannya dengan ruang lingkup kegunaan pengujian normalitas secara umum. Pernyataan awal bahwa tes normalitas selalu ditolak pada ukuran sampel besar sama sekali tidak benar.

whuber

19

@whuber Jawaban ini menjawab pertanyaan. Inti dari pertanyaan adalah "hampir" dalam "hampir normal". SW menguji berapa kemungkinan sampel diambil dari distribusi normal. Karena distribusi yang saya buat sengaja tidak normal, Anda akan mengharapkan tes SW untuk melakukan apa yang dijanjikan: tolak the null. Intinya adalah bahwa penolakan ini tidak ada artinya dalam sampel besar, karena penyimpangan dari normalitas tidak mengakibatkan hilangnya daya di sana. Jadi tes ini benar, tetapi tidak berarti, seperti yang ditunjukkan oleh QQplots

Joris Meys

11

Saya mengandalkan apa yang Anda tulis dan salah mengerti apa yang Anda maksud dengan distribusi "hampir-normal". Saya sekarang melihat - tetapi hanya dengan membaca kode dan dengan hati-hati mengujinya - bahwa Anda mensimulasikan dari tiga distribusi Normal standar dengan rata-rata dan dan menggabungkan hasilnya dalam rasio . Tidakkah Anda berharap bahwa uji normalitas yang baik akan menolak nol dalam kasus ini? Apa yang telah Anda tunjukkan secara efektif adalah bahwa plot QQ tidak begitu baik dalam mendeteksi campuran seperti itu, itu saja!

0,

$0,$

1,

$1,$

2

$2$

2 : 2 : 1

$2:2:1$

whuber

172

Ketika berpikir tentang apakah pengujian normal 'pada dasarnya tidak berguna', orang pertama-tama harus berpikir tentang apa yang seharusnya berguna. Banyak orang (yah ... setidaknya, banyak ilmuwan) salah paham dengan pertanyaan yang dijawab oleh tes normalitas.

Pertanyaan tes normalitas menjawab: Apakah ada bukti yang meyakinkan tentang penyimpangan dari cita-cita Gaussian? Dengan set data nyata yang cukup besar, jawabannya hampir selalu ya.

Para ilmuwan pertanyaan sering mengharapkan tes normalitas untuk menjawab: Apakah data cukup menyimpang dari ideal Gaussian untuk "melarang" penggunaan tes yang mengasumsikan distribusi Gaussian? Para ilmuwan sering ingin uji normalitas menjadi wasit yang memutuskan kapan harus meninggalkan tes konvensional (ANOVA, dll.) Dan sebagai gantinya menganalisis data yang diubah atau menggunakan tes nonparametrik berbasis pangkat atau pendekatan resampling atau bootstrap. Untuk tujuan ini, tes normal tidak terlalu berguna.

Harvey Motulsky
sumber

16

+1 untuk jawaban yang baik dan informatif. Saya merasa berguna untuk melihat penjelasan yang baik untuk kesalahpahaman umum (yang kebetulan saya alami sendiri: stats.stackexchange.com/questions/7022/… ). Apa yang saya lewatkan adalah solusi alternatif untuk kesalahpahaman yang umum ini. Maksud saya, jika tes normalitas adalah cara yang salah untuk pergi, bagaimana cara memeriksa apakah perkiraan normal dapat diterima / dibenarkan?

posdef

6

Tidak ada pengganti untuk rasa (umum) dari analis (atau, yah, peneliti / ilmuwan). Dan pengalaman (dipelajari dengan mencoba dan melihat: kesimpulan apa yang saya dapatkan jika saya menganggap itu normal? Apa bedanya jika tidak?). Grafik adalah teman terbaik Anda.

FairMiles

2

Saya suka makalah ini, yang menegaskan maksud Anda: Micceri, T. (1989). Unicorn, kurva normal, dan makhluk mustahil lainnya. Buletin Psikologis, 105 (1), 156-166.

Jeremy Miles

4

Melihat grafik itu bagus, tetapi bagaimana jika ada terlalu banyak untuk diperiksa secara manual? Bisakah kita merumuskan prosedur statistik yang masuk akal untuk menunjukkan kemungkinan titik masalah? Saya memikirkan situasi seperti eksperimen A / B dalam skala besar: exp-platform.com/Pages/… .

dfrankow

118

Saya pikir tes normalitas bisa bermanfaat sebagai pendamping ujian grafis. Mereka harus digunakan dengan cara yang benar. Menurut pendapat saya, ini berarti bahwa banyak tes populer, seperti tes Shapiro-Wilk, Anderson-Darling dan Jarque-Bera tidak boleh digunakan.

Sebelum saya menjelaskan sudut pandang saya, izinkan saya membuat beberapa pernyataan:

Dalam makalah terbaru yang menarik, Rochon et al. mempelajari dampak uji Shapiro-Wilk pada uji-t dua sampel. Prosedur dua langkah pengujian normalitas sebelum melakukan misalnya uji-t bukan tanpa masalah. Kemudian lagi, tidak ada prosedur dua langkah untuk menginvestigasi normalitas grafik sebelum melakukan uji-t. Perbedaannya adalah bahwa dampak yang terakhir jauh lebih sulit untuk diselidiki (karena akan membutuhkan ahli statistik untuk menyelidiki secara normal atau sekitar kali ...). $100,000$
Sangat berguna untuk mengukur ketidaknormalan , misalnya dengan menghitung kemiringan sampel, bahkan jika Anda tidak ingin melakukan tes formal.
Normalitas multivariat mungkin sulit untuk dinilai secara grafis dan konvergensi ke distribusi asimptotik bisa lambat untuk statistik multivarian. Oleh karena itu, uji normalitas lebih berguna dalam pengaturan multivarian.
Tes untuk normalitas mungkin sangat berguna bagi praktisi yang menggunakan statistik sebagai satu set metode kotak hitam . Ketika normalitas ditolak, praktisi harus waspada dan, alih-alih melakukan prosedur standar berdasarkan asumsi normalitas, pertimbangkan untuk menggunakan prosedur nonparametrik, menerapkan transformasi atau berkonsultasi dengan ahli statistik yang lebih berpengalaman.
Seperti yang telah ditunjukkan oleh orang lain, jika cukup besar, CLT biasanya menghemat hari. Namun, apa yang "cukup besar" berbeda untuk kelas distribusi yang berbeda. $n$

(Dalam definisi saya) tes normalitas diarahkan terhadap kelas alternatif jika sensitif terhadap alternatif dari kelas itu, tetapi tidak sensitif terhadap alternatif dari kelas lain. Contoh umum adalah tes yang diarahkan ke alternatif miring atau kurtotik . Contoh paling sederhana menggunakan skewness sampel dan kurtosis sebagai statistik uji.

Tes normalitas terarah sering kali lebih disukai daripada tes omnibus (seperti tes Shapiro-Wilk dan Jarque-Bera) karena itu umum bahwa hanya beberapa jenis non-normal yang menjadi perhatian untuk prosedur inferensial tertentu .

Mari kita pertimbangkan uji-t Student sebagai contoh. Asumsikan bahwa kita memiliki sampel pertama dari distribusi dengan skewness dan (kelebihan) kurtosisJika simetris tentang rata-rata, . Baik dan adalah 0 untuk distribusi normal. $\gamma=\frac{E(X-\mu)^3}{\sigma^3}$ $\kappa=\frac{E(X-\mu)^4}{\sigma^4}-3.$ $X$ $\gamma=0$ $\gamma$ $\kappa$

Berdasarkan asumsi keteraturan, kami memperoleh perluasan asimptotik berikut untuk cdf statistik uji : $T_n$

P (T_{n} \leq x) = Φ (x) + n^{- 1 / 2} \frac{1}{6} γ (2 x^{2} + 1) ϕ (x) - n^{- 1} x (\frac{1}{12} κ (x^{2} - 3) - \frac{1}{18} γ^{2} (x^{4} + 2 x^{2} - 3) - \frac{1}{4} (x^{2} + 3)) ϕ (x) + o (n^{- 1}),

$P(T_n\leq x)=\Phi(x)+n^{-1/2}\frac{1}{6}\gamma(2x^2+1)\phi(x)-n^{-1}x\Big(\frac{1}{12}\kappa (x^2-3)-\frac{1}{18}\gamma^2(x^4+2x^2-3)-\frac{1}{4}(x^2+3)\Big)\phi(x)+o(n^{-1}),$

di mana adalah cdf dan adalah pdf dari distribusi normal standar. $\Phi(\cdot)$ $\phi(\cdot)$

$\gamma$ muncul untuk pertama kalinya dalam istilah , sedangkan muncul dalam istilah . The asymptotic kinerja jauh lebih sensitif terhadap penyimpangan dari normalitas dalam bentuk kemiringan dari dalam bentuk kurtosis. $n^{-1/2}$ $\kappa$ $n^{-1}$ $T_n$

Dapat diverifikasi menggunakan simulasi bahwa ini berlaku untuk kecil juga. Dengan demikian uji-t Student sensitif terhadap kemiringan tetapi relatif kuat terhadap ekor yang berat, dan masuk akal untuk menggunakan uji normalitas yang diarahkan pada alternatif miring sebelum menerapkan uji-t . $n$

Sebagai aturan praktis ( bukan hukum alam), kesimpulan tentang cara sensitif terhadap kemiringan dan kesimpulan tentang varians sensitif terhadap kurtosis.

Menggunakan tes yang diarahkan untuk normalitas memiliki keuntungan mendapatkan kekuatan yang lebih tinggi terhadap alternatif 'berbahaya' dan daya yang lebih rendah terhadap alternatif yang kurang 'berbahaya', yang berarti bahwa kita cenderung menolak normalitas karena penyimpangan dari normalitas yang memenangkan dapat mempengaruhi kinerja prosedur inferensial kami. Ketidaknormalan dikuantifikasi dengan cara yang relevan dengan masalah yang dihadapi. Ini tidak selalu mudah dilakukan secara grafis.

Ketika bertambah besar, skewness dan kurtosis menjadi kurang penting - dan tes terarah cenderung mendeteksi apakah jumlah ini menyimpang dari 0 bahkan dengan jumlah kecil. Dalam kasus seperti itu, tampaknya masuk akal untuk, misalnya, menguji apakah atau (melihat istilah pertama dari ekspansi di atas) daripada apakah . Ini menangani beberapa masalah yang sebaliknya kita hadapi saat bertambah besar. $n$ $|\gamma|\leq 1$

| n^{- 1 / 2} \frac{1}{6} γ (2 z_{α / 2}^{2} + 1) ϕ (z_{α / 2}) | \leq 0.01

$|n^{-1/2}\frac{1}{6}\gamma(2z_{\alpha/2}^2+1)\phi(z_{\alpha/2})|\leq 0.01$

γ = 0

$\gamma=0$

n

$n$

MånsT
sumber

2

Sekarang ini jawaban yang bagus!

user603

10

Ya ini seharusnya jawaban yang diterima, benar-benar fantastis

jenesaisquoi

2

"Adalah umum bahwa hanya beberapa jenis ketidaknormalan yang menjadi perhatian untuk prosedur inferensial tertentu." - tentu saja seseorang kemudian harus menggunakan tes yang diarahkan ke jenis non-normalitas itu. Tetapi fakta bahwa seseorang menggunakan uji normalitas menyiratkan bahwa ia peduli dengan semua aspek normalitas. Pertanyaannya adalah: apakah tes normalitas dalam kasus itu merupakan pilihan yang baik.

rbm

Tes untuk kecukupan asumsi untuk tes tertentu menjadi umum, yang untungnya menghilangkan beberapa dugaan.

Carl

1

@Carl: Bisakah Anda menambahkan beberapa referensi / contoh untuk itu?

kjetil b halvorsen

58

Tes normalitas IMHO sama sekali tidak berguna karena alasan berikut:

Pada sampel kecil, ada kemungkinan besar bahwa distribusi populasi yang sebenarnya pada dasarnya tidak normal, tetapi uji normalitas tidak kuat untuk mengambilnya.
Pada sampel besar, hal-hal seperti T-test dan ANOVA cukup kuat untuk non-normalitas.
Ide keseluruhan dari populasi yang terdistribusi normal hanyalah perkiraan matematis yang nyaman. Tak satu pun dari jumlah yang biasanya ditangani secara statistik dapat secara masuk akal memiliki distribusi dengan dukungan semua bilangan real. Misalnya, orang tidak dapat memiliki ketinggian negatif. Sesuatu tidak dapat memiliki massa negatif atau massa lebih banyak daripada yang ada di alam semesta. Oleh karena itu, itu aman untuk mengatakan bahwa tidak ada yang persis terdistribusi normal di dunia nyata.

dsimcha
sumber

2

Perbedaan potensial listrik adalah contoh kuantitas dunia nyata yang bisa negatif.

nico

16

@nico: Tentu itu bisa negatif, tetapi ada beberapa batasan hingga itu karena hanya ada begitu banyak proton dan elektron di Semesta. Tentu saja ini tidak relevan dalam praktiknya, tapi itu maksud saya. Tidak ada yang persis terdistribusi normal (model yang salah), tetapi ada banyak hal-hal yang cukup dekat (model berguna). Pada dasarnya, Anda sudah tahu model itu salah, dan menolak atau tidak menolak null pada dasarnya tidak memberikan informasi apakah itu berguna.

dsimcha

1

@dsimcha - Saya menemukan respons yang sangat berguna dan bermanfaat.

rolando2

5

@dsimcha, -test dan ANOVA tidak kuat untuk tidak normal. Lihat makalah oleh Rand Wilcox.

t

$t$

Frank Harrell

@dsimcha "modelnya salah". Bukankah SEMUA model "salah"?

Atirag

30

Saya pikir pra-pengujian untuk normalitas (yang mencakup penilaian informal menggunakan grafik) tidak tepat.

Pengguna pendekatan ini menganggap bahwa penilaian normal memiliki kekuatan mendekati 1.0.
Tes nonparametrik seperti Wilcoxon, Spearman, dan Kruskal-Wallis memiliki efisiensi 0,95 jika normalitas bertahan.
Mengingat 2. seseorang dapat menentukan sebelumnya penggunaan uji nonparametrik jika seseorang bahkan menghibur kemungkinan bahwa data mungkin tidak muncul dari distribusi normal.
Model probabilitas kumulatif ordinal (model odds proporsional yang menjadi anggota kelas ini) menggeneralisasikan tes nonparametrik standar. Model ordinal benar-benar transformasi-invarian terhadap , yang kuat, kuat, dan memungkinkan estimasi quantiles dan berarti dari . $Y$ $Y$

Frank Harrell
sumber

perhatikan bahwa efisiensi 0,95 asimptotik : FWIW Saya kira efisiensi jauh lebih rendah untuk ukuran sampel hingga yang khas ... (walaupun diakui saya belum melihat ini dipelajari, atau mencoba menjelajahinya sendiri)

Ben Bolker

16

Sebelum bertanya apakah tes atau semacam pemeriksaan kasar untuk "normal" adalah "Anda harus menjawab pertanyaan di balik pertanyaan:" Mengapa Anda bertanya? "

Misalnya, jika Anda hanya ingin menempatkan batas kepercayaan di sekitar rata - rata kumpulan data, keberangkatan dari normalitas mungkin atau tidak penting, tergantung pada seberapa banyak data yang Anda miliki dan seberapa besar keberangkatannya. Namun, penyimpangan dari normalitas cenderung menjadi penting jika Anda ingin memperkirakan nilai paling ekstrem dalam pengamatan di masa depan atau dalam populasi yang telah Anda sampel.

Emil Friedman
sumber

12

Biarkan saya menambahkan satu hal kecil:
Melakukan tes normalitas tanpa memperhitungkan kesalahan alpha-nya mempertinggi probabilitas keseluruhan Anda melakukan kesalahan alpha.

Anda tidak boleh lupa bahwa setiap tes tambahan melakukan ini selama Anda tidak mengontrol akumulasi kesalahan alpha. Oleh karena itu, alasan bagus lainnya untuk menolak pengujian normal.

Henrik
sumber

Saya kira Anda merujuk pada situasi di mana orang pertama melakukan tes normalitas, dan kemudian menggunakan hasil tes itu untuk memutuskan tes mana yang akan dilakukan selanjutnya.

Harvey Motulsky

3

Saya merujuk ke kegunaan umum dari tes normalitas ketika digunakan sebagai metode untuk menentukan apakah pantas untuk menggunakan metode tertentu. Jika Anda menerapkannya dalam kasus ini, berarti, dalam hal kemungkinan melakukan kesalahan alfa, lebih baik melakukan tes yang lebih kuat untuk menghindari akumulasi kesalahan alfa.

Henrik

4

Ini tidak masuk akal bagi saya. Bahkan jika Anda memutuskan antara, katakanlah, sebuah ANOVA atau metode berbasis peringkat berdasarkan pada uji normalitas (tentu saja ide yang buruk), pada akhirnya Anda masih hanya akan melakukan satu tes perbandingan minat. Jika Anda menolak normalitas dengan keliru, Anda masih belum mencapai kesimpulan yang salah mengenai perbandingan khusus ini. Anda mungkin melakukan dua tes tetapi satu-satunya kasus di mana Anda dapat menyimpulkan bahwa faktor ini-dan-itu berpengaruh adalah ketika tes kedua juga menolak , bukan ketika hanya yang pertama yang melakukannya. Karenanya, tidak ada akumulasi kesalahan alfa ...

H_{0}

$H_0$

Gala

3

Cara lain tes normalitas dapat meningkatkan kesalahan tipe I adalah jika kita berbicara tentang "probabilitas keseluruhan melakukan kesalahan alpha." Tes itu sendiri memiliki tingkat kesalahan, jadi secara keseluruhan , probabilitas kami melakukan kesalahan meningkat. Penekanan pada satu hal kecil juga saya kira ...

Nick Stauner

2

@NickStauner Itulah yang ingin saya sampaikan. Terima kasih telah membuat poin ini lebih jelas.

Henrik

11

Jawaban di sini telah membahas beberapa poin penting. Untuk meringkas dengan cepat:

Tidak ada tes yang konsisten yang dapat menentukan apakah satu set data benar-benar mengikuti distribusi atau tidak.
Tes bukanlah pengganti untuk secara visual memeriksa data dan model untuk mengidentifikasi leverage yang tinggi, pengamatan pengaruh tinggi dan mengomentari pengaruhnya terhadap model.
Asumsi untuk banyak rutinitas regresi sering salah kutip karena memerlukan "data" yang terdistribusi normal dan bahwa ini ditafsirkan oleh ahli statistik pemula yang mengharuskan analis secara formal mengevaluasi hal ini dalam beberapa hal sebelum melanjutkan dengan analisis.

Saya menambahkan jawaban pertama untuk mengutip ke salah satu artikel statistik saya, secara pribadi, paling sering diakses dan dibaca: " Pentingnya Asumsi Normalitas dalam Kumpulan Data Kesehatan Masyarakat Besar " oleh Lumley et. Al. Ini layak dibaca secara keseluruhan. Ringkasannya menyatakan:

Uji-t dan regresi linier-kuadrat tidak memerlukan asumsi distribusi Normal dalam sampel yang cukup besar. Studi simulasi sebelumnya menunjukkan bahwa "cukup besar" sering di bawah 100, dan bahkan untuk data biaya medis yang sangat tidak normal kami kurang dari 500. Ini berarti bahwa dalam penelitian kesehatan masyarakat, di mana sampel sering jauh lebih besar dari ini, -test dan model linier adalah alat standar yang berguna untuk menganalisis perbedaan dan tren dalam banyak jenis data, tidak hanya yang dengan distribusi normal. Tes statistik formal untuk Normalitas sangat tidak diinginkan karena mereka akan memiliki daya rendah dalam sampel kecil di mana distribusi penting dan daya tinggi hanya dalam sampel besar di mana distribusi tidak penting.

Sementara sifat sampel besar dari regresi linier dipahami dengan baik, ada sedikit penelitian tentang ukuran sampel yang diperlukan untuk asumsi Normalitas menjadi tidak penting. Secara khusus, tidak jelas bagaimana ukuran sampel yang diperlukan tergantung pada jumlah prediktor dalam model.

Fokus pada distribusi Normal dapat mengalihkan perhatian dari asumsi sebenarnya dari metode ini. Regresi linier mengasumsikan bahwa varians dari variabel hasil mendekati konstan, tetapi pembatasan utama pada kedua metode adalah bahwa mereka menganggap bahwa cukup untuk menguji perubahan rata-rata variabel hasil. Jika beberapa ringkasan lain dari distribusi lebih menarik, maka uji-t dan regresi linier mungkin tidak sesuai.

Untuk meringkas: normalitas umumnya tidak sepadan dengan diskusi atau perhatian yang diterimanya berbeda dengan pentingnya menjawab pertanyaan ilmiah tertentu. Jika keinginan untuk merangkum perbedaan rata-rata dalam data, maka uji-t dan ANOVA atau regresi linier dibenarkan dalam arti yang jauh lebih luas. Pengujian yang didasarkan pada model-model ini tetap memiliki tingkat alfa yang benar, bahkan ketika asumsi distribusi tidak terpenuhi, meskipun daya dapat terpengaruh.

Alasan mengapa distribusi normal dapat menerima perhatian yang mereka lakukan mungkin karena alasan klasik, di mana tes yang tepat berdasarkan pada distribusi-F untuk ANOVA dan distribusi Student-T untuk uji-T dapat diperoleh. Yang benar adalah, di antara banyak kemajuan ilmu pengetahuan modern, kita umumnya berurusan dengan kumpulan data yang lebih besar daripada yang dikumpulkan sebelumnya. Jika seseorang sebenarnya berurusan dengan dataset kecil, alasan mengapa data-data tersebut terdistribusi secara normal tidak dapat berasal dari data itu sendiri: tidak ada daya yang cukup. Mengomentari penelitian lain, replikasi, atau bahkan biologi atau ilmu proses pengukuran, menurut pendapat saya, pendekatan yang jauh lebih dibenarkan untuk membahas kemungkinan model yang mendasari data yang diamati.

Untuk alasan ini, memilih untuk tes berbasis peringkat sebagai alternatif melewatkan poin sepenuhnya. Namun, saya akan setuju bahwa menggunakan penaksir varians yang kuat seperti jackknife atau bootstrap menawarkan alternatif komputasi penting yang memungkinkan dilakukannya pengujian di bawah berbagai pelanggaran spesifikasi model yang lebih penting, seperti independensi atau distribusi kesalahan yang identik.

AdamO
sumber

10

Dulu saya berpikir bahwa tes normal sama sekali tidak berguna.

Namun, sekarang saya melakukan konsultasi untuk peneliti lain. Seringkali, mendapatkan sampel sangat mahal, sehingga mereka ingin melakukan inferensi dengan n = 8, katakanlah.

Dalam kasus seperti itu, sangat sulit untuk menemukan signifikansi statistik dengan tes non-parametrik, tetapi uji-t dengan n = 8 sensitif terhadap penyimpangan dari normalitas. Jadi yang kita dapatkan adalah kita dapat mengatakan "baik, tergantung pada asumsi normalitas, kita menemukan perbedaan yang signifikan secara statistik" (jangan khawatir, ini biasanya studi percontohan ...).

Maka kita perlu cara mengevaluasi asumsi itu. Saya setengah jalan di kamp bahwa melihat plot adalah cara yang lebih baik, tetapi sejujurnya ada banyak ketidaksepakatan tentang hal itu, yang bisa sangat bermasalah jika salah satu orang yang tidak setuju dengan Anda adalah resensi naskah Anda.

Dalam banyak hal, saya masih berpikir ada banyak kekurangan dalam tes normalitas: misalnya, kita harus memikirkan kesalahan tipe II lebih dari tipe I. Tetapi ada kebutuhan untuk itu.

Cliff AB
sumber

Perhatikan bahwa argumen di sini adalah bahwa tes hanya tidak berguna secara teori Secara teori, kita selalu bisa mendapatkan sampel sebanyak yang kita inginkan ... Anda masih akan memerlukan tes untuk membuktikan bahwa data Anda setidaknya entah bagaimana mendekati normal.

SmallChess

2

Poin bagus. Saya pikir apa yang Anda maksudkan, dan tentu saja apa yang saya yakini, adalah bahwa ukuran penyimpangan dari normalitas lebih penting daripada tes hipotesis.

Cliff AB

Selama mereka tidak kemudian beralih ke tes non-parametrik dan mencoba menafsirkan nilai-p (yang tidak valid dengan pra-pengujian kondisional), mungkin tidak apa-apa ?!

Björn

2

Kekuatan uji normalitas akan sangat rendah pada n = 8; khususnya, penyimpangan dari normalitas yang secara substansial akan mempengaruhi sifat-sifat tes yang mengasumsikan mungkin cukup sulit untuk dideteksi pada ukuran sampel yang kecil (apakah dengan tes atau secara visual).

Glen_b

1

@Glen_b: Saya setuju; Saya pikir sentimen ini sejalan dengan lebih peduli tentang kesalahan tipe II daripada tipe I. Maksud saya adalah bahwa ada kebutuhan dunia nyata untuk menguji normalitas. Apakah alat kami saat ini benar-benar memenuhi kebutuhan itu adalah pertanyaan yang berbeda.

Cliff AB

10

Untuk apa nilainya, saya pernah mengembangkan sampler cepat untuk distribusi normal terpotong, dan pengujian normalitas (KS) sangat berguna dalam men-debug fungsi. Sampler ini lulus tes dengan ukuran sampel yang besar tetapi, yang menarik, ziggurat sampler GSL tidak.

Arthur B.
sumber

8

Argumen yang Anda berikan adalah pendapat. Saya pikir pentingnya pengujian normalitas adalah untuk memastikan bahwa data tidak menyimpang jauh dari normal. Saya menggunakannya kadang-kadang untuk memutuskan antara menggunakan tes parametrik versus nonparametrik untuk prosedur inferensi saya. Saya pikir tes ini dapat berguna dalam sampel sedang dan besar (ketika teorema limit pusat tidak ikut bermain). Saya cenderung menggunakan tes Wilk-Shapiro atau Anderson-Darling tetapi menjalankan SAS saya mendapatkan semuanya dan mereka umumnya setuju dengan cukup baik. Pada catatan yang berbeda, saya pikir prosedur grafis seperti plot QQ bekerja dengan baik. Keuntungan dari tes formal adalah bahwa tes ini objektif. Dalam sampel kecil memang benar bahwa uji kelaikan ini praktis tidak memiliki daya dan itu masuk akal karena sampel kecil dari distribusi normal mungkin terlihat agak tidak normal dan yang diperhitungkan dalam pengujian. Skewness dan kurtosis yang tinggi yang membedakan banyak distribusi tidak normal dari distribusi normal tidak mudah terlihat pada sampel kecil.

Michael Chernick
sumber

2

Meskipun tentu saja dapat digunakan seperti itu, saya tidak berpikir Anda akan lebih objektif daripada dengan QQ-Plot. Bagian subyektif dengan tes adalah kapan harus memutuskan bahwa data Anda tidak normal. Dengan sampel besar yang ditolak pada p = 0,05 mungkin sangat berlebihan.

Erik

4

Pra-pengujian (seperti yang disarankan di sini) dapat membatalkan tingkat kesalahan Tipe I dari keseluruhan proses; kita harus mempertimbangkan fakta bahwa pra-tes dilakukan ketika menginterpretasikan hasil tes mana pun yang dipilihnya. Lebih umum, tes hipotesis harus disimpan untuk menguji hipotesis nol yang benar-benar diperhatikan, yaitu bahwa tidak ada hubungan antara variabel. Hipotesis nol bahwa data tersebut adalah normal, tidak termasuk dalam kategori ini.

tamu

1

(+1) Ada saran luar biasa di sini. Erik, penggunaan "tujuan" membuat saya kaget juga, sampai saya menyadari hak Michael: dua orang yang benar melakukan tes yang sama pada data yang sama akan selalu mendapatkan nilai p yang sama, tetapi mereka mungkin menafsirkan plot QQ yang sama secara berbeda. Tamu: terima kasih atas catatan peringatan tentang kesalahan Tipe I. Tetapi mengapa kita tidak peduli dengan distribusi data? Seringkali itu adalah informasi yang menarik dan berharga. Setidaknya saya ingin tahu apakah data konsisten dengan asumsi pengujian saya tentang mereka!

whuber

1

Saya sangat tidak setuju. Kedua orang mendapatkan plot QQ yang sama dan nilai p yang sama. Untuk menginterpretasikan nilai-p, Anda perlu memperhitungkan ukuran sampel dan pelanggaran normalitas tes Anda. Jadi memutuskan apa yang harus dilakukan dengan nilai-p Anda sama subyektifnya. Alasan Anda mungkin lebih suka nilai-p adalah karena Anda percaya data dapat mengikuti distribusi normal yang sempurna - selain itu hanya pertanyaan seberapa cepat nilai-p turun dengan ukuran sampel. Yang lebih penting, mengingat ukuran sampel yang layak, plot QQ terlihat hampir sama dan tetap stabil dengan lebih banyak sampel.

Erik

1

Erik, saya setuju bahwa hasil tes dan gambar memerlukan interpretasi. Tetapi hasil tes adalah angka dan tidak akan ada perselisihan tentang hal itu. Plot QQ, bagaimanapun, mengakui beberapa deskripsi. Meskipun masing-masing secara objektif mungkin benar, pilihan apa yang harus diperhatikan adalah ... pilihan. Itulah yang dimaksud "subyektif": hasilnya tergantung pada analis, bukan hanya prosedur itu sendiri. Inilah sebabnya, misalnya, dalam pengaturan yang beragam seperti bagan kendali dan peraturan pemerintah di mana "objektivitas" penting, kriteria didasarkan pada uji numerik dan tidak pernah hasil grafis.

whuber

7

Saya pikir pendekatan entropi maksimum bisa berguna di sini. Kami dapat menetapkan distribusi normal karena kami percaya data "terdistribusi normal" (apa pun artinya) atau karena kami hanya berharap untuk melihat penyimpangan dengan sekitar Magnitude yang sama. Juga, karena distribusi normal hanya memiliki dua statistik yang cukup, itu tidak sensitif terhadap perubahan data yang tidak mengubah jumlah ini. Jadi dalam arti tertentu Anda dapat menganggap distribusi normal sebagai "rata-rata" atas semua distribusi yang mungkin dengan momen pertama dan kedua yang sama. ini memberikan satu alasan mengapa kuadrat terkecil harus bekerja sebaik itu.

probabilityislogic
sumber

Jembatan konsep yang bagus. Saya juga setuju bahwa dalam kasus di mana masalah distribusi seperti itu, jauh lebih mencerahkan untuk berpikir tentang bagaimana data dihasilkan. Kami menerapkan prinsip itu dalam menyesuaikan model campuran. Konsentrasi atau rasio di sisi lain selalu miring. Saya mungkin menambahkan bahwa dengan "normal ... tidak sensitif terhadap perubahan" yang Anda maksud tidak berubah pada bentuk / skala.

AdamO

7

Saya tidak akan mengatakan itu tidak berguna, tetapi itu benar-benar tergantung pada aplikasi. Catatan, Anda tidak pernah benar-benar tahu distribusi data berasal, dan yang Anda miliki hanyalah sekumpulan kecil realisasi. Rerata sampel Anda selalu terbatas dalam sampel, tetapi rerata tersebut dapat tidak ditentukan atau tak terbatas untuk beberapa jenis fungsi kepadatan probabilitas. Mari kita perhatikan tiga jenis distribusi stabil Retribusi yaitu distribusi Normal, distribusi Retribusi dan distribusi Cauchy. Sebagian besar sampel Anda tidak memiliki banyak pengamatan di bagian ekor (yaitu jauh dari mean sampel). Jadi secara empiris sangat sulit untuk membedakan antara ketiganya, sehingga Cauchy (memiliki mean yang tidak ditentukan) dan Levy (memiliki mean yang tak terbatas) dapat dengan mudah menyamar sebagai distribusi normal.

kolonel
sumber

1

"... secara empiris sangat sulit ..." tampaknya menentang , bukannya untuk , pengujian distribusi. Ini aneh untuk dibaca dalam paragraf yang pengantarnya menunjukkan memang ada kegunaan untuk pengujian distribusi. Lalu, apa yang sebenarnya ingin Anda katakan di sini?

whuber

3

Saya menentangnya, tetapi saya juga ingin berhati-hati daripada hanya mengatakan itu tidak berguna karena saya tidak tahu seluruh rangkaian skenario yang mungkin ada di luar sana. Ada banyak tes yang bergantung pada asumsi normalitas. Mengatakan bahwa pengujian normal tidak berguna pada dasarnya menghilangkan semua tes statistik seperti yang Anda katakan bahwa Anda tidak yakin bahwa Anda menggunakan / melakukan hal yang benar. Dalam hal ini Anda tidak boleh melakukannya, Anda tidak boleh melakukan bagian besar statistik ini.

kolonel

Terima kasih. Pernyataan dalam komentar itu tampaknya lebih terfokus pada pertanyaan daripada jawaban awal Anda! Anda mungkin mempertimbangkan memperbarui jawaban Anda di beberapa titik untuk membuat pendapat dan saran Anda lebih jelas.

whuber

@whuber Tidak masalah. Bisakah Anda merekomendasikan hasil edit?

kolonel

Anda mungkin mulai dengan menggabungkan dua posting - jawaban dan komentar Anda - dan kemudian berpikir tentang menyiangi (atau menurunkan ke lampiran atau mengklarifikasi) materi apa pun yang mungkin tangensial. Sebagai contoh, referensi ke undefined berarti belum memiliki kaitan yang jelas pada pertanyaan dan itu tetap agak misterius.

whuber

7

Saya pikir 2 pertanyaan pertama telah dijawab secara menyeluruh tetapi saya tidak berpikir pertanyaan 3 telah diatasi. Banyak tes membandingkan distribusi empiris dengan distribusi hipotesis yang diketahui. Nilai kritis untuk uji Kolmogorov-Smirnov didasarkan pada F yang sepenuhnya ditentukan. Ini dapat dimodifikasi untuk menguji terhadap distribusi parametrik dengan parameter yang diperkirakan. Jadi, jika fuzzier berarti memperkirakan lebih dari dua parameter, maka jawabannya adalah ya. Tes-tes ini dapat diterapkan 3 kelompok parameter atau lebih. Beberapa tes dirancang untuk memiliki kekuatan yang lebih baik ketika menguji terhadap keluarga distribusi tertentu. Sebagai contoh ketika menguji normalitas, Anderson-Darling atau Shapiro-Wilk test memiliki kekuatan lebih besar dari KS atau chi square ketika distribusi nol yang dihipotesiskan adalah normal.

Michael Chernick
sumber

5

Tes di mana "sesuatu" yang penting untuk analisis ini didukung oleh nilai-p yang tinggi menurut saya salah arah. Seperti yang ditunjukkan orang lain, untuk set data besar, nilai p di bawah 0,05 terjamin. Jadi, tes ini pada dasarnya "hadiah" untuk set data kecil dan kabur dan "hadiah" karena kurangnya bukti. Sesuatu seperti plot qq jauh lebih bermanfaat. Keinginan untuk angka-angka sulit untuk memutuskan hal-hal seperti ini selalu (ya / tidak normal / tidak normal) merindukan bahwa pemodelan sebagian merupakan seni dan bagaimana hipotesis sebenarnya didukung.

wvguy8258
sumber

2

Tetap bahwa sampel besar yang hampir normal akan memiliki nilai p yang rendah sedangkan sampel yang lebih kecil yang hampir tidak normal biasanya tidak. Saya tidak berpikir bahwa nilai-p besar berguna. Sekali lagi, mereka memberi hadiah karena kurangnya bukti. Saya dapat memiliki sampel dengan beberapa juta titik data, dan hampir selalu akan menolak asumsi normal dalam tes ini sementara sampel yang lebih kecil tidak. Karena itu, saya menemukan mereka tidak berguna. Jika pemikiran saya cacat, harap tunjukkan dengan menggunakan beberapa alasan deduktif pada titik ini.

wvguy8258

Ini sama sekali tidak menjawab pertanyaan.

SmallChess

-2

Salah satu penggunaan normalitas tes yang saya pikir tidak disebutkan adalah untuk menentukan apakah menggunakan skor-z tidak apa-apa. Katakanlah Anda memilih sampel acak dari suatu populasi, dan Anda ingin menemukan probabilitas untuk memilih satu individu acak dari populasi dan mendapatkan nilai 80 atau lebih tinggi. Ini dapat dilakukan hanya jika distribusinya normal, karena untuk menggunakan skor-z, asumsinya adalah bahwa distribusi populasi normal.

Tapi kemudian saya kira saya bisa melihat ini diperdebatkan juga ...

Hotaka
sumber

Nilai apa? Berarti, jumlah, ragam, pengamatan individu? Hanya yang terakhir bergantung pada asumsi normal dari distribusi.

whuber

saya maksud individu

Hotaka

2

Terima kasih. Namun, jawaban Anda tetap tidak jelas sehingga sulit untuk mengatakan prosedur apa yang Anda maksud dan tidak mungkin menilai apakah kesimpulan Anda valid.

whuber

2

Masalah dengan penggunaan ini sama dengan penggunaan lainnya: Tes akan tergantung pada ukuran sampel, jadi, itu pada dasarnya tidak berguna. Itu tidak memberi tahu Anda apakah Anda dapat menggunakan skor z.

Peter Flom

Apakah pengujian normal 'pada dasarnya tidak berguna'?

Jawaban: