"Terbalik" Shapiro – Wilk

11

Tes Sharipo-Wilk, menurut wikipedia , menguji hipotesis nol ( ) "Populasi terdistribusi secara normal".H0

Saya mencari tes normalitas serupa dengan "Populasi tidak terdistribusi secara normal".H0

Setelah melakukan tes seperti itu, saya ingin menghitung nilai- untuk menolak pada tingkat signifikansi iff ; membuktikan bahwa populasi saya terdistribusi secara normal.pH0αp<α

Harap dicatat bahwa menggunakan uji Sharipo-Wilk dan menerima iff adalah pendekatan yang salah karena secara harfiah berarti "kami tidak memiliki cukup bukti untuk membuktikan bahwa H0 tidak berlaku".H0p>α

Thread terkait - artinya -valuep , apakah pengujian normalitas tidak berguna? , tetapi saya tidak dapat melihat solusi untuk masalah saya.

Pertanyaan: Tes mana yang harus saya gunakan? Apakah ini diterapkan dalam R?

petrbel
sumber
6
Hipotesis nol "tidak terdistribusi secara normal" tidak dapat digunakan. Ruang ini akan mencakup semua distribusi yang mendekati, tetapi tidak cukup, distribusi normal. Anda memberi saya set data yang terbatas. Saya memilih distribusi empiris, yang tidak normal, dan karena itu milik ruang nol. Tidak bisa menolak
A. Webb
5
Pertanyaan ini, yang sama dengan pertanyaan Anda sebelumnya, menanyakan yang tidak mungkin. Sebuah jawaban yang tepat akan menjelaskan cara kerja uji hipotesis statistik, itulah sebabnya saya mengarahkan Anda ke stats.stackexchange.com/questions/31 dalam komentar untuk pertanyaan Anda yang lain.
whuber
5
Sementara hipotesis nol "tidak terdistribusi secara normal" tidak mungkin, hipotesis nol "didistribusikan dengan nilai absolut statistik normal-of-fit normal yang paling tidak berbeda dengan " di sepanjang garis uji ekivalensi tampaknya masuk akal. Dengan kata lain seseorang harus dapat menguji terhadap nol "tidak normal dengan setidaknya sebanyak ini ." @ung telah menyarankan hal ini dalam jawabannya. ε
Alexis

Jawaban:

10

Tidak ada hal seperti tes bahwa data Anda yang terdistribusi normal. Hanya ada tes bahwa data Anda tidak terdistribusi secara normal. Dengan demikian, ada tes seperti Shapiro-Wilk di mana (ada banyak lainnya), tetapi tidak ada tes di mana nol adalah bahwa populasi tidak normal dan hipotesis alternatifnya adalah bahwa populasi normal. H0:normal

Yang bisa Anda lakukan hanyalah mencari tahu penyimpangan seperti apa dari keadaan normal yang Anda pedulikan (mis. Kemiringan), dan seberapa besar penyimpangan yang harus terjadi sebelum itu mengganggu Anda. Kemudian Anda bisa menguji untuk melihat apakah penyimpangan dari normalitas sempurna dalam data Anda kurang dari jumlah kritis. Untuk informasi lebih lanjut tentang ide umum, mungkin membantu untuk membaca jawaban saya di sini: Mengapa ahli statistik mengatakan hasil yang tidak signifikan berarti "Anda tidak dapat menolak nol" sebagai lawan menerima hipotesis nol?

gung - Pasang kembali Monica
sumber
5

Saya ingin menghitung nilai p untuk menolak H0 pada tingkat signifikansi α iff p <α; membuktikan bahwa populasi saya terdistribusi secara normal.

Distribusi normal muncul ketika data dihasilkan oleh serangkaian peristiwa aditif iid (lihat gambar quincunx di bawah). Itu berarti tidak ada umpan balik dan tidak ada korelasi, apakah itu terdengar seperti proses yang mengarahkan data Anda? Jika tidak, itu mungkin tidak normal.

Ada kemungkinan jenis proses dapat terjadi dalam kasus Anda. Yang paling dekat dengan Anda untuk "membuktikan" itu adalah mengumpulkan cukup data untuk mengesampingkan distribusi lain yang dapat dihasilkan orang (yang mungkin tidak praktis). Cara lain adalah dengan menyimpulkan distribusi normal dari beberapa teori bersama dengan beberapa prediksi lainnya. Jika data konsisten dengan mereka semua dan tidak ada yang bisa memikirkan penjelasan lain maka itu akan menjadi bukti yang baik yang mendukung distribusi normal.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Sekarang jika Anda tidak mengharapkan distribusi apriori tertentu, mungkin masih masuk akal untuk menggunakan distribusi normal untuk merangkum data, tetapi menyadari bahwa ini pada dasarnya adalah pilihan karena ketidaktahuan ( https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy ). Dalam hal ini Anda tidak ingin tahu apakah populasi terdistribusi secara normal, tetapi Anda ingin tahu apakah distribusi normal adalah perkiraan yang masuk akal untuk apa pun langkah Anda selanjutnya.

Dalam hal ini Anda harus memberikan data Anda (atau data yang dihasilkan yang serupa) bersama dengan deskripsi tentang apa yang Anda rencanakan untuk dilakukan dengannya, kemudian tanyakan "Dengan cara apa mengasumsikan normalitas dalam kasus ini menyesatkan saya?"

Marah
sumber
Saya sebenarnya tahu bahwa datanya normal (pengukuran independen pada komputer independen), namun saya perlu membuat asumsi untuk tesis saya .. terima kasih atas klarifikasi dan contohnya :)
petrbel
1
Secara kebetulan, Krieger telah memberikan kritik yang bagus tentang penggunaan Galton's Quincunx di Krieger, N. (2012). Siapa dan apa itu "populasi"? perdebatan historis, kontroversi saat ini, dan implikasi untuk memahami "kesehatan populasi" dan memperbaiki kesenjangan kesehatan. Milbank Quarterly , 90 (4): 634-681.
Alexis
@petrbel Situasi itu sangat berbeda dari apa yang dijelaskan di atas. Anda dapat menyusun quincunx di mana setiap pengamatan adalah iid tetapi proses yang menghasilkan data tidak. Lihat di sini untuk contoh log-normal: LIMPERT et al. Distribusi Log-normal di Ilmu: Kunci dan Petunjuk. Mei 2001 / Vol. 51 No. 5. BioScience.
Livid
1
@Alexis Saya melihat bahwa Krieger (2012) mereproduksi gambar dari Limpert et al. (2001) dan membuat titik yang terlewatkan oleh petrbel: "mengubah struktur dapat mengubah probabilitas hasil, bahkan untuk objek yang identik, sehingga menciptakan distribusi populasi yang berbeda".
Livid
2

Anda tidak akan pernah bisa "membuktikan" asumsi Normalitas dalam data Anda. Hanya menawarkan bukti yang menentangnya sebagai asumsi. Tes Shapiro-Wilk adalah salah satu cara untuk melakukan ini dan digunakan setiap saat untuk membenarkan asumsi Normalitas. Alasannya adalah bahwa Anda memulai dengan mengasumsikan Normalitas. Anda kemudian bertanya, apakah data saya menunjukkan saya membuat asumsi konyol? Jadi Anda pergi ke depan dan mengujinya dengan Shapiro-Wilk. Jika Anda gagal menolak hipotesis nol maka data tidak menyarankan Anda membuat asumsi konyol.

Perhatikan, orang menggunakan logika yang sama ini setiap saat dalam praktik - tidak hanya dalam konteks tes Shapiro-Wilk. Mereka ingin menggunakan regresi linier, melihat scatterplot dan melihat apakah regresi linier adalah ide yang konyol. Atau, mereka mengasumsikan heteroskedastisitas dan plot istilah kesalahan untuk melihat apakah ini ide yang konyol.Y,X

TrynnaDoStat
sumber
Praktek yang Anda jelaskan itu adalah pendekatan yang salah yang disebutkan petrbel. Tes biasanya konsisten, sehingga semakin besar ukuran sampel, semakin besar probabilitas untuk menyatakan asumsi normalitas sebagai ide konyol. Ini sendiri konyol, karena dengan ukuran sampel yang lebih besar, asumsi normalitas kurang kritis karena kuatnya asimptotik pada sebagian besar prosedur.
Horst Grünbusch
@ HorstGrünbusch Apakah Anda tidak setuju bahwa tes Shapiro-Wilk adalah cara yang valid untuk menguji asumsi seseorang bahwa datanya Normal?
TrynnaDoStat
Jika Anda setuju bahwa ini adalah pendekatan yang valid maka saya tidak yakin apa yang tidak Anda setujui dalam jawaban saya.
TrynnaDoStat
Tidak. Lihat argumennya di sini: stats.stackexchange.com/questions/2492/… . Juga, tidak valid untuk menguji hipotesis nol bahwa dua sampel memiliki varians yang sama dan menggunakan uji Satterthwaite hanya jika variansnya berbeda secara signifikan dan selain itu uji-t untuk sampel homoskedastik. Hanya mensimulasikan prosedur komposit ini sendiri: Anda dapat menghasilkan tingkat kesalahan tipe-I hingga . 2α
Horst Grünbusch
@ HorstGrünbusch Sepertinya masalah Anda dengan jawaban saya ada hubungannya dengan gagasan pengujian hipotesis secara umum. Secara khusus, fakta bahwa dalam banyak situasi tes hipotesis akan menolak nol dengan probabilitas 1 sebagai ukuran sampel mendekati tak terbatas.
TrynnaDoStat