Bagaimana memilih antara uji-t atau uji non-parametrik misalnya Wilcoxon dalam sampel kecil

96

Hipotesis tertentu dapat diuji menggunakan uji- t Student (mungkin menggunakan koreksi Welch untuk varians yang tidak sama dalam kasus dua sampel), atau dengan tes non-parametrik seperti uji peringkat bertanda berpasangan Wilcoxon, uji Wilcoxon-Mann-Whitney U, atau uji tanda berpasangan. Bagaimana kita bisa membuat keputusan yang berprinsip tentang tes mana yang paling tepat, terutama jika ukuran sampel "kecil"?

Banyak buku teks pengantar dan catatan kuliah memberikan pendekatan "diagram alur" di mana normalitas diperiksa (baik - tidak disengaja - dengan uji normalitas, atau lebih luas dengan plot QQ atau serupa) untuk memutuskan antara uji t atau uji non-parametrik. Untuk berpasangan dua-sample t -test mungkin ada pemeriksaan lebih lanjut untuk homogenitas varians untuk memutuskan apakah akan menerapkan koreksi Welch. Salah satu masalah dengan pendekatan ini adalah cara keputusan untuk menerapkan tes yang tergantung pada data yang diamati, dan bagaimana hal ini mempengaruhi kinerja (daya, tingkat kesalahan Tipe I) dari tes yang dipilih.

Masalah lain adalah seberapa sulit pengecekan normalitas dalam set data kecil: pengujian formal memiliki daya rendah sehingga pelanggaran mungkin tidak terdeteksi, tetapi masalah serupa berlaku mengamati data pada plot QQ. Bahkan pelanggaran mengerikan bisa tidak terdeteksi, misalnya jika distribusi dicampur tetapi tidak ada pengamatan yang diambil dari satu komponen campuran. Tidak seperti untuk besar , kita tidak dapat bersandar pada jaring pengaman dari Teorema Limit Sentral, dan normalitas asimptotik dari statistik uji dan distribusi t .n

Satu tanggapan prinsip atas hal ini adalah "keselamatan pertama": dengan tidak ada cara untuk secara meyakinkan memverifikasi asumsi normalitas dalam sampel kecil, tetap berpegang pada metode non-parametrik. Lain adalah dengan mempertimbangkan alasan untuk mengasumsikan normalitas, secara teoritis (misalnya variabel adalah jumlah dari beberapa komponen acak dan CLT berlaku) atau secara empiris (misalnya penelitian sebelumnya dengan lebih besar menyarankan variabel adalah normal), dan menggunakan t -test hanya jika alasan tersebut ada . Tapi ini biasanya hanya membenarkan perkiraan normalitas, dan pada derajat kebebasan yang rendah sulit untuk menilai seberapa dekat normal itu diperlukan untuk menghindari membatalkan uji- t .n

Sebagian besar panduan untuk memilih fokus uji-t atau non-parametrik pada masalah normalitas. Tetapi sampel kecil juga memunculkan beberapa masalah sampingan:

  • Jika melakukan "t sampel yang tidak terkait" atau "t tidak berpasangan", apakah akan menggunakan koreksi Welch ? Beberapa orang menggunakan uji hipotesis untuk persamaan varian, tetapi di sini tes tersebut memiliki kekuatan yang rendah; yang lain memeriksa apakah SD "cukup" dekat atau tidak (dengan berbagai kriteria). Apakah lebih aman untuk selalu menggunakan koreksi Welch untuk sampel kecil, kecuali ada alasan kuat untuk meyakini bahwa variasi populasi sama?

  • Jika Anda melihat pilihan metode sebagai trade-off antara daya dan ketahanan, klaim tentang efisiensi asimtotik dari metode non-parametrik tidak membantu . Aturan praktis bahwa " tes Wilcoxon memiliki sekitar 95% dari kekuatan uji-t jika data benar-benar normal , dan seringkali jauh lebih kuat jika datanya tidak, jadi gunakan saja Wilcoxon" kadang-kadang terdengar, tetapi jika 95% hanya berlaku untuk besar , ini adalah alasan cacat untuk sampel yang lebih kecil.n

  • Sampel kecil mungkin membuatnya sangat sulit, atau tidak mungkin, untuk menilai apakah suatu transformasi sesuai untuk data karena sulit untuk mengetahui apakah data yang diubah itu termasuk dalam distribusi normal (cukup). Jadi jika plot QQ mengungkapkan data miring yang sangat positif, yang terlihat lebih masuk akal setelah mengambil log, apakah aman untuk menggunakan uji-t pada data yang dicatat? Pada sampel yang lebih besar ini akan sangat menggoda, tetapi dengan kecil saya mungkin akan menunda kecuali ada alasan untuk mengharapkan distribusi log-normal di tempat pertama.n

  • Bagaimana dengan memeriksa asumsi untuk non-parametrik? Beberapa sumber merekomendasikan memverifikasi distribusi simetris sebelum menerapkan tes Wilcoxon (memperlakukannya sebagai tes untuk lokasi daripada dominasi stokastik), yang memunculkan masalah yang sama dengan memeriksa normalitas. Jika alasan kita menerapkan tes non-parametrik di tempat pertama adalah kepatuhan buta terhadap mantra "keselamatan pertama", maka kesulitan menilai kemiringan dari sampel kecil tampaknya akan membawa kita pada kekuatan yang lebih rendah dari tes tanda berpasangan. .

Dengan mempertimbangkan masalah sampel kecil ini, apakah ada prosedur yang baik - mudah-mudahan dapat diterima - untuk diselesaikan saat memutuskan antara uji t dan non-parametrik?

Ada beberapa jawaban yang sangat baik, tetapi tanggapan yang mempertimbangkan alternatif lain untuk tes peringkat, seperti tes permutasi, juga akan diterima.

Gegat
sumber
2
Saya harus menjelaskan apa "metode untuk memilih tes" mungkin - teks pengantar sering menggunakan diagram alur. Untuk data yang tidak berpasangan, mungkin: "1. Gunakan beberapa metode untuk memeriksa apakah kedua sampel terdistribusi secara normal (jika tidak pergi ke 3), 2. Gunakan beberapa metode untuk memeriksa varian yang tidak sama: jika demikian, lakukan uji-t dua sampel dengan Koreksi Welch, jika tidak, lakukan tanpa koreksi. 3. Coba ubah data menjadi normal (jika berfungsi lanjutkan 2, lanjutkan ke 4). 4. Lakukan uji U sebagai gantinya (mungkin setelah memeriksa berbagai asumsi). " Tetapi banyak dari langkah-langkah ini nampaknya tidak memuaskan untuk n kecil, seperti yang saya harapkan Q saya jelaskan!
Silverfish
2
Pertanyaan menarik (+1) dan langkah berani untuk menyiapkan hadiah. Menantikan beberapa jawaban menarik. Ngomong-ngomong, apa yang sering saya lihat diterapkan di bidang saya adalah tes permutasi (bukan uji-t atau Mann-Whitney-Wilcoxon). Saya kira itu bisa dianggap sebagai pesaing yang layak juga. Selain itu, Anda tidak pernah menentukan apa yang Anda maksud dengan "ukuran sampel kecil".
amoeba
1
@Alexis Banyak buku mengklaim uji Wilcoxon mengasumsikan simetri tentang median, setidaknya jika hasilnya dilihat sebagai pernyataan tentang lokasi (beberapa merekomendasikan plot kotak untuk memeriksa: lihat diskusi saya dengan Glen di atas / jawaban Frank Harrell di bawah ini untuk bahaya multistep prosedur). Juga beberapa sumber menyatakan bahwa Wilcoxon-Mann-Whitney U mengasumsikan distribusi grup berbeda hanya dengan terjemahan (dan menyarankan pemeriksaan visual pada histogram atau CDF empiris). A sig. Tes U mungkin karena distribusi bentuk yang berbeda bahkan jika median sama. Lihat juga makalah yang dikutip dalam komentar di bawah jawaban Frank Harrell.
Silverfish
3
@Silverfish "jika hasilnya dilihat sebagai pernyataan tentang lokasi" Itu adalah peringatan penting, karena tes ini adalah pernyataan yang paling umum tentang bukti untuk H . Membuat asumsi distribusi tambahan mempersempit ruang lingkup inferensi (misalnya tes untuk perbedaan median), tetapi umumnya tidak diperlukan untuk tes. 0:P(XA>XB)=0.5
Alexis
2
Mungkin perlu ditelusuri bagaimana "cacat" daya "95% untuk Wilcoxon" adalah untuk sampel kecil (sebagian tergantung pada apa, tepatnya, yang dilakukan, dan seberapa kecil kecil). Jika misalnya, Anda senang melakukan tes pada katakanlah 5,5%, bukan 5%, jika itu menjadi tingkat signifikansi terdekat yang paling cocok dicapai, daya sering cenderung bertahan cukup baik. Tentu saja, sekali saja - pada tahap "perhitungan daya" sebelum Anda mengumpulkan data - cari tahu keadaannya dan rasakan apa saja sifat-sifat Wilcoxon pada ukuran sampel yang Anda pertimbangkan.
Glen_b

Jawaban:

67

Saya akan mengubah urutan pertanyaan.

Saya telah menemukan buku teks dan catatan kuliah sering tidak setuju, dan ingin sistem untuk bekerja melalui pilihan yang dapat dengan aman direkomendasikan sebagai praktik terbaik, dan terutama buku teks atau kertas yang dapat dikutip.

Sayangnya, beberapa diskusi tentang masalah ini dalam buku dan sebagainya mengandalkan kebijaksanaan yang diterima. Kadang-kadang kebijaksanaan yang diterima itu masuk akal, kadang-kadang kurang begitu (setidaknya dalam arti bahwa ia cenderung berfokus pada masalah yang lebih kecil ketika masalah yang lebih besar diabaikan); kita harus memeriksa pembenaran yang ditawarkan untuk saran (jika ada pembenaran yang ditawarkan sama sekali) dengan hati-hati.

Sebagian besar panduan untuk memilih fokus uji-t atau non-parametrik pada masalah normalitas.

Itu benar, tetapi agak salah arah karena beberapa alasan yang saya bahas dalam jawaban ini.

Jika melakukan "t sampel yang tidak terkait" atau "t tidak berpasangan", apakah akan menggunakan koreksi Welch?

Ini (untuk menggunakannya kecuali Anda memiliki alasan untuk berpikir varians harus sama) adalah saran dari banyak referensi. Saya menunjuk beberapa jawaban ini.

Beberapa orang menggunakan tes hipotesis untuk persamaan varians, tetapi di sini akan memiliki kekuatan rendah. Secara umum saya hanya melihat apakah SD sampel "cukup" dekat atau tidak (yang agak subyektif, sehingga harus ada cara yang lebih berprinsip untuk melakukannya) tetapi sekali lagi, dengan n rendah mungkin juga bahwa populasi SD agak lebih jauh terpisah dari yang sampel.

Apakah lebih aman untuk selalu menggunakan koreksi Welch untuk sampel kecil, kecuali ada alasan kuat untuk meyakini varians populasi sama? Itulah sarannya. Sifat-sifat tes dipengaruhi oleh pilihan berdasarkan uji asumsi.

Beberapa referensi tentang hal ini dapat dilihat di sini dan di sini , meskipun ada lebih banyak yang mengatakan hal serupa.

Masalah equal-variance memiliki banyak karakteristik yang mirip dengan masalah normalitas - orang ingin mengujinya, saran menyarankan pilihan tes pada hasil tes dapat mempengaruhi hasil kedua jenis tes berikutnya - lebih baik hanya untuk tidak mengasumsikan apa Anda tidak dapat membenarkan secara memadai (dengan alasan tentang data, menggunakan informasi dari penelitian lain yang berkaitan dengan variabel yang sama dan sebagainya).

Namun, ada perbedaan. Salah satunya adalah - setidaknya dalam hal distribusi statistik uji di bawah hipotesis nol (dan karenanya, tingkat-kekokohannya) - non-normalitas kurang penting dalam sampel besar (setidaknya dalam hal tingkat signifikansi, meskipun kekuatan mungkin masih menjadi masalah jika Anda perlu menemukan efek kecil), sedangkan efek varians yang tidak sama di bawah asumsi varians yang sama tidak benar-benar hilang dengan ukuran sampel yang besar.

Metode berprinsip apa yang dapat direkomendasikan untuk memilih tes mana yang paling tepat ketika ukuran sampel "kecil"?

Dengan tes hipotesis, yang penting (dalam beberapa kondisi) adalah dua hal utama:

  • Apa tingkat kesalahan tipe I yang sebenarnya?

  • Seperti apa perilaku kekuasaan?

Kita juga harus ingat bahwa jika kita membandingkan dua prosedur, mengubah yang pertama akan mengubah yang kedua (yaitu, jika mereka tidak dilakukan pada tingkat signifikansi aktual yang sama, Anda akan mengharapkan bahwa yang lebih tinggi dikaitkan dengan kekuatan yang lebih tinggi).α

Dengan mempertimbangkan masalah sampel kecil ini, apakah ada daftar periksa yang bagus - mudah-mudahan dapat diterima - untuk diselesaikan saat memutuskan antara uji t dan non-parametrik?

Saya akan mempertimbangkan sejumlah situasi di mana saya akan membuat beberapa rekomendasi, mempertimbangkan kemungkinan variasi yang tidak normal dan tidak sama. Dalam setiap kasus, sebutkan uji-t untuk menyiratkan uji Welch:

  • n menengah-besar

Non-normal (atau tidak dikenal), kemungkinan memiliki varian yang hampir sama:

Jika distribusinya berekor berat, Anda umumnya akan lebih baik dengan Mann-Whitney, meskipun jika hanya sedikit berat, uji-t harus dilakukan dengan baik. Dengan ekor yang ringan, uji-t mungkin (sering) lebih disukai. Tes permutasi adalah pilihan yang baik (Anda bahkan dapat melakukan tes permutasi menggunakan statistik-t jika Anda cenderung). Tes bootstrap juga cocok.

Non-normal (atau tidak diketahui), varians tidak sama (atau hubungan varians tidak diketahui):

Jika distribusi berekor berat, Anda umumnya akan lebih baik dengan Mann-Whitney - jika ketidaksamaan varian hanya terkait dengan ketidaksetaraan rata-rata - yaitu jika H0 benar, perbedaan dalam penyebaran juga harus tidak ada. GLM sering merupakan pilihan yang baik, terutama jika ada kemiringan dan penyebaran terkait dengan mean. Tes permutasi adalah pilihan lain, dengan peringatan yang sama seperti untuk tes berbasis peringkat. Tes bootstrap adalah kemungkinan yang baik di sini.

Zimmerman dan Zumbo (1993) menyarankan uji-Welch pada peringkat yang menurut mereka berkinerja lebih baik daripada Wilcoxon-Mann-Whitney dalam kasus di mana varians tidak sama.[1]

  • n cukup kecil

tes peringkat adalah default yang wajar di sini jika Anda mengharapkan ketidaknormalan (sekali lagi dengan peringatan di atas). Jika Anda memiliki informasi eksternal tentang bentuk atau varian, Anda dapat mempertimbangkan GLM. Jika Anda mengharapkan hal-hal tidak terlalu jauh dari normal, uji-t mungkin baik-baik saja.

  • dan sangat kecil

Karena masalah dengan mendapatkan tingkat signifikansi yang sesuai, baik tes permutasi atau tes peringkat mungkin tidak cocok, dan pada ukuran terkecil, uji-t mungkin merupakan pilihan terbaik (ada beberapa kemungkinan untuk sedikit memperkuatnya). Namun, ada argumen yang baik untuk menggunakan tingkat kesalahan tipe I yang lebih tinggi dengan sampel kecil (jika tidak Anda membiarkan tingkat kesalahan tipe II mengembang sambil menahan tingkat kesalahan tipe I konstan). Juga lihat de Winter (2013) .[2]

Saran harus diubah sedikit ketika distribusi keduanya sangat miring dan sangat terpisah, seperti item skala Likert di mana sebagian besar pengamatan berada di salah satu kategori akhir. Maka Wilcoxon-Mann-Whitney belum tentu merupakan pilihan yang lebih baik daripada uji-t.

Simulasi dapat membantu memandu pilihan lebih lanjut ketika Anda memiliki beberapa informasi tentang keadaan yang mungkin terjadi.

Saya menghargai ini adalah topik yang selalu ada, tetapi sebagian besar pertanyaan menyangkut set data khusus si penanya, kadang-kadang diskusi yang lebih umum tentang kekuasaan, dan kadang-kadang apa yang harus dilakukan jika dua tes tidak setuju, tetapi saya ingin prosedur untuk memilih tes yang benar di posisi pertama!

Masalah utama adalah seberapa sulit untuk memeriksa asumsi normalitas dalam kumpulan data kecil:

Ini adalah sulit untuk memeriksa normalitas dalam satu set data kecil, dan sampai batas tertentu itu merupakan masalah penting, tapi saya pikir ada masalah lain yang penting yang perlu kita pertimbangkan. Masalah mendasarnya adalah bahwa mencoba menilai normalitas sebagai dasar pemilihan antar tes berdampak buruk pada properti tes yang Anda pilih.

Setiap tes formal untuk normalitas akan memiliki daya rendah sehingga pelanggaran mungkin tidak terdeteksi. (Secara pribadi saya tidak akan menguji untuk tujuan ini, dan saya jelas tidak sendirian, tetapi saya telah menemukan ini sedikit digunakan ketika klien menuntut tes normal dilakukan karena itulah yang buku teks atau catatan kuliah lama atau situs web yang mereka temukan sekali menyatakan harus dilakukan. Ini adalah satu titik di mana kutipan yang tampak lebih berat akan diterima.)

Berikut adalah contoh referensi (ada yang lain) yang tegas (Fay dan Proschan, 2010 ):[3]

Pilihan antara t- dan WMW DRs tidak harus didasarkan pada uji normalitas.

Mereka sama-sama tegas tentang tidak menguji kesetaraan varians.

Untuk membuat keadaan menjadi lebih buruk, itu tidak aman untuk menggunakan Teorema Limit Pusat sebagai jaring pengaman: untuk n kecil kita tidak dapat mengandalkan normalitas asimtotik yang nyaman dari statistik uji dan distribusi t.

Atau bahkan dalam sampel besar - normalitas asimtotik pembilang tidak menyiratkan bahwa statistik-t akan memiliki distribusi-t. Namun, itu mungkin tidak terlalu penting, karena Anda seharusnya masih memiliki normalitas asimptotik (mis. CLT untuk pembilang, dan teorema Slutsky menyarankan bahwa pada akhirnya statistik-t akan mulai terlihat normal, jika kondisi untuk keduanya berlaku.)

Satu tanggapan berprinsip terhadap hal ini adalah "keselamatan pertama": karena tidak ada cara untuk memverifikasi asumsi normal pada sampel kecil, lakukan uji non-parametrik yang setara.

Itu sebenarnya saran yang saya sebutkan referensi (atau tautan ke menyebutkan) berikan.

Pendekatan lain yang pernah saya lihat tetapi merasa kurang nyaman adalah dengan melakukan pemeriksaan visual dan melanjutkan dengan uji-t jika tidak ada yang diamati ("tidak ada alasan untuk menolak normalitas", mengabaikan rendahnya daya pemeriksaan ini). Kecenderungan pribadi saya adalah untuk mempertimbangkan apakah ada alasan untuk mengasumsikan normalitas, teoretis (misalnya variabel adalah jumlah dari beberapa komponen acak dan CLT berlaku) atau empiris (misalnya penelitian sebelumnya dengan n menyarankan variabel yang lebih besar adalah normal).

Keduanya adalah argumen yang baik, terutama ketika didukung dengan fakta bahwa uji-t cukup kuat terhadap penyimpangan moderat dari normalitas. (Namun, orang harus ingat bahwa "penyimpangan moderat" adalah ungkapan yang rumit; penyimpangan jenis tertentu dari normalitas dapat memengaruhi kinerja daya uji-t cukup sedikit meskipun penyimpangan tersebut secara visual sangat kecil - penyimpangan). Tes kurang kuat untuk beberapa penyimpangan dari yang lain. Kita harus mengingat ini setiap kali kita membahas penyimpangan kecil dari normalitas.)

Berhati-hatilah, frasa "menyarankan variabel itu normal". Menjadi cukup konsisten dengan normalitas tidak sama dengan normalitas. Kita sering dapat menolak normalitas aktual tanpa perlu melihat data - misalnya, jika data tidak dapat negatif, distribusi tidak bisa normal. Untungnya, yang penting lebih dekat dengan apa yang sebenarnya kita miliki dari penelitian sebelumnya atau alasan tentang bagaimana data disusun, yaitu penyimpangan dari normalitas harus kecil.

Jika demikian, saya akan menggunakan uji-t jika data lulus inspeksi visual, dan berpegang pada non-parametrik. Tetapi alasan teoritis atau empiris biasanya hanya membenarkan asumsi perkiraan normalitas, dan pada tingkat kebebasan yang rendah sulit untuk menilai seberapa dekat normal itu perlu untuk menghindari membatalkan uji-t.

Nah, itu sesuatu yang bisa kita nilai dampaknya dengan mudah (seperti melalui simulasi, seperti yang saya sebutkan sebelumnya). Dari apa yang saya lihat, kemiringan tampaknya lebih penting daripada ekor yang berat (tetapi di sisi lain saya telah melihat beberapa klaim yang berlawanan - meskipun saya tidak tahu apa yang mendasari itu).

Bagi orang yang melihat pilihan metode sebagai trade-off antara daya dan ketahanan, klaim tentang efisiensi asimtotik dari metode non-parametrik tidak membantu. Misalnya, aturan praktis bahwa "tes Wilcoxon memiliki sekitar 95% dari kekuatan uji-t jika data benar-benar normal, dan seringkali jauh lebih kuat jika datanya tidak, jadi gunakan saja Wilcoxon" kadang-kadang terdengar, tetapi jika 95% hanya berlaku untuk n besar, ini adalah alasan yang salah untuk sampel yang lebih kecil.

Tetapi kita dapat memeriksa kekuatan sampel kecil dengan mudah! Cukup mudah untuk disimulasikan untuk mendapatkan kurva daya seperti di sini .
(Sekali lagi, juga lihat de Winter (2013) ).[2]

Setelah melakukan simulasi seperti itu dalam berbagai keadaan, baik untuk kasus dua sampel dan satu sampel / pasangan berpasangan, efisiensi sampel kecil pada normal dalam kedua kasus tampaknya sedikit lebih rendah daripada efisiensi asimptotik, tetapi efisiensi dari peringkat yang ditandatangani dan tes Wilcoxon-Mann-Whitney masih sangat tinggi bahkan pada ukuran sampel yang sangat kecil.

Setidaknya itu jika tes dilakukan pada tingkat signifikansi aktual yang sama; Anda tidak dapat melakukan tes 5% dengan sampel yang sangat kecil (dan setidaknya tidak tanpa tes acak misalnya), tetapi jika Anda siap untuk mungkin melakukan (katakanlah) tes 5,5% atau 3,2% sebagai gantinya, maka tes peringkat bertahan sangat baik dibandingkan dengan uji-t pada tingkat signifikansi itu.

Sampel kecil mungkin membuatnya sangat sulit, atau tidak mungkin, untuk menilai apakah suatu transformasi sesuai untuk data karena sulit untuk mengetahui apakah data yang diubah itu termasuk dalam distribusi normal (cukup). Jadi jika plot QQ mengungkapkan data miring yang sangat positif, yang terlihat lebih masuk akal setelah mengambil log, apakah aman untuk menggunakan uji-t pada data yang dicatat? Pada sampel yang lebih besar ini akan sangat menggoda, tetapi dengan n kecil saya mungkin akan menunda kecuali ada alasan untuk mengharapkan distribusi log-normal di tempat pertama.

Ada alternatif lain: buat asumsi parametrik yang berbeda. Misalnya, jika ada data miring, seseorang mungkin, misalnya, dalam beberapa situasi cukup mempertimbangkan distribusi gamma, atau keluarga miring lainnya sebagai perkiraan yang lebih baik - dalam sampel yang cukup besar, kami mungkin hanya menggunakan GLM, tetapi dalam sampel yang sangat kecil mungkin perlu untuk melihat tes sampel kecil - dalam banyak kasus simulasi dapat bermanfaat.

Alternatif 2: menguatkan uji-t (tetapi berhati-hati dengan pilihan prosedur yang kuat agar tidak terlalu mendiskreditkan hasil distribusi statistik uji) - ini memiliki beberapa keunggulan dibandingkan prosedur nonparametrik sampel yang sangat kecil seperti kemampuan untuk mempertimbangkan tes dengan tingkat kesalahan tipe I rendah.

Di sini saya berpikir sepanjang garis menggunakan katakanlah M-estimator lokasi (dan estimator terkait skala) dalam t-statistik untuk dengan lancar menguatkan terhadap penyimpangan dari normalitas. Sesuatu yang mirip dengan Welch, seperti:

xySp

Sp2=sx2nx+sy2nyxsx

ψn

Anda bisa, misalnya, menggunakan simulasi pada normal untuk mendapatkan nilai-p (jika ukuran sampel sangat kecil, saya akan menyarankan agar over bootstrap - jika ukuran sampel tidak begitu kecil, bootstrap yang diimplementasikan dengan hati-hati mungkin cukup baik , tapi kemudian kita mungkin kembali ke Wilcoxon-Mann-Whitney). Ada faktor penskalaan serta penyesuaian untuk mendapatkan apa yang saya bayangkan akan menjadi pendekatan-t yang masuk akal. Ini berarti kita harus mendapatkan jenis properti yang kita cari sangat dekat dengan normal, dan harus memiliki ketahanan yang wajar di sekitar normal. Ada sejumlah masalah yang muncul yang berada di luar ruang lingkup pertanyaan ini, tetapi saya pikir dalam sampel yang sangat kecil manfaatnya harus lebih besar daripada biaya dan upaya ekstra yang diperlukan.

[Aku sudah lama tidak membaca literatur tentang hal ini, jadi aku tidak punya referensi yang cocok untuk ditawarkan pada skor itu.]

Tentu saja jika Anda tidak mengharapkan distribusi agak seperti normal, tetapi agak mirip dengan distribusi lain, Anda bisa melakukan penguatan yang sesuai dari uji parametrik yang berbeda.

Bagaimana jika Anda ingin memeriksa asumsi untuk non-parametrik? Beberapa sumber merekomendasikan memverifikasi distribusi simetris sebelum menerapkan tes Wilcoxon, yang memunculkan masalah yang sama dengan memeriksa normalitas.

Memang. Saya berasumsi maksud Anda tes peringkat yang ditandatangani *. Dalam hal menggunakannya pada data berpasangan, jika Anda siap untuk berasumsi bahwa dua distribusi adalah bentuk yang sama terlepas dari pergeseran lokasi Anda aman, karena perbedaannya kemudian harus simetris. Sebenarnya, kita bahkan tidak membutuhkan sebanyak itu; agar tes bekerja, Anda perlu simetri di bawah nol; itu tidak diperlukan di bawah alternatif (misalnya mempertimbangkan situasi berpasangan dengan distribusi kontinu miring kanan berbentuk identik pada setengah garis positif, di mana skala berbeda di bawah alternatif tetapi tidak di bawah nol; tes peringkat yang ditandatangani harus bekerja pada dasarnya seperti yang diharapkan pada kasus itu). Interpretasi tes lebih mudah jika alternatifnya adalah pergeseran lokasi.

* (Nama Wilcoxon dikaitkan dengan tes peringkat satu dan dua sampel - peringkat peringkat dan peringkat bertanda; dengan uji U mereka, Mann dan Whitney menggeneralisasi situasi yang dipelajari oleh Wilcoxon, dan memperkenalkan ide-ide baru yang penting untuk mengevaluasi distribusi nol, tetapi prioritas antara dua set penulis di Wilcoxon-Mann-Whitney jelas Wilcoxon - jadi setidaknya jika kita hanya mempertimbangkan Wilcoxon vs Mann & Whitney, Wilcoxon masuk pertama dalam buku saya. Namun, tampaknya Hukum Stigler mengalahkan saya lagi, dan Wilcoxon mungkin harus berbagi sebagian dari prioritas itu dengan sejumlah kontributor sebelumnya, dan (selain Mann dan Whitney) harus berbagi kredit dengan beberapa penemu tes setara. [4] [5])

Referensi

[1]: Zimmerman DW dan Zumbo BN, (1993),
Transformasi pangkat dan kekuatan uji-t Student dan uji t Welch untuk populasi yang tidak normal,
Canadian Journal Experimental Psychology, 47 : 523-39.

[2]: JCF de Winter (2013),
"Menggunakan uji-t Student dengan ukuran sampel yang sangat kecil,"
Penilaian Praktis, Penelitian dan Evaluasi , 18 : 10, Agustus, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay dan Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney atau uji-t? Pada asumsi untuk pengujian hipotesis dan beberapa interpretasi aturan keputusan,"
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW dan Johnston, JE (2012),
"The Two-sample Test-sum-Test: Pengembangan Awal,"
Jurnal Elektronik untuk Sejarah Probabilitas dan Statistik , Vol.8, Desember
pdf

[5]: Kruskal, WH (1957),
"Catatan sejarah tentang uji dua sampel Wilcoxon tidak berpasangan,"
Jurnal Asosiasi Statistik Amerika , 52 , 356-360.

Glen_b
sumber
Beberapa hal yang saya ingin klarifikasi. Ada beberapa poin di mana Anda menyebutkan misalnya "Jika distribusinya berekor berat, ..." (atau condong dll) - mungkin ini harus dibaca sebagai "jika masuk akal untuk menganggap bahwa distribusinya akan berekor berat" (dari teori / penelitian sebelumnya / apa pun) daripada "jika sampel berekor berat", jika tidak kita kembali menguji multi-langkah lagi yang merupakan hal yang kita coba hindari? (Sepertinya saya bahwa masalah utama dalam topik ini adalah bagaimana menjustifikasi keyakinan atau asumsi tentang distribusi, tanpa membaca terlalu banyak ke dalam sampel.)
Silverfish
Ya, itu harus dipahami sebagai "populasi diketahui berekor berat, atau mungkin diperkirakan berekor berat". Itu tentu saja termasuk hal-hal seperti teori (atau kadang-kadang bahkan alasan umum tentang situasi yang tidak cukup mencapai status teori ), pengetahuan pakar, dan studi sebelumnya. Itu tidak menyarankan pengujian untuk berekor berat. Dalam situasi di mana itu tidak diketahui, mungkin ada baiknya menyelidiki seberapa buruk hal-hal yang mungkin terjadi di bawah berbagai distribusi yang mungkin masuk akal untuk situasi spesifik yang Anda miliki.
Glen_b
Adakah kemungkinan jawaban yang sudah luar biasa ini bisa menggabungkan sedikit lebih detail tentang opsi apa yang mungkin ada untuk "memperkuat" uji-t?
Silverfish
Silverfish - Saya tidak yakin apakah saya cukup menjawab pertanyaan Anda meminta detail tentang penguatan. Saya akan menambahkan sedikit lagi sekarang.
Glen_b
Terima kasih banyak untuk tambahannya, saya pikir itu menambahkan banyak pada kualitas jawaban ini. Sekarang pertanyaan ini telah sedikit tenang, dan menghasilkan serangkaian tanggapan yang baik, saya ingin memberikan pertanyaan asli salinan-edit yang baik dan menghapus apa pun yang mungkin menyesatkan (untuk kepentingan pembaca yang tidak membaca masa lalu pertanyaan!). Apakah saya tetap bisa melakukan penyuntingan sesuai tanggapan Anda sehingga kutipan cocok dengan pertanyaan yang disusun ulang?
Silverfish
22

YktP

Menyatukan semua ini, beberapa saran yang disarankan adalah sebagai berikut:

  1. Jika tidak ada alasan kuat untuk mengasumsikan distribusi Gaussian sebelum memeriksa data, dan tidak diperlukan penyesuaian kovariat, gunakan tes nonparametrik.
  2. Jika penyesuaian kovariat diperlukan, gunakan generalisasi regresi semiparametrik dari tes peringkat yang Anda inginkan. Untuk tes Wilcoxon ini adalah model odds proporsional dan untuk tes skor normal ini adalah regresi ordinal probit.

t3πY

kkloglogmenghubungkan model ordinal probabilitas kumulatif distribusi diasumsikan berada dalam bahaya proporsional. Untuk model probabilitas kumulatif tautan logit (model peluang proporsional), distribusi diasumsikan dihubungkan oleh asumsi peluang proporsional, yaitu, log dari fungsi distribusi kumulatif adalah paralel. Bentuk salah satu distribusi tidak relevan. Detailnya dapat ditemukan di http://biostat.mc.vanderbilt.edu/CourseBios330 di Bab 15 dari Handout.

Ada dua jenis asumsi metode statistik frequentist yang sering dipertimbangkan. Yang pertama adalah asumsi yang diperlukan untuk membuat metode mempertahankan kesalahan tipe I. Yang kedua berkaitan dengan menjaga kesalahan tipe II (optimalitas; sensitivitas). Saya percaya bahwa cara terbaik untuk mengekspos asumsi yang diperlukan untuk yang kedua adalah dengan menanamkan tes nonparametrik dalam model semiparametrik seperti yang dilakukan di atas. Koneksi aktual antara keduanya berasal dari tes skor efisien Rao yang timbul dari model semiparametrik. Pembilang dari tes skor dari model odds proporsional untuk kasus dua sampel persis statistik peringkat-jumlah.

Frank Harrell
sumber
1
Terima kasih untuk ini, saya sangat bersimpati pada filosofi jawaban ini - misalnya, banyak sumber menyarankan saya setidaknya harus memeriksa data mata untuk normalitas sebelum memutuskan tes. Tetapi prosedur multi-langkah semacam ini jelas, meskipun secara halus, memengaruhi cara kerja tes.
Silverfish
1
nn=15
3
10000p
4
Tes permutasi adalah cara untuk mengontrol kesalahan tipe I tetapi tidak mengatasi kesalahan tipe II. Tes permutasi berdasarkan statistik suboptimal (misalnya, rata-rata dan varians biasa ketika data berasal dari distribusi log-Gaussian) akan menderita dalam hal kekuatan.
Frank Harrell
3
Ya Bab 15 dalam Handout diperluas menjadi bab baru dalam edisi kedua buku saya yang akan datang yang akan saya sampaikan kepada penerbit bulan depan.
Frank Harrell
13

Rand Wilcox dalam publikasi dan buku-bukunya membuat beberapa poin yang sangat penting, banyak di antaranya didaftar oleh Frank Harrell dan Glen_b dalam posting sebelumnya.

  1. Maksudnya belum tentu jumlah yang ingin kita simpulkan. Mungkin ada jumlah lain yang lebih baik mencontohkan pengamatan khas .
  2. Untuk uji-t, daya dapat rendah bahkan untuk keberangkatan kecil dari normalitas.
  3. Untuk uji-t, cakupan probabilitas yang diamati dapat jauh berbeda dari nominal.

Beberapa saran utama adalah:

  1. Alternatif yang kuat adalah membandingkan cara yang dipangkas atau penaksir-M menggunakan uji-t. Wilcox menyarankan 20% cara yang dipangkas.
  2. Metode kemungkinan empiris secara teoritis lebih menguntungkan ( Owen, 2001 ) tetapi tidak harus demikian untuk n menengah sampai kecil.
  3. Tes permutasi sangat bagus jika seseorang perlu mengontrol kesalahan Tipe I, tetapi seseorang tidak bisa mendapatkan CI.
  4. Untuk banyak situasi, Wilcox mengusulkan bootstrap-t untuk membandingkan cara yang dipangkas. Dalam R, ini diimplementasikan dalam fungsi yuenbt , yhbt dalam paket WRS .
  5. Bootstrap persentil mungkin lebih baik daripada persentil-t ketika jumlah pemangkasan> / = 20%. Dalam R ini diimplementasikan dalam fungsi pb2gen dalam paket WRS tersebut .

Dua referensi yang baik adalah Wilcox ( 2010 ) dan Wilcox ( 2012 ).

Thomas Speidel
sumber
8

Bradley, dalam karyanya Distribution-Free Statistical Tests (1968, hlm. 17-24) , membawa tiga belas kontras antara apa yang ia sebut tes "klasik" dan "bebas distribusi". Perhatikan bahwa Bradley membedakan antara "non-parametrik" dan "bebas distribusi," tetapi untuk keperluan pertanyaan Anda, perbedaan ini tidak relevan. Termasuk dalam ketiga belas unsur tersebut yang terkait tidak hanya dengan derivatinos dari tes, tetapi penerapannya. Ini termasuk:

  • Pilihan tingkat signifikansi: Tes klasik memiliki tingkat signifikansi berkelanjutan; tes bebas distribusi biasanya memiliki pengamatan terpisah dari tingkat signifikansi, sehingga tes klasik menawarkan lebih banyak fleksibilitas dalam menetapkan level tersebut.
  • Validitas logis dari wilayah penolakan: Wilayah penolakan tes bebas-distribusi dapat kurang dimengerti secara intuitif (tidak selalu mulus atau berkelanjutan) dan dapat menyebabkan kebingungan mengenai kapan tes harus dianggap telah menolak hipotesis nol.
  • Jenis statistik yang dapat diuji: Mengutip Bradley secara langsung: " Statistik yang didefinisikan dalam operasi aritmetika berdasarkan besaran pengamatan dapat diuji dengan teknik klasik, sedangkan yang ditentukan oleh hubungan urutan (peringkat) atau kategori-frekuensi, dll. Dapat diuji dengan metode distribusi bebas. Sarana dan varians adalah contoh dari yang pertama dan median dan rentang interkuartil, yang terakhir. "Terutama ketika berhadapan dengan distribusi non-normal, kemampuan untuk menguji statistik lain menjadi berharga, menambah bobot pada tes bebas distribusi .
  • Testabilitas interaksi tingkat tinggi: Jauh lebih mudah di bawah uji klasik daripada tes bebas distribusi.
  • Pengaruh ukuran sampel:Ini agak penting menurut saya. Ketika ukuran sampel kecil (Bradley mengatakan sekitar n = 10), mungkin sangat sulit untuk menentukan apakah asumsi parametrik yang mendasari tes klasik telah dilanggar atau tidak. Tes bebas distribusi tidak memiliki asumsi ini untuk dilanggar. Terlebih lagi, bahkan ketika asumsi tidak dilanggar, tes bebas distribusi seringkali hampir sama mudahnya untuk diterapkan dan hampir sama efisiennya dengan tes. Jadi untuk ukuran sampel kecil (kurang dari 10, mungkin hingga 30) Bradley lebih menyukai aplikasi tes bebas-distribusi yang hampir rutin. Untuk ukuran sampel yang besar, Teorema Batas Tengah cenderung membanjiri pelanggaran parametrik karena mean sampel dan varians sampel akan cenderung ke normal, dan uji parametrik mungkin lebih unggul dalam hal efisiensi.
  • Lingkup Penerapan: Dengan menjadi bebas distribusi, tes semacam itu berlaku untuk kelas populasi yang jauh lebih besar daripada tes klasik dengan asumsi distribusi tertentu.
  • Deteksi pelanggaran asumsi distribusi kontinu: Mudah dilihat dalam tes bebas distribusi (misalnya adanya skor terikat), lebih sulit dalam tes parametrik.
  • Efek pelanggaran asumsi distribusi berkelanjutan: Jika asumsi dilanggar tes menjadi tidak tepat. Bradley menghabiskan waktu untuk menjelaskan bagaimana batas ketidaktelitian dapat diperkirakan untuk tes bebas distribusi, tetapi tidak ada rutin analog untuk tes klasik.
Avraham
sumber
1
Terima kasih atas kutipannya! Karya Bradley tampaknya cukup tua sehingga saya menduga tidak ada banyak pekerjaan pada studi simulasi modern untuk membandingkan efisiensi dan tingkat kesalahan Tipe I / II dalam berbagai skenario? Saya juga akan tertarik pada apa yang ia sarankan tentang tes Brunner-Munzel - haruskah mereka digunakan sebagai pengganti tes U jika varians dalam kedua kelompok tidak diketahui sama?
Silverfish
1
Bradley memang membahas efisiensi, meskipun sebagian besar waktu, itu dalam konteks efisiensi relatif asimptotik. Dia terkadang membawa sumber untuk pernyataan tentang efisiensi ukuran sampel yang terbatas, tetapi karena pekerjaannya dari tahun 1968, saya yakin analisis yang lebih baik telah dilakukan sejak saat itu. Omong-omong, Jika saya benar, Brunner dan Munzel menulis artikel mereka pada tahun 2000 , yang menjelaskan mengapa tidak disebutkan di Bradley.
Avraham
Ya itu memang akan menjelaskannya! :) Apakah Anda tahu jika ada survei yang lebih terkini daripada Bradley?
Silverfish
Pencarian singkat menunjukkan bahwa ada banyak teks terbaru tentang statistik non-parametrik. Sebagai contoh: Metode Statistik Nonparametrik (Hollander et al, 2013), Pengujian Hipotesis Nonparametrik: Metode Peringkat dan Permutasi dengan Aplikasi dalam R (Bonnini et al, 2014), Inferensi Statistik Nonparametrik, Edisi Kelima (Gibbons dan Chakraborti, 2010). Ada banyak lainnya yang muncul dalam berbagai pencarian. Karena saya tidak punya, saya tidak bisa membuat rekomendasi. Maaf.
Avraham
5

Mulai menjawab pertanyaan yang sangat menarik ini.

Untuk data yang tidak berpasangan:

Kinerja lima uji lokasi dua sampel untuk distribusi miring dengan varian yang tidak sama oleh Morten W. Fagerland, Leiv Sandvik (di belakang paywall) melakukan serangkaian percobaan dengan 5 tes berbeda (uji-t, Welch U, Yuen-Welch, Wilcoxon-Mann) -Whitney dan Brunner-Munzel) untuk berbagai kombinasi ukuran sampel, rasio sampel, penyimpangan dari normalitas, dan sebagainya. Makalah ini akhirnya menyarankan Welch U secara umum,

Tetapi lampiran A dari makalah ini mencantumkan hasil untuk setiap kombinasi ukuran sampel. Dan untuk ukuran sampel kecil (m = 10 n = 10 atau 25) hasilnya lebih membingungkan (seperti yang diharapkan) - menurut perkiraan saya atas hasil (bukan penulis) Welch U, Brunner-Munzel tampaknya berkinerja sama baiknya, dan uji-t juga baik dalam m = 10 dan n = 10 kasus.

Inilah yang saya tahu sejauh ini.

Untuk solusi "cepat", saya biasa mengutip Peningkatan Kesadaran Dokter tentang Dampak Statistik pada Hasil Penelitian: Kekuatan Komparatif dari uji-t dan Uji Wilcoxon Rank-Sum dalam Sampel Kecil Penelitian Terapan oleh Patrick D Bridge dan Shlomo S Sawilowsky (juga di belakang paywall) dan langsung ke Wilcoxon tidak peduli ukuran sampel, tetapi peringatan emptor , misalnya Haruskah kita selalu memilih tes nonparametrik ketika membandingkan dua distribusi yang tampaknya tidak normal? oleh Eva Skovlund dan Grete U. Fensta .

Saya belum menemukan hasil serupa untuk data berpasangan

Jacques Wainer
sumber
Saya menghargai kutipannya! Untuk klarifikasi, apakah "Welch U" dirujuk, tes yang sama juga dikenal sebagai "Welch t" atau "Welch-Aspin t" atau (seperti yang mungkin tidak tepat saya sebutkan dalam pertanyaan) "tes dengan koreksi Welch" ?
Silverfish
Sejauh yang saya mengerti dari makalah, Welch U bukan Welch-Aspin biasa - tidak menggunakan persamaan Welch-Satterthwaite untuk derajat kebebasan, tetapi formula yang memiliki perbedaan kubus dan kuadrat sampel ukuran.
Jacques Wainer
Apakah ini masih merupakan uji-t, terlepas dari namanya? Di mana-mana saya mencari "Welch U", sepertinya saya merujuk pada Welch-Aspin, yang membuat frustrasi.
Silverfish
1

Mensimulasikan perbedaan cara populasi Gamma

Membandingkan uji-t dan uji Mann Whitney

Ringkasan hasil

  • Ketika varians dari dua populasi adalah sama, uji Mann Whitney memiliki kekuatan sejati yang lebih besar tetapi juga kesalahan tipe 1 yang benar lebih besar daripada uji-t.
  • H0
  • Ketika varians dari dua populasi berbeda, maka uji Mann Whitney menyebabkan kesalahan tipe 1 besar, bahkan ketika rata-rata sama. Ini diharapkan karena Mann Whitney menguji perbedaan dalam distribusi, bukan dalam berarti.
  • Uji t kuat untuk perbedaan dalam varian tetapi berarti identik

Eksperimen 1) Berarti berbeda, varian yang sama

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Sumber:

Distribusi populasi

masukkan deskripsi gambar di sini

Hasil simulasi

masukkan deskripsi gambar di sini

Diskusi

  • N=10
  • Untuk semua ukuran sampel, uji Mann Whitney memiliki kekuatan lebih dari uji-t, dan dalam beberapa kasus dengan faktor 2
  • Untuk semua ukuran sampel, uji Mann Whitney memiliki kesalahan tipe I yang lebih besar, dan ini dengan faktor atau 2 - 3
  • t-test memiliki daya rendah untuk ukuran sampel kecil

Diskusi : ketika varians dari dua populasi memang sama, uji Mann Whitney sangat mengungguli uji-t dalam hal daya untuk ukuran sampel kecil, tetapi memiliki tingkat kesalahan Tipe 1 yang lebih tinggi.


Eksperimen 2: Variasi berbeda, rata-rata sama

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Hasil Diskusi dari simulasi menunjukkan bahwa uji-t sangat kuat untuk varian yang berbeda, dan kesalahan tipe I mendekati 5% untuk semua ukuran sampel. Seperti yang diharapkan, tes Mann Whitney berkinerja buruk dalam hal ini karena tidak menguji untuk perbedaan dalam cara tetapi untuk perbedaan dalam distribusi

masukkan deskripsi gambar di sini

Xavier Bourret Sicotte
sumber