Hipotesis tertentu dapat diuji menggunakan uji- t Student (mungkin menggunakan koreksi Welch untuk varians yang tidak sama dalam kasus dua sampel), atau dengan tes non-parametrik seperti uji peringkat bertanda berpasangan Wilcoxon, uji Wilcoxon-Mann-Whitney U, atau uji tanda berpasangan. Bagaimana kita bisa membuat keputusan yang berprinsip tentang tes mana yang paling tepat, terutama jika ukuran sampel "kecil"?
Banyak buku teks pengantar dan catatan kuliah memberikan pendekatan "diagram alur" di mana normalitas diperiksa (baik - tidak disengaja - dengan uji normalitas, atau lebih luas dengan plot QQ atau serupa) untuk memutuskan antara uji t atau uji non-parametrik. Untuk berpasangan dua-sample t -test mungkin ada pemeriksaan lebih lanjut untuk homogenitas varians untuk memutuskan apakah akan menerapkan koreksi Welch. Salah satu masalah dengan pendekatan ini adalah cara keputusan untuk menerapkan tes yang tergantung pada data yang diamati, dan bagaimana hal ini mempengaruhi kinerja (daya, tingkat kesalahan Tipe I) dari tes yang dipilih.
Masalah lain adalah seberapa sulit pengecekan normalitas dalam set data kecil: pengujian formal memiliki daya rendah sehingga pelanggaran mungkin tidak terdeteksi, tetapi masalah serupa berlaku mengamati data pada plot QQ. Bahkan pelanggaran mengerikan bisa tidak terdeteksi, misalnya jika distribusi dicampur tetapi tidak ada pengamatan yang diambil dari satu komponen campuran. Tidak seperti untuk besar , kita tidak dapat bersandar pada jaring pengaman dari Teorema Limit Sentral, dan normalitas asimptotik dari statistik uji dan distribusi t .
Satu tanggapan prinsip atas hal ini adalah "keselamatan pertama": dengan tidak ada cara untuk secara meyakinkan memverifikasi asumsi normalitas dalam sampel kecil, tetap berpegang pada metode non-parametrik. Lain adalah dengan mempertimbangkan alasan untuk mengasumsikan normalitas, secara teoritis (misalnya variabel adalah jumlah dari beberapa komponen acak dan CLT berlaku) atau secara empiris (misalnya penelitian sebelumnya dengan lebih besar menyarankan variabel adalah normal), dan menggunakan t -test hanya jika alasan tersebut ada . Tapi ini biasanya hanya membenarkan perkiraan normalitas, dan pada derajat kebebasan yang rendah sulit untuk menilai seberapa dekat normal itu diperlukan untuk menghindari membatalkan uji- t .
Sebagian besar panduan untuk memilih fokus uji-t atau non-parametrik pada masalah normalitas. Tetapi sampel kecil juga memunculkan beberapa masalah sampingan:
Jika melakukan "t sampel yang tidak terkait" atau "t tidak berpasangan", apakah akan menggunakan koreksi Welch ? Beberapa orang menggunakan uji hipotesis untuk persamaan varian, tetapi di sini tes tersebut memiliki kekuatan yang rendah; yang lain memeriksa apakah SD "cukup" dekat atau tidak (dengan berbagai kriteria). Apakah lebih aman untuk selalu menggunakan koreksi Welch untuk sampel kecil, kecuali ada alasan kuat untuk meyakini bahwa variasi populasi sama?
Jika Anda melihat pilihan metode sebagai trade-off antara daya dan ketahanan, klaim tentang efisiensi asimtotik dari metode non-parametrik tidak membantu . Aturan praktis bahwa " tes Wilcoxon memiliki sekitar 95% dari kekuatan uji-t jika data benar-benar normal , dan seringkali jauh lebih kuat jika datanya tidak, jadi gunakan saja Wilcoxon" kadang-kadang terdengar, tetapi jika 95% hanya berlaku untuk besar , ini adalah alasan cacat untuk sampel yang lebih kecil.
Sampel kecil mungkin membuatnya sangat sulit, atau tidak mungkin, untuk menilai apakah suatu transformasi sesuai untuk data karena sulit untuk mengetahui apakah data yang diubah itu termasuk dalam distribusi normal (cukup). Jadi jika plot QQ mengungkapkan data miring yang sangat positif, yang terlihat lebih masuk akal setelah mengambil log, apakah aman untuk menggunakan uji-t pada data yang dicatat? Pada sampel yang lebih besar ini akan sangat menggoda, tetapi dengan kecil saya mungkin akan menunda kecuali ada alasan untuk mengharapkan distribusi log-normal di tempat pertama.
Bagaimana dengan memeriksa asumsi untuk non-parametrik? Beberapa sumber merekomendasikan memverifikasi distribusi simetris sebelum menerapkan tes Wilcoxon (memperlakukannya sebagai tes untuk lokasi daripada dominasi stokastik), yang memunculkan masalah yang sama dengan memeriksa normalitas. Jika alasan kita menerapkan tes non-parametrik di tempat pertama adalah kepatuhan buta terhadap mantra "keselamatan pertama", maka kesulitan menilai kemiringan dari sampel kecil tampaknya akan membawa kita pada kekuatan yang lebih rendah dari tes tanda berpasangan. .
Dengan mempertimbangkan masalah sampel kecil ini, apakah ada prosedur yang baik - mudah-mudahan dapat diterima - untuk diselesaikan saat memutuskan antara uji t dan non-parametrik?
Ada beberapa jawaban yang sangat baik, tetapi tanggapan yang mempertimbangkan alternatif lain untuk tes peringkat, seperti tes permutasi, juga akan diterima.
Jawaban:
Saya akan mengubah urutan pertanyaan.
Sayangnya, beberapa diskusi tentang masalah ini dalam buku dan sebagainya mengandalkan kebijaksanaan yang diterima. Kadang-kadang kebijaksanaan yang diterima itu masuk akal, kadang-kadang kurang begitu (setidaknya dalam arti bahwa ia cenderung berfokus pada masalah yang lebih kecil ketika masalah yang lebih besar diabaikan); kita harus memeriksa pembenaran yang ditawarkan untuk saran (jika ada pembenaran yang ditawarkan sama sekali) dengan hati-hati.
Itu benar, tetapi agak salah arah karena beberapa alasan yang saya bahas dalam jawaban ini.
Ini (untuk menggunakannya kecuali Anda memiliki alasan untuk berpikir varians harus sama) adalah saran dari banyak referensi. Saya menunjuk beberapa jawaban ini.
Beberapa referensi tentang hal ini dapat dilihat di sini dan di sini , meskipun ada lebih banyak yang mengatakan hal serupa.
Masalah equal-variance memiliki banyak karakteristik yang mirip dengan masalah normalitas - orang ingin mengujinya, saran menyarankan pilihan tes pada hasil tes dapat mempengaruhi hasil kedua jenis tes berikutnya - lebih baik hanya untuk tidak mengasumsikan apa Anda tidak dapat membenarkan secara memadai (dengan alasan tentang data, menggunakan informasi dari penelitian lain yang berkaitan dengan variabel yang sama dan sebagainya).
Namun, ada perbedaan. Salah satunya adalah - setidaknya dalam hal distribusi statistik uji di bawah hipotesis nol (dan karenanya, tingkat-kekokohannya) - non-normalitas kurang penting dalam sampel besar (setidaknya dalam hal tingkat signifikansi, meskipun kekuatan mungkin masih menjadi masalah jika Anda perlu menemukan efek kecil), sedangkan efek varians yang tidak sama di bawah asumsi varians yang sama tidak benar-benar hilang dengan ukuran sampel yang besar.
Dengan tes hipotesis, yang penting (dalam beberapa kondisi) adalah dua hal utama:
Apa tingkat kesalahan tipe I yang sebenarnya?
Seperti apa perilaku kekuasaan?
Kita juga harus ingat bahwa jika kita membandingkan dua prosedur, mengubah yang pertama akan mengubah yang kedua (yaitu, jika mereka tidak dilakukan pada tingkat signifikansi aktual yang sama, Anda akan mengharapkan bahwa yang lebih tinggi dikaitkan dengan kekuatan yang lebih tinggi).α
Saya akan mempertimbangkan sejumlah situasi di mana saya akan membuat beberapa rekomendasi, mempertimbangkan kemungkinan variasi yang tidak normal dan tidak sama. Dalam setiap kasus, sebutkan uji-t untuk menyiratkan uji Welch:
Non-normal (atau tidak dikenal), kemungkinan memiliki varian yang hampir sama:
Jika distribusinya berekor berat, Anda umumnya akan lebih baik dengan Mann-Whitney, meskipun jika hanya sedikit berat, uji-t harus dilakukan dengan baik. Dengan ekor yang ringan, uji-t mungkin (sering) lebih disukai. Tes permutasi adalah pilihan yang baik (Anda bahkan dapat melakukan tes permutasi menggunakan statistik-t jika Anda cenderung). Tes bootstrap juga cocok.
Non-normal (atau tidak diketahui), varians tidak sama (atau hubungan varians tidak diketahui):
Jika distribusi berekor berat, Anda umumnya akan lebih baik dengan Mann-Whitney - jika ketidaksamaan varian hanya terkait dengan ketidaksetaraan rata-rata - yaitu jika H0 benar, perbedaan dalam penyebaran juga harus tidak ada. GLM sering merupakan pilihan yang baik, terutama jika ada kemiringan dan penyebaran terkait dengan mean. Tes permutasi adalah pilihan lain, dengan peringatan yang sama seperti untuk tes berbasis peringkat. Tes bootstrap adalah kemungkinan yang baik di sini.
Zimmerman dan Zumbo (1993) menyarankan uji-Welch pada peringkat yang menurut mereka berkinerja lebih baik daripada Wilcoxon-Mann-Whitney dalam kasus di mana varians tidak sama.[1]
tes peringkat adalah default yang wajar di sini jika Anda mengharapkan ketidaknormalan (sekali lagi dengan peringatan di atas). Jika Anda memiliki informasi eksternal tentang bentuk atau varian, Anda dapat mempertimbangkan GLM. Jika Anda mengharapkan hal-hal tidak terlalu jauh dari normal, uji-t mungkin baik-baik saja.
Karena masalah dengan mendapatkan tingkat signifikansi yang sesuai, baik tes permutasi atau tes peringkat mungkin tidak cocok, dan pada ukuran terkecil, uji-t mungkin merupakan pilihan terbaik (ada beberapa kemungkinan untuk sedikit memperkuatnya). Namun, ada argumen yang baik untuk menggunakan tingkat kesalahan tipe I yang lebih tinggi dengan sampel kecil (jika tidak Anda membiarkan tingkat kesalahan tipe II mengembang sambil menahan tingkat kesalahan tipe I konstan). Juga lihat de Winter (2013) .[2]
Saran harus diubah sedikit ketika distribusi keduanya sangat miring dan sangat terpisah, seperti item skala Likert di mana sebagian besar pengamatan berada di salah satu kategori akhir. Maka Wilcoxon-Mann-Whitney belum tentu merupakan pilihan yang lebih baik daripada uji-t.
Simulasi dapat membantu memandu pilihan lebih lanjut ketika Anda memiliki beberapa informasi tentang keadaan yang mungkin terjadi.
Ini adalah sulit untuk memeriksa normalitas dalam satu set data kecil, dan sampai batas tertentu itu merupakan masalah penting, tapi saya pikir ada masalah lain yang penting yang perlu kita pertimbangkan. Masalah mendasarnya adalah bahwa mencoba menilai normalitas sebagai dasar pemilihan antar tes berdampak buruk pada properti tes yang Anda pilih.
Berikut adalah contoh referensi (ada yang lain) yang tegas (Fay dan Proschan, 2010 ):[3]
Mereka sama-sama tegas tentang tidak menguji kesetaraan varians.
Atau bahkan dalam sampel besar - normalitas asimtotik pembilang tidak menyiratkan bahwa statistik-t akan memiliki distribusi-t. Namun, itu mungkin tidak terlalu penting, karena Anda seharusnya masih memiliki normalitas asimptotik (mis. CLT untuk pembilang, dan teorema Slutsky menyarankan bahwa pada akhirnya statistik-t akan mulai terlihat normal, jika kondisi untuk keduanya berlaku.)
Itu sebenarnya saran yang saya sebutkan referensi (atau tautan ke menyebutkan) berikan.
Keduanya adalah argumen yang baik, terutama ketika didukung dengan fakta bahwa uji-t cukup kuat terhadap penyimpangan moderat dari normalitas. (Namun, orang harus ingat bahwa "penyimpangan moderat" adalah ungkapan yang rumit; penyimpangan jenis tertentu dari normalitas dapat memengaruhi kinerja daya uji-t cukup sedikit meskipun penyimpangan tersebut secara visual sangat kecil - penyimpangan). Tes kurang kuat untuk beberapa penyimpangan dari yang lain. Kita harus mengingat ini setiap kali kita membahas penyimpangan kecil dari normalitas.)
Berhati-hatilah, frasa "menyarankan variabel itu normal". Menjadi cukup konsisten dengan normalitas tidak sama dengan normalitas. Kita sering dapat menolak normalitas aktual tanpa perlu melihat data - misalnya, jika data tidak dapat negatif, distribusi tidak bisa normal. Untungnya, yang penting lebih dekat dengan apa yang sebenarnya kita miliki dari penelitian sebelumnya atau alasan tentang bagaimana data disusun, yaitu penyimpangan dari normalitas harus kecil.
Nah, itu sesuatu yang bisa kita nilai dampaknya dengan mudah (seperti melalui simulasi, seperti yang saya sebutkan sebelumnya). Dari apa yang saya lihat, kemiringan tampaknya lebih penting daripada ekor yang berat (tetapi di sisi lain saya telah melihat beberapa klaim yang berlawanan - meskipun saya tidak tahu apa yang mendasari itu).
Tetapi kita dapat memeriksa kekuatan sampel kecil dengan mudah! Cukup mudah untuk disimulasikan untuk mendapatkan kurva daya seperti di sini .[2]
(Sekali lagi, juga lihat de Winter (2013) ).
Setelah melakukan simulasi seperti itu dalam berbagai keadaan, baik untuk kasus dua sampel dan satu sampel / pasangan berpasangan, efisiensi sampel kecil pada normal dalam kedua kasus tampaknya sedikit lebih rendah daripada efisiensi asimptotik, tetapi efisiensi dari peringkat yang ditandatangani dan tes Wilcoxon-Mann-Whitney masih sangat tinggi bahkan pada ukuran sampel yang sangat kecil.
Setidaknya itu jika tes dilakukan pada tingkat signifikansi aktual yang sama; Anda tidak dapat melakukan tes 5% dengan sampel yang sangat kecil (dan setidaknya tidak tanpa tes acak misalnya), tetapi jika Anda siap untuk mungkin melakukan (katakanlah) tes 5,5% atau 3,2% sebagai gantinya, maka tes peringkat bertahan sangat baik dibandingkan dengan uji-t pada tingkat signifikansi itu.
Ada alternatif lain: buat asumsi parametrik yang berbeda. Misalnya, jika ada data miring, seseorang mungkin, misalnya, dalam beberapa situasi cukup mempertimbangkan distribusi gamma, atau keluarga miring lainnya sebagai perkiraan yang lebih baik - dalam sampel yang cukup besar, kami mungkin hanya menggunakan GLM, tetapi dalam sampel yang sangat kecil mungkin perlu untuk melihat tes sampel kecil - dalam banyak kasus simulasi dapat bermanfaat.
Alternatif 2: menguatkan uji-t (tetapi berhati-hati dengan pilihan prosedur yang kuat agar tidak terlalu mendiskreditkan hasil distribusi statistik uji) - ini memiliki beberapa keunggulan dibandingkan prosedur nonparametrik sampel yang sangat kecil seperti kemampuan untuk mempertimbangkan tes dengan tingkat kesalahan tipe I rendah.
Di sini saya berpikir sepanjang garis menggunakan katakanlah M-estimator lokasi (dan estimator terkait skala) dalam t-statistik untuk dengan lancar menguatkan terhadap penyimpangan dari normalitas. Sesuatu yang mirip dengan Welch, seperti:
Anda bisa, misalnya, menggunakan simulasi pada normal untuk mendapatkan nilai-p (jika ukuran sampel sangat kecil, saya akan menyarankan agar over bootstrap - jika ukuran sampel tidak begitu kecil, bootstrap yang diimplementasikan dengan hati-hati mungkin cukup baik , tapi kemudian kita mungkin kembali ke Wilcoxon-Mann-Whitney). Ada faktor penskalaan serta penyesuaian untuk mendapatkan apa yang saya bayangkan akan menjadi pendekatan-t yang masuk akal. Ini berarti kita harus mendapatkan jenis properti yang kita cari sangat dekat dengan normal, dan harus memiliki ketahanan yang wajar di sekitar normal. Ada sejumlah masalah yang muncul yang berada di luar ruang lingkup pertanyaan ini, tetapi saya pikir dalam sampel yang sangat kecil manfaatnya harus lebih besar daripada biaya dan upaya ekstra yang diperlukan.
[Aku sudah lama tidak membaca literatur tentang hal ini, jadi aku tidak punya referensi yang cocok untuk ditawarkan pada skor itu.]
Tentu saja jika Anda tidak mengharapkan distribusi agak seperti normal, tetapi agak mirip dengan distribusi lain, Anda bisa melakukan penguatan yang sesuai dari uji parametrik yang berbeda.
Memang. Saya berasumsi maksud Anda tes peringkat yang ditandatangani *. Dalam hal menggunakannya pada data berpasangan, jika Anda siap untuk berasumsi bahwa dua distribusi adalah bentuk yang sama terlepas dari pergeseran lokasi Anda aman, karena perbedaannya kemudian harus simetris. Sebenarnya, kita bahkan tidak membutuhkan sebanyak itu; agar tes bekerja, Anda perlu simetri di bawah nol; itu tidak diperlukan di bawah alternatif (misalnya mempertimbangkan situasi berpasangan dengan distribusi kontinu miring kanan berbentuk identik pada setengah garis positif, di mana skala berbeda di bawah alternatif tetapi tidak di bawah nol; tes peringkat yang ditandatangani harus bekerja pada dasarnya seperti yang diharapkan pada kasus itu). Interpretasi tes lebih mudah jika alternatifnya adalah pergeseran lokasi.
* (Nama Wilcoxon dikaitkan dengan tes peringkat satu dan dua sampel - peringkat peringkat dan peringkat bertanda; dengan uji U mereka, Mann dan Whitney menggeneralisasi situasi yang dipelajari oleh Wilcoxon, dan memperkenalkan ide-ide baru yang penting untuk mengevaluasi distribusi nol, tetapi prioritas antara dua set penulis di Wilcoxon-Mann-Whitney jelas Wilcoxon - jadi setidaknya jika kita hanya mempertimbangkan Wilcoxon vs Mann & Whitney, Wilcoxon masuk pertama dalam buku saya. Namun, tampaknya Hukum Stigler mengalahkan saya lagi, dan Wilcoxon mungkin harus berbagi sebagian dari prioritas itu dengan sejumlah kontributor sebelumnya, dan (selain Mann dan Whitney) harus berbagi kredit dengan beberapa penemu tes setara. [4] [5])
Referensi
[1]: Zimmerman DW dan Zumbo BN, (1993),
Transformasi pangkat dan kekuatan uji-t Student dan uji t Welch untuk populasi yang tidak normal,
Canadian Journal Experimental Psychology, 47 : 523-39.
[2]: JCF de Winter (2013),
"Menggunakan uji-t Student dengan ukuran sampel yang sangat kecil,"
Penilaian Praktis, Penelitian dan Evaluasi , 18 : 10, Agustus, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10
[3]: Michael P. Fay dan Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney atau uji-t? Pada asumsi untuk pengujian hipotesis dan beberapa interpretasi aturan keputusan,"
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]: Berry, KJ, Mielke, PW dan Johnston, JE (2012),
"The Two-sample Test-sum-Test: Pengembangan Awal,"
Jurnal Elektronik untuk Sejarah Probabilitas dan Statistik , Vol.8, Desember
pdf
[5]: Kruskal, WH (1957),
"Catatan sejarah tentang uji dua sampel Wilcoxon tidak berpasangan,"
Jurnal Asosiasi Statistik Amerika , 52 , 356-360.
sumber
Menyatukan semua ini, beberapa saran yang disarankan adalah sebagai berikut:
Ada dua jenis asumsi metode statistik frequentist yang sering dipertimbangkan. Yang pertama adalah asumsi yang diperlukan untuk membuat metode mempertahankan kesalahan tipe I. Yang kedua berkaitan dengan menjaga kesalahan tipe II (optimalitas; sensitivitas). Saya percaya bahwa cara terbaik untuk mengekspos asumsi yang diperlukan untuk yang kedua adalah dengan menanamkan tes nonparametrik dalam model semiparametrik seperti yang dilakukan di atas. Koneksi aktual antara keduanya berasal dari tes skor efisien Rao yang timbul dari model semiparametrik. Pembilang dari tes skor dari model odds proporsional untuk kasus dua sampel persis statistik peringkat-jumlah.
sumber
Rand Wilcox dalam publikasi dan buku-bukunya membuat beberapa poin yang sangat penting, banyak di antaranya didaftar oleh Frank Harrell dan Glen_b dalam posting sebelumnya.
Beberapa saran utama adalah:
Dua referensi yang baik adalah Wilcox ( 2010 ) dan Wilcox ( 2012 ).
sumber
Bradley, dalam karyanya Distribution-Free Statistical Tests (1968, hlm. 17-24) , membawa tiga belas kontras antara apa yang ia sebut tes "klasik" dan "bebas distribusi". Perhatikan bahwa Bradley membedakan antara "non-parametrik" dan "bebas distribusi," tetapi untuk keperluan pertanyaan Anda, perbedaan ini tidak relevan. Termasuk dalam ketiga belas unsur tersebut yang terkait tidak hanya dengan derivatinos dari tes, tetapi penerapannya. Ini termasuk:
sumber
Mulai menjawab pertanyaan yang sangat menarik ini.
Untuk data yang tidak berpasangan:
Kinerja lima uji lokasi dua sampel untuk distribusi miring dengan varian yang tidak sama oleh Morten W. Fagerland, Leiv Sandvik (di belakang paywall) melakukan serangkaian percobaan dengan 5 tes berbeda (uji-t, Welch U, Yuen-Welch, Wilcoxon-Mann) -Whitney dan Brunner-Munzel) untuk berbagai kombinasi ukuran sampel, rasio sampel, penyimpangan dari normalitas, dan sebagainya. Makalah ini akhirnya menyarankan Welch U secara umum,
Tetapi lampiran A dari makalah ini mencantumkan hasil untuk setiap kombinasi ukuran sampel. Dan untuk ukuran sampel kecil (m = 10 n = 10 atau 25) hasilnya lebih membingungkan (seperti yang diharapkan) - menurut perkiraan saya atas hasil (bukan penulis) Welch U, Brunner-Munzel tampaknya berkinerja sama baiknya, dan uji-t juga baik dalam m = 10 dan n = 10 kasus.
Inilah yang saya tahu sejauh ini.
Untuk solusi "cepat", saya biasa mengutip Peningkatan Kesadaran Dokter tentang Dampak Statistik pada Hasil Penelitian: Kekuatan Komparatif dari uji-t dan Uji Wilcoxon Rank-Sum dalam Sampel Kecil Penelitian Terapan oleh Patrick D Bridge dan Shlomo S Sawilowsky (juga di belakang paywall) dan langsung ke Wilcoxon tidak peduli ukuran sampel, tetapi peringatan emptor , misalnya Haruskah kita selalu memilih tes nonparametrik ketika membandingkan dua distribusi yang tampaknya tidak normal? oleh Eva Skovlund dan Grete U. Fensta .
Saya belum menemukan hasil serupa untuk data berpasangan
sumber
Mempertimbangkan tautan berikut:
Apakah pengujian normal 'pada dasarnya tidak berguna'?
Perlu dan cara terbaik untuk menentukan normalitas data
Untuk mempermudah, karena tes non-parametrik cukup baik bahkan untuk data normal, mengapa tidak menggunakannya selalu untuk sampel kecil.
sumber
Mensimulasikan perbedaan cara populasi Gamma
Membandingkan uji-t dan uji Mann Whitney
Ringkasan hasil
Eksperimen 1) Berarti berbeda, varian yang sama
Sumber:
Distribusi populasi
Hasil simulasi
Diskusi
Diskusi : ketika varians dari dua populasi memang sama, uji Mann Whitney sangat mengungguli uji-t dalam hal daya untuk ukuran sampel kecil, tetapi memiliki tingkat kesalahan Tipe 1 yang lebih tinggi.
Eksperimen 2: Variasi berbeda, rata-rata sama
Hasil Diskusi dari simulasi menunjukkan bahwa uji-t sangat kuat untuk varian yang berbeda, dan kesalahan tipe I mendekati 5% untuk semua ukuran sampel. Seperti yang diharapkan, tes Mann Whitney berkinerja buruk dalam hal ini karena tidak menguji untuk perbedaan dalam cara tetapi untuk perbedaan dalam distribusi
sumber