Bagaimana saya menguji jika dua distribusi (tidak normal) berbeda?

13

Saya telah membaca tentang uji-t Student tetapi tampaknya berfungsi ketika kita dapat berasumsi bahwa distribusi asli terdistribusi secara normal. Dalam kasus saya, mereka pasti tidak.

Juga, jika saya memiliki 13 distribusi, apakah saya perlu melakukan 13^2tes?

Berikut adalah contoh dari dua distrbutions.  Ada 13 distribusi.

Martin Velez
sumber
@ Glen_b Data tidak diskrit. Nilai berkisar dari -2 hingga 2.
Martin Velez

Jawaban:

19

Ada beberapa pengertian di mana "itu tergantung".

(Satu kekhawatiran potensial adalah bahwa sepertinya data asli mungkin terpisah; yang harus diklarifikasi.)

  1. tergantung pada ukuran sampel, ketidaknormalan mungkin tidak menjadi masalah besar seperti semua untuk uji-t. Untuk sampel besar setidaknya umumnya tingkat ketahanannya bagus - Tingkat kesalahan tipe I seharusnya tidak terlalu buruk jika tidak jauh dari normal. Kekuasaan mungkin lebih merupakan masalah dengan ekor yang berat.

  2. Jika Anda mencari segala jenis perbedaan dalam distribusi, uji goodness of fit dua sampel, seperti tes dua sampel Kolmogorov-Smirnov mungkin cocok (meskipun tes lain mungkin dilakukan sebagai gantinya).

  3. Jika Anda mencari perbedaan tipe lokasi di keluarga lokasi, atau perbedaan skala dalam keluarga skala, atau bahkan hanya hubungan tipe P (X> Y)> P (Y> X), Wilcoxon-Mann-Whitney dua uji sampel mungkin cocok.

  4. Anda dapat mempertimbangkan pengujian ulang tes seperti permutasi atau tes bootstrap, jika Anda dapat menemukan statistik yang cocok untuk jenis perbedaan yang ingin Anda sadari.

Juga, jika saya memiliki 13 distribusi, apakah saya perlu melakukan 13 ^ 2 tes?

Ya tidak .

Pertama, Anda tidak perlu menguji vs dan vs (perbandingan kedua redundan).SEBUAHB BSEBUAH

Kedua, Anda tidak perlu tes vs .SEBUAHSEBUAH

Kedua hal itu memotong perbandingan berpasangan turun dari 169 menjadi 78.

Ketiga, akan jauh lebih biasa (tetapi tidak wajib) untuk menguji secara kolektif untuk setiap perbedaan, dan kemudian, mungkin untuk melihat perbedaan berpasangan dalam tes berpasangan post-hoc jika nol pertama ditolak.

Misalnya, sebagai pengganti Wilcoxon-Mann-Whitney seperti pada butir 3. di atas, orang mungkin melakukan tes Kruskal-Wallis, yang peka terhadap perbedaan lokasi di antara kelompok.

Ada juga versi k-sampel dari uji Kolmogorov-Smirnov , dan tes serupa dari beberapa sampel uji kecocokan dua sampel lainnya mungkin ada, atau dibangun.

Ada juga versi k-sampel tes resampling, dan uji-t (yaitu ANOVA, yang mungkin oke jika ukuran sampel cukup besar).


Akan sangat menyenangkan untuk mendapatkan lebih banyak informasi tentang apa yang sedang kita hadapi dan perbedaan apa yang paling Anda minati; atau gagal itu, untuk melihat plot QQ dari beberapa sampel.

Glen_b -Reinstate Monica
sumber
(+1) Hanya ingin menambahkan bahwa tes WMW mengandung interpretasi sebagai tes untuk dominasi stokastik jika Anda siap untuk berasumsi bahwa populasi CDF tidak bersilangan. Orang IMO akan lebih sering menginginkan hal itu jika mereka mengetahuinya.
Scortchi
1
P(X<Y)12
@ Glen_b Data tidak diskrit. Nilai berkisar dari -2 hingga 2.
Martin Velez
Wow - informasi penting! Apakah mereka terikat pada rentang itu (2.1 tidak mungkin), atau apakah hanya terjadi bahwa nilainya berada dalam kisaran itu?
Glen_b -Reinstate Monica
Mereka terikat pada kisaran itu.
Martin Velez
5

Ya, saya pikir Anda tidak dapat melakukan lebih baik daripada menguji setiap distribusi terhadap yang lain ...

Jika berpikir bahwa pertanyaan Anda terkait dengan yang ini: Perbandingan 2 distribusi

Anda menyarankan Anda untuk menggunakan tes Kolmogorov-Sminorv atau tes Cramér-Von Mises. Keduanya adalah tes kecukupan yang sangat klasik.

Dalam R, fungsi ks.testdalam paket statistik mengimplementasikan yang pertama. Yang kedua dapat ditemukan dalam paket-paket seperti cramer.

Untuk mempelajari dua tes ini: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93von_Mises_criterion

Pop
sumber
2

Anda dapat mencoba analisis varian satu arah Kruskal – Wallis

"Digunakan untuk membandingkan lebih dari dua sampel yang independen, atau tidak terkait"

Pelanggaran normalitas di ANOVA dibahas dalam
Rutherford Introducing Anova and Ancova: A GLM Approach 9.1.2 Pelanggaran normalitas

Baris pertama adalah "Meskipun sebagian besar sumber melaporkan ANOVA ... sebagai kuat sehubungan dengan pelanggaran asumsi normalitas ..."

abbat_VL
sumber
Terima kasih! Tampaknya seseorang harus menjalankan tes ini sebelum melakukan perbandingan berpasangan.
Martin Velez