Ini bukan pertanyaan statistik semata - saya bisa membaca semua buku teks tentang asumsi ANOVA - Saya mencoba mencari tahu bagaimana analis yang sebenarnya menangani data yang tidak memenuhi asumsi. Saya telah melalui banyak pertanyaan di situs ini untuk mencari jawaban dan saya terus mencari posting tentang kapan tidak menggunakan ANOVA (dalam konteks matematika abstrak yang ideal) atau bagaimana melakukan beberapa hal yang saya jelaskan di bawah ini dalam R. I Saya benar-benar mencoba mencari tahu keputusan apa yang dibuat orang dan mengapa.
Saya sedang menjalankan analisis pada data kelompok dari pohon (pohon aktual, bukan pohon statistik) dalam empat kelompok. Saya punya data untuk sekitar 35 atribut untuk setiap pohon dan saya akan melalui setiap atribut untuk menentukan apakah kelompok berbeda secara signifikan pada atribut itu. Namun, dalam beberapa kasus, asumsi ANOVA sedikit dilanggar karena varians tidak sama (menurut tes Levene, menggunakan alpha = 0,05).
Seperti yang saya lihat, opsi saya adalah: 1. Kekuatan mengubah data dan melihat apakah itu mengubah p-val Levene. 2. Gunakan tes non-parametrik seperti Wilcoxon (jika demikian, yang mana?). 3. Apakah ada semacam koreksi pada hasil ANOVA, seperti Bonferroni (saya tidak benar-benar yakin jika sesuatu seperti ini ada?). Saya sudah mencoba dua opsi pertama dan mendapatkan hasil yang sedikit berbeda - dalam beberapa kasus satu pendekatan signifikan dan yang lainnya tidak. Saya takut jatuh ke dalam jebakan p-value, dan saya mencari saran yang akan membantu saya membenarkan pendekatan mana yang digunakan.
Saya juga membaca beberapa hal yang menunjukkan bahwa heteroskedastisitas tidak terlalu menjadi masalah bagi ANOVA kecuali jika cara dan variansnya berkorelasi (yaitu keduanya meningkat bersamaan), jadi mungkin saya bisa mengabaikan hasil Levene kecuali jika saya melihat pola seperti itu? Jika demikian, apakah ada tes untuk ini?
Akhirnya, saya harus menambahkan bahwa saya sedang melakukan analisis ini untuk publikasi dalam jurnal yang ditelaah sejawat, jadi pendekatan apa pun yang saya pilih harus diterima dengan pengulas. Jadi, jika ada yang bisa memberikan tautan ke contoh serupa yang dipublikasikan, itu akan fantastis.
sumber
R
, mungkin bermanfaat bagi Anda untuk membaca jawaban saya di sini: Alternatif untuk ANOVA satu arah untuk data heteroskedastik , yang membahas beberapa masalah ini.Jawaban:
Itu tergantung pada kebutuhan saya, asumsi mana yang dilanggar, dengan cara apa, seberapa buruk, seberapa banyak yang mempengaruhi kesimpulan, dan kadang-kadang pada ukuran sampel.
1) Jika ukuran sampel sama, Anda tidak memiliki banyak masalah. ANOVA cukup (level-) kuat untuk varian yang berbeda jika n adalah sama.
2) menguji persamaan varians sebelum memutuskan apakah akan menganggapnya direkomendasikan oleh sejumlah studi. Jika Anda benar-benar ragu bahwa mereka akan mendekati persamaan, lebih baik menganggap mereka tidak setara.
Beberapa referensi:
Zimmerman, DW (2004),
"Catatan tentang tes awal kesetaraan varian."
Br. J. Math. Stat. Psikol. , Mei ; 57 (Bg 1): 173-81.
http://www.ncbi.nlm.nih.gov/pubmed/15171807
Henrik memberikan tiga referensi di sini
3) Ini ukuran efek yang penting, daripada apakah sampel Anda cukup besar untuk memberi tahu Anda mereka berbeda secara signifikan. Jadi dalam sampel besar, perbedaan kecil dalam varians akan menunjukkan sangat signifikan oleh uji Levene, tetapi pada dasarnya tidak ada konsekuensi dalam dampaknya. Jika sampel besar dan ukuran efek - rasio varians atau perbedaan varians - cukup dekat dengan apa yang seharusnya, maka nilai-p tidak ada konsekuensinya. (Di sisi lain, dalam sampel kecil, nilai-p besar yang bagus sedikit tidak nyaman. Either way tes tidak menjawab pertanyaan yang tepat.)
Perhatikan bahwa ada penyesuaian tipe Welch-Satterthwaite untuk estimasi kesalahan standar residual dan df di ANOVA, seperti halnya pada uji-t dua sampel.
Jika Anda tertarik dengan alternatif pergeseran lokasi, Anda masih mengasumsikan sebaran konstan. Jika Anda tertarik pada alternatif yang lebih umum maka Anda mungkin mempertimbangkannya; sampel-k yang setara dengan uji Wilcoxon adalah tes Kruskal-Wallis.
Lihat saran saya di atas untuk mempertimbangkan Welch-Satterthwaite, itu semacam 'koreksi'.
(Atau Anda dapat menggunakan ANOVA Anda sebagai serangkaian uji-t Welch tipe berpasangan, dalam hal ini Anda mungkin ingin melihat Bonferroni atau yang serupa)
Anda harus mengutip sesuatu seperti itu. Setelah melihat sejumlah situasi dengan uji-t, saya tidak berpikir itu benar, jadi saya ingin melihat mengapa mereka berpikir demikian; mungkin situasinya dibatasi dalam beberapa cara. Akan lebih baik jika itu terjadi karena model linier yang cukup umum dapat membantu dengan situasi itu.
Sangat sulit untuk memprediksi apa yang mungkin memuaskan pengulas Anda. Sebagian besar dari kita tidak bekerja dengan pohon.
sumber
Sebenarnya tidak terlalu sulit untuk menangani heteroskedastisitas dalam model linier sederhana (misalnya, model mirip ANOVA satu atau dua arah).
Kuatnya ANOVA
Pertama, seperti yang diketahui orang lain, ANOVA sangat kuat untuk penyimpangan dari asumsi varians yang sama, terutama jika Anda memiliki data yang seimbang (jumlah pengamatan yang sama di setiap kelompok). Tes pendahuluan pada varian yang sama, selain itu, tidak (meskipun tes Levene jauh lebih baik daripada uji- F yang biasa diajarkan dalam buku teks). Seperti yang dikatakan George Box:
Meskipun ANOVA sangat kuat, karena sangat mudah untuk memperhitungkan heteroskedastisitas, hanya ada sedikit alasan untuk tidak melakukannya.
Tes non-parametrik
Jika Anda benar-benar tertarik pada perbedaan dalam cara , tes non-parametrik (misalnya, tes Kruskal-Wallis) benar-benar tidak ada gunanya. Mereka menguji perbedaan antar kelompok, tetapi mereka tidak menguji perbedaan rata-rata secara umum.
Contoh data
Mari kita buat contoh sederhana dari data di mana orang ingin menggunakan ANOVA, tetapi di mana asumsi varian yang sama tidak benar.
Kami memiliki tiga kelompok, dengan (jelas) perbedaan dalam cara dan varians:
ANOVA
Tidak mengherankan, ANOVA yang normal menangani ini dengan cukup baik:
Jadi, kelompok mana yang berbeda? Mari kita gunakan metode HSD Tukey:
Dengan nilai- P dari 0,26, kami tidak dapat mengklaim perbedaan (dalam arti) antara kelompok A dan B. Dan bahkan jika kami tidak memperhitungkan bahwa kami melakukan tiga perbandingan, kami tidak akan mendapatkan P yang rendah - nilai ( P = 0,12):
Mengapa demikian? Berdasarkan plot, ada adalah perbedaan cukup jelas. Alasannya adalah bahwa ANOVA mengasumsikan varians yang sama di setiap kelompok, dan memperkirakan standar deviasi 2,77 (ditampilkan sebagai 'Kesalahan standar residual' di
summary.lm
tabel, atau Anda bisa mendapatkannya dengan mengambil akar kuadrat dari kuadrat residual rata-rata (7,66) dalam tabel ANOVA).Tetapi kelompok A memiliki (populasi) standar deviasi 1, dan perkiraan terlalu tinggi dari 2,77 ini membuat (tidak perlu) sulit untuk mendapatkan hasil yang signifikan secara statistik, yaitu, kami memiliki tes dengan (terlalu) daya rendah.
'ANOVA' dengan varian yang tidak sama
Jadi, bagaimana cara mencocokkan model yang tepat, model yang memperhitungkan perbedaan varian? Mudah di R:
Jadi, jika Anda ingin menjalankan 'ANOVA' satu arah yang sederhana dalam R tanpa mengasumsikan varian yang sama, gunakan fungsi ini. Ini pada dasarnya merupakan perpanjangan dari (Welch)
t.test()
untuk dua sampel dengan varian yang tidak sama.Sayangnya, itu tidak bekerja dengan
TukeyHSD()
(atau sebagian besar fungsi lain yang Anda gunakan padaaov
objek), sehingga bahkan jika kami cukup yakin ada yang perbedaan kelompok, kita tidak tahu di mana mereka berada.Pemodelan heteroskedastisitas
Solusi terbaik adalah memodelkan varians secara eksplisit. Dan itu sangat mudah di R:
Perbedaan masih signifikan, tentu saja. Tetapi sekarang perbedaan antara kelompok A dan B juga menjadi signifikan secara statis ( P = 0,025):
Jadi menggunakan model yang tepat membantu! Juga catat bahwa kita mendapatkan perkiraan standar deviasi (relatif). Estimasi standar deviasi untuk grup A dapat ditemukan di bagian bawah, hasil, 1,02. Estimasi standar deviasi grup B adalah 2,44 kali ini, atau 2,48, dan estimasi standar deviasi grup C adalah 3,97 (tipe
intervals(mod.gls)
untuk mendapatkan interval kepercayaan untuk standar deviasi relatif grup B dan C).Memperbaiki untuk beberapa pengujian
Namun, kami harus benar-benar memperbaiki beberapa pengujian. Ini mudah menggunakan perpustakaan 'multcomp'. Sayangnya, itu tidak memiliki dukungan bawaan untuk objek 'gls', jadi kita harus menambahkan beberapa fungsi pembantu terlebih dahulu:
Sekarang mari kita mulai bekerja:
Masih ada perbedaan yang signifikan secara statistik antara kelompok A dan kelompok B! ☺ Dan kita bahkan bisa mendapatkan interval kepercayaan (simultan) untuk perbedaan antara cara kelompok:
Dengan menggunakan kira-kira (di sini tepatnya) model yang benar, kami dapat mempercayai hasil ini!
Perhatikan bahwa untuk contoh sederhana ini, data untuk grup C tidak benar-benar menambahkan informasi tentang perbedaan antara grup A dan B, karena kami memodelkan cara terpisah dan standar deviasi untuk masing-masing grup. Kami bisa saja menggunakan uji- t berpasangan yang dikoreksi untuk beberapa perbandingan:
Namun, untuk model yang lebih rumit, misalnya, model dua arah, atau model linier dengan banyak prediktor, menggunakan GLS (generalised least square) dan secara eksplisit memodelkan fungsi varians adalah solusi terbaik.
Dan fungsi varians tidak perlu hanya menjadi konstanta yang berbeda di setiap kelompok; kita bisa memaksakan struktur padanya. Sebagai contoh, kita dapat memodelkan varians sebagai kekuatan dari rata - rata setiap kelompok (dan dengan demikian hanya perlu memperkirakan satu parameter, eksponen), atau mungkin sebagai logaritma dari salah satu prediktor dalam model. Semua ini sangat mudah dengan GLS (dan
gls()
dalam R).Kuadrat terkecil yang digeneralisasikan adalah IMHO teknik pemodelan statistik yang sangat jarang digunakan. Alih-alih mengkhawatirkan penyimpangan dari asumsi model , modelkan penyimpangan itu!
sumber
Mungkin memang ada beberapa transformasi data Anda yang menghasilkan distribusi normal yang dapat diterima. Tentu saja, sekarang kesimpulan Anda adalah tentang data yang diubah, bukan data yang tidak berubah.
Dengan asumsi Anda berbicara tentang ANOVA satu arah, tes Kruskal-Wallis adalah analog nonparametrik yang sesuai dengan ANOVA satu arah. Tes Dunn (bukan tes jumlah rangking varietas kebun) mungkin merupakan tes nonparametrik paling umum yang sesuai untuk beberapa perbandingan post-hoc , meskipun ada tes lain seperti tes Conover-Iman (lebih kuat dari tes Dunn setelah penolakan. dari kruskal-Wallis), dan uji Dwass-Steele-Crichtlow-Fligner.
Beberapa prosedur perbandingan (apakah variasi tingkat kesalahan berdasarkan keluarga atau variasi tingkat penemuan palsu ) tidak benar-benar berhubungan langsung dengan asumsi pengujian spesifik Anda (mis., Normalitas data), melainkan berkaitan dengan arti dariα (kesediaan untuk membuat penolakan palsu terhadap hipotesis nol) mengingat bahwa Anda melakukan beberapa tes.
ANOVA didasarkan pada rasio dalam kelompok dan antara varian kelompok. Saya tidak sepenuhnya yakin apa yang Anda maksudkan dengan heteroskedastisitas dalam konteks ini, tetapi jika Anda memaksudkan perbedaan yang tidak sama antara kelompok, yang menurut saya akan secara mendasar mematahkan logika hipotesis nol tes ini.
Kueri Google Cendekia sederhana untuk "tes Dunn" bersama dengan istilah umum dari disiplin Anda akan menghasilkan banyak contoh yang dipublikasikan.
Referensi
Conover, WJ dan Iman, RL (1979). Pada prosedur perbandingan ganda . Laporan Teknis LA-7677-MS, Laboratorium Ilmiah Los Alamos.
Crichtlow, DE dan Fligner, MA (1991). Pada beberapa perbandingan bebas distribusi dalam analisis varian satu arah .Komunikasi dalam Statistik — Teori dan Metode , 20 (1): 127.
Dunn, OJ (1964). Beberapa perbandingan menggunakan jumlah peringkat . Technometrics , 6 (3): 241–252.
sumber
Kedengarannya bagi saya seolah-olah Anda sedang melakukan gerakan kaki dan mencoba yang terbaik tetapi khawatir upaya Anda tidak akan cukup baik untuk mendapatkan kertas Anda melewati pengulas. Sangat banyak masalah dunia nyata. Saya pikir semua peneliti berjuang dengan analisis yang tampaknya menjadi batas atau bahkan terus terang melanggar asumsi dari waktu ke waktu. Lagipula ada jutaan artikel yang mengevaluasi misalnya efek perawatan pada 3 kelompok kecil tikus dengan sekitar 6 - 7 tikus di masing-masing kelompok. Bagaimana mengetahui apakah asumsi Anova puas dengan tulisan seperti itu!
Saya telah memeriksa sejumlah besar makalah terutama di bidang patofisiologi kardiovaskular dan sebenarnya tidak pernah merasa 100% yakin apakah saya dapat mempercayai data atau tidak dalam artikel yang saya baca. Tetapi bagi saya sebagai reviewer, saya sebenarnya cenderung berpikir bahwa masalah dapat muncul pada begitu banyak level dalam sains sehingga mungkin ada sedikit gunanya menggali terlalu dalam ke dalam statistik - setelah semua, seluruh dataset dapat dibuat dan saya tidak akan pernah dalam sejuta tahun bisa tahu. Karenanya, akan selalu ada unsur kepercayaan dalam bidang pekerjaan ini, yang tidak boleh disalahgunakan oleh para peneliti.
Saran dunia nyata yang akan saya berikan adalah bahwa Anda harus memikirkan semuanya dengan seksama sebelum Anda mengirim dan memastikan Anda akan mampu menjawab dengan jujur setiap pertanyaan yang diajukan oleh pengulas. Selama Anda telah melakukan yang terbaik, niat Anda jujur dan Anda tidur nyenyak di malam hari saya pikir Anda harus baik-baik saja.
sumber