Saya memiliki data dari 3 kelompok biomassa alga ( , , ) yang berisi ukuran sampel yang tidak sama ( n A = 15 , n B = 13 , n C = 12 ) dan saya ingin membandingkan jika kelompok-kelompok ini berasal dari populasi yang sama .
ANOVA satu arah pasti akan menjadi cara untuk pergi, namun setelah melakukan tes normalitas pada data saya, heteroskedascity tampaknya menjadi masalah utama. Data mentah saya, tanpa transformasi apapun, menghasilkan rasio varians ( ) yang sangat jauh lebih tinggi dari nilai kritis ( F c r i t = 4.16 ) dan karena itu saya tidak dapat melakukan ANOVA satu arah.
Saya juga mencoba transformasi untuk menormalkan data saya. Bahkan setelah percobaan berbagai transformasi (log, akar kuadrat, kuadrat), terendah yang dihasilkan setelah transformasi dengan transformasi log 10 adalah 7,16 , yang masih lebih tinggi dibandingkan dengan F c r i t .
Adakah yang bisa menyarankan saya ke mana harus pergi dari sini? Saya tidak bisa memikirkan metode transformasi lain untuk dinormalkan dengan data. Apakah ada alternatif selain ANOVA satu arah?
PS: data mentah saya di bawah:
A: 0.178 0.195 0.225 0.294 0.315 0.341 0.36 0.363 0.371 0.398 0.407 0.409 0.432
0.494 0.719
B: 0.11 0.111 0.204 0.416 0.417 0.441 0.492 0.965 1.113 1.19 1.233 1.505 1.897
C: 0.106 0.114 0.143 0.435 0.448 0.51 0.576 0.588 0.608 0.64 0.658 0.788 0.958
Jawaban:
Ada sejumlah opsi yang tersedia saat berurusan dengan data heteroskedastik. Sayangnya, tidak satu pun dari mereka dijamin untuk selalu bekerja. Berikut adalah beberapa opsi yang saya kenal:
Pembaruan: Ini adalah demonstrasi di
R
beberapa cara pemasangan model linier (yaitu, ANOVA atau regresi) ketika Anda memiliki heteroskedastisitas / heterogenitas varians.Mari kita mulai dengan melihat data Anda. Untuk kenyamanan, saya minta mereka memuatnya ke dalam dua frame data yang disebut
my.data
(yang terstruktur seperti di atas dengan satu kolom per grup) danstacked.data
(yang memiliki dua kolom:values
dengan angka danind
dengan indikator grup).Kami dapat secara resmi menguji heteroskedastisitas dengan uji Levene:
Benar saja, Anda memiliki heteroskedastisitas. Kami akan memeriksa untuk melihat apa varian dari grup tersebut. Aturan praktisnya adalah bahwa model linear cukup kuat untuk heterogenitas varians selama varians maksimum tidak lebih dari lebih besar dari varians minimum, jadi kami juga akan menemukan rasio itu:4×
Varians Anda berbeda secara substansial, dengan yang terbesar19×
B
, yaitu yang terkecil,. Ini adalah tingkat heteroscedsaticity yang bermasalah.A
parallel.universe.data
B
C
Untuk menunjukkan cara kerjanya:Menggunakan transformasi akar kuadrat menstabilkan data tersebut dengan cukup baik. Anda dapat melihat peningkatan untuk data paralel semesta di sini:
df = 19.445
df = 38
Pendekatan yang lebih umum adalah dengan menggunakan kuadrat terkecil tertimbang . Karena beberapa kelompok (
B
) menyebar lebih banyak, data dalam kelompok tersebut memberikan lebih sedikit informasi tentang lokasi rata-rata daripada data dalam kelompok lain. Kita dapat membiarkan model memasukkan ini dengan memberikan bobot pada setiap titik data. Sistem yang umum adalah menggunakan kebalikan dari varians grup sebagai bobot:4.5089
0.01749
Bobot di sini tidak ekstrem. Berarti kelompok diprediksi sedikit berbeda (
A
: WLS0.36673
, kuat0.35722
;B
: WLS0.77646
, kuat0.70433
;C
: WLS0.50554
, kuat0.51845
), dengan caraB
danC
yang kurang ditarik oleh nilai-nilai ekstrim.Dalam ekonometrik kesalahan standar Huber-White ("sandwich") sangat populer. Seperti koreksi Welch, ini tidak mengharuskan Anda untuk mengetahui varian a-priori dan tidak mengharuskan Anda memperkirakan bobot dari data Anda dan / atau bergantung pada model yang mungkin tidak benar. Di sisi lain, saya tidak tahu bagaimana menggabungkan ini dengan ANOVA, yang berarti bahwa Anda hanya mendapatkannya untuk tes kode boneka individu, yang menurut saya kurang membantu dalam kasus ini, tetapi saya akan tetap menunjukkannya:
vcovHC
R
car
white.adjust
Meskipun uji Kruskal-Wallis jelas merupakan perlindungan terbaik terhadap kesalahan tipe I, tes ini hanya dapat digunakan dengan variabel kategori tunggal (yaitu, tidak ada prediktor berkelanjutan atau desain faktorial) dan memiliki kekuatan paling sedikit dari semua strategi yang dibahas. Pendekatan non-parametrik lain adalah dengan menggunakan regresi logistik ordinal . Ini terlihat aneh bagi banyak orang, tetapi Anda hanya perlu berasumsi bahwa data respons Anda mengandung informasi ordinal yang sah, yang pasti mereka lakukan atau strategi lain di atas tidak valid:
chi2
Discrimination Indexes
0.0363
sumber
car
ada juga opsi untuk mengaturwhite.adjust=T
untuk berurusan dengan heteroskedacity menggunakan White-adjusted heteroscedasticity standard error yang diperbaikilm
's, tetapi juga tampaknya bekerja untukaov
' s (pilihan untukwhite.adjust
yangwhite.adjust=c(FALSE, TRUE, "hc3", "hc0", "hc1", "hc2", "hc4")
- untuk info lebih lanjut lihat?hccm
)