Beberapa dari Anda mungkin telah membaca makalah yang bagus ini:
O'Hara RB, Kotze DJ (2010) Jangan log-transform data hitungan. Metode dalam Ekologi dan Evolusi 1: 118-122. klick .
Saat ini saya sedang membandingkan model binomial negatif dengan model gaussian pada data yang diubah. Tidak seperti O'Hara RB, Kotze DJ (2010) Saya melihat kasus khusus ukuran sampel rendah dan dalam konteks pengujian hipotesis.
Simulasi yang digunakan untuk menyelidiki perbedaan antara keduanya.
Simulasi Kesalahan Tipe I
Semua kompuasi telah dilakukan dalam R.
Saya mensimulasikan data dari desain faktorial dengan satu kelompok kontrol ( ) dan 5 kelompok perlakuan ( ). Kelimpahan diambil dari distribusi binomial negatif dengan parameter dispersi tetap (θ = 3,91). Kelimpahan sama di semua perawatan.
Untuk simulasi saya memvariasikan ukuran sampel (3, 6, 9, 12) dan kelimpahan (2, 4, 8, ..., 1024). 100 dataset dihasilkan dan dianalisis menggunakan GLM binomial negatif ( MASS:::glm.nb()
), quasipoisson GLM ( glm(..., family = 'quasipoisson'
) dan data gaussian GLM + log-transformed data ( lm(...)
).
Saya membandingkan model dengan model nol menggunakan uji Likelihood-Ratio ( lmtest:::lrtest()
) (GLM gaussian dan neg. Bin GLM) serta uji-F (Gaussian GLM dan quasipoisson GLM) ( anova(...test = 'F')
).
Jika perlu saya bisa memberikan kode R, tetapi lihat juga di sini untuk pertanyaan terkait saya.
Hasil
Untuk ukuran sampel yang kecil, uji LR (hijau - neg.bin.; Merah - gaussian) menyebabkan peningkatan kesalahan Tipe-I. Uji-F (biru - gaussian, ungu - quasi-poisson) tampaknya berfungsi bahkan untuk ukuran sampel yang kecil.
Tes LR memberikan kesalahan Tipe I yang serupa (meningkat) untuk LM dan GLM.
Menariknya quasi-poisson bekerja cukup baik (tetapi juga dengan F-Test).
Seperti yang diharapkan, jika ukuran sampel meningkat LR-Test berkinerja baik (asymptotically correct).
Untuk ukuran sampel kecil ada beberapa masalah konvergensi (tidak menunjukkan) untuk GLM, namun hanya pada kelimpahan rendah, sehingga sumber kesalahan dapat diabaikan.
Pertanyaan
Perhatikan bahwa data dihasilkan dari neg.bin. model - jadi saya akan berharap bahwa GLM berkinerja terbaik. Namun dalam hal ini model linier pada kelimpahan yang ditransformasikan bekerja lebih baik. Sama untuk quasi-poisson (F-Test). Saya menduga ini karena F-test lebih baik dengan ukuran sampel yang kecil - apakah ini benar dan mengapa?
LR-Test tidak bekerja dengan baik karena asimptotik. Apakah kemungkinan untuk peningkatan?
Apakah ada tes lain untuk GLM yang mungkin berkinerja lebih baik? Bagaimana saya bisa meningkatkan pengujian untuk GLM?
Apa jenis model untuk menghitung data dengan ukuran sampel kecil yang harus digunakan?
Edit:
Menariknya, LR-Test untuk GLM binomial bekerja dengan baik:
Di sini saya mengambil data dari distribusi binomial, setup mirip seperti di atas.
Merah: model gaussian (LR-Test + transformasi arcsin), Ochre: Binomial GLM (LR-Test), Hijau: model gaussian (F-Test + transformasi arcsin), Biru: GLM Quasibinonial (F-test), Ungu: Non- parametrik.
Di sini hanya model gaussian (LR-Test + transformasi arcsin) yang menunjukkan peningkatan kesalahan Tipe I, sedangkan GLM (LR-Test) cukup baik dalam hal kesalahan Tipe I. Jadi sepertinya ada juga perbedaan antara distribusi (atau mungkin glm vs glm.nb?).
sumber