Beberapa dari Anda mungkin telah membaca makalah yang bagus ini:
O'Hara RB, Kotze DJ (2010) Jangan log-transform data hitungan. Metode dalam Ekologi dan Evolusi 1: 118-122. klick .
Dalam bidang penelitian saya (ekotoksikologi), kita sedang berhadapan dengan eksperimen yang direplikasi dengan buruk dan GLM tidak banyak digunakan. Jadi saya melakukan simulasi serupa dengan O'Hara & Kotze (2010), tetapi meniru data ekotoksikologis.
Simulasi daya :
Saya mensimulasikan data dari desain faktorial dengan satu kelompok kontrol ( ) dan 5 kelompok perlakuan ( ). Kelimpahan dalam perawatan 1 identik dengan kontrol ( ), kelimpahan dalam perawatan 2-5 adalah setengah dari kelimpahan dalam kontrol ( ). Untuk simulasi saya memvariasikan ukuran sampel (3,6,9,12) dan kelimpahan pada kelompok kontrol (2, 4, 8, ..., 1024). Kelimpahan diambil dari distribusi binomial negatif dengan parameter dispersi tetap ( ). 100 set data dihasilkan dan dianalisis menggunakan GLM binomial negatif dan data transformasi log Gaussian GLM +.μ 1 - 5 μ 1 = μ c μ 2 - 5 = 0,5 μ c θ = 3,91
Hasilnya seperti yang diharapkan: GLM memiliki kekuatan yang lebih besar, terutama ketika tidak banyak sampel hewan. Kode ada di sini.
Kesalahan Tipe I :
Selanjutnya saya melihat kesalahan tipe satu. Simulasi dilakukan seperti di atas, namun semua grup memiliki kelimpahan yang sama ( ).
Namun, hasilnya tidak seperti yang diharapkan: GLM binomial negatif menunjukkan kesalahan Tipe-I yang lebih besar dibandingkan dengan transformasi LM +. Seperti yang diharapkan, perbedaan menghilang dengan meningkatnya ukuran sampel. Kode ada di sini.
Pertanyaan:
Mengapa ada peningkatan Tipe-I Kesalahan dibandingkan dengan transformasi lm +?
Jika kita memiliki data yang buruk (ukuran sampel kecil, kelimpahan rendah (banyak nol)), haruskah kita menggunakan transformasi lm +? Ukuran sampel yang kecil (2-4 per perawatan) adalah tipikal untuk eksperimen semacam itu dan tidak dapat ditingkatkan dengan mudah.
Meskipun, neg. tempat sampah. GLM dapat dibenarkan karena sesuai untuk data ini, transformasi lm + dapat mencegah kita dari kesalahan tipe 1.
Jawaban:
Ini adalah masalah yang sangat menarik. Saya meninjau kode Anda dan tidak dapat menemukan kesalahan ketik yang jelas.
drop1
Sebagian besar tes untuk model linier tidak mengharuskan Anda untuk menghitung ulang model di bawah hipotesis nol. Ini karena Anda dapat menghitung kemiringan geometrik (skor tes) dan memperkirakan lebar (Wald test) menggunakan estimasi parameter dan estimasi kovarians di bawah hipotesis alternatif saja.
Karena binomial negatif tidak linier, saya pikir Anda harus menyesuaikan model nol.
EDIT:
Saya mengedit kode dan mendapatkan yang berikut:
Kode yang diedit di sini: https://github.com/aomidpanah/simulations/blob/master/negativeBinomialML.r
sumber
drop1()
tidak cocok secara internal dengan model nol ...glm.nb
drop1
logLik
getS3method('logLik', 'negbin'
drop1()
danlrtest()
. Anda benar,drop1.glm
penggunaanglm.fit
yang memberikan penyimpangan yang salah. Tidak menyadari bahwa kita tidak dapat menggunakandrop1()
denganglm.nb()
!Makalah O'Hara dan Kotze (Metode dalam Ekologi dan Evolusi 1: 118-122) bukanlah titik awal yang baik untuk diskusi. Kekhawatiran saya yang paling serius adalah klaim dalam poin 4 ringkasan:
Kode R berikut mengilustrasikan poin:
Atau coba
Skala estimasi parameter sangat penting!
Perhatikan bahwa diagnostik standar berfungsi lebih baik pada skala log (x + c). Pilihan c mungkin tidak terlalu penting; sering 0,5 atau 1,0 masuk akal. Juga merupakan titik awal yang lebih baik untuk menyelidiki transformasi Box-Cox, atau varian Yeo-Johnson dari Box-Cox. [Yeo, I. dan Johnson, R. (2000)]. Lihat lebih lanjut halaman bantuan untuk powerTransform () dalam paket mobil R. Paket gamls R memungkinkan untuk mencocokkan jenis binomial negatif I (varietas umum) atau II, atau distribusi lain yang memodelkan dispersi serta rata-rata, dengan tautan transformasi daya sebesar 0 (= log, yaitu, tautan log) atau lebih . Fits mungkin tidak selalu menyatu.
Contoh: Deaths vs Base Damage Data untuk badai Atlantik bernama yang mencapai daratan AS. Data tersedia (nama hurricNamed ) dari rilis terbaru dari paket DAAG untuk R. Halaman bantuan untuk data memiliki detail.
Grafik membandingkan garis pas yang diperoleh dengan menggunakan model linear kuat, dengan kurva diperoleh dengan mengubah kecocokan binomial negatif dengan tautan log ke skala log (hitung + 1) yang digunakan untuk sumbu y pada grafik. (Perhatikan bahwa kita harus menggunakan sesuatu yang mirip dengan skala log (hitung + c), dengan positif c, untuk menunjukkan titik dan "garis" yang pas dari kecocokan binomial negatif pada grafik yang sama.) Perhatikan bias besar yang terbukti untuk kecocokan binomial negatif pada skala log. Model linear yang kuat kurang bias pada skala ini, jika kita mengasumsikan distribusi binomial negatif untuk perhitungan. Model linier yang cocok akan tidak bias di bawah asumsi teori normal klasik. Saya menemukan bias yang mengejutkan ketika saya pertama kali membuat apa yang pada dasarnya adalah grafik di atas! Kurva akan lebih cocok dengan data, tetapi perbedaannya ada dalam batas-batas standar variabilitas statistik yang biasa. Model linier yang kuat mampu melakukan pekerjaan yang buruk untuk diperhitungkan pada skala rendah.
Catatan --- Studi dengan Data RNA-Seq: Perbandingan dua gaya model telah menarik untuk analisis data jumlah dari eksperimen ekspresi gen. Makalah berikut membandingkan penggunaan model linear yang kuat, bekerja dengan log (hitung +1), dengan penggunaan cocok binomial negatif (seperti pada tepi paket BioconductorR ). Sebagian besar hitungan, dalam aplikasi RNA-Seq yang terutama dalam pikiran, cukup besar sehingga model log-linear yang ditimbang sesuai sangat cocok untuk bekerja.
NB juga makalah terbaru:
Sangat menarik bahwa model linier cocok menggunakan paket limma (seperti edgeR , dari kelompok WEHI) berdiri sangat baik (dalam arti menunjukkan sedikit bukti bias), relatif terhadap hasil dengan banyak ulangan, karena jumlah ulangan adalah berkurang.
Kode R untuk grafik di atas:
sumber
Posting asli mencerminkan makalah Tony Ives: Ives (2015) . Jelas bahwa pengujian signifikansi memberikan hasil yang berbeda dengan estimasi parameter.
John Maindonald menjelaskan mengapa perkiraan itu bias, tetapi ketidaktahuannya tentang latar belakang itu menjengkelkan - dia mengkritik kita karena menunjukkan bahwa metode yang kita semua sepakat cacat cacat. Banyak ahli ekologi melakukan transformasi log secara membabi buta, dan kami berusaha menunjukkan masalah dengan melakukan itu.
Ada diskusi yang lebih bernuansa di sini: Warton (2016)
Ives, AR (2015), Untuk menguji signifikansi koefisien regresi, silakan dan data log-transform count. Metode Ecol Evol, 6: 828–835. doi: 10.1111 / 2041-210X.12386
Warton, DI, Lyons, M., Stoklosa, J. dan Ives, AR (2016), Tiga poin untuk dipertimbangkan ketika memilih tes LM atau GLM untuk data jumlah. Metode Ecol Evol. doi: 10.1111 / 2041-210X.12552
sumber