Apakah saya benar untuk memahami bahwa urutan variabel ditentukan dalam ANOVA multifaktorial membuat perbedaan tetapi urutan itu tidak masalah ketika melakukan regresi linier berganda?
Jadi dengan asumsi hasil seperti kehilangan darah yang diukur y
dan dua variabel kategori
- metode adenoidektomi
a
, - metode tonsilektomi
b
.
Model y~a+b
berbeda dengan model y~b+a
(atau implementasi saya di R tampaknya menunjukkan).
Apakah saya benar untuk memahami bahwa istilah di sini adalah bahwa ANOVA adalah model hierarkis karena pertama kali atribut varians sebanyak mungkin untuk faktor pertama sebelum mencoba untuk atribut varians residual ke faktor kedua?
Dalam contoh di atas hierarki masuk akal karena saya selalu melakukan adenoidektomi terlebih dahulu sebelum melakukan tonsilektomi tetapi apa yang akan terjadi jika seseorang memiliki dua variabel tanpa urutan yang melekat?
Jawaban:
Pertanyaan ini jelas berasal dari penelitian dengan desain dua arah yang tidak seimbang, dianalisis dalam R dengan
aov()
fungsi; halaman ini memberikan contoh yang lebih baru dan terperinci tentang masalah ini.Jawaban umum untuk pertanyaan ini, seperti halnya bagi banyak orang, adalah: "Itu tergantung." Di sini tergantung pada apakah desainnya seimbang dan, jika tidak, rasa ANOVA mana yang dipilih.
Pertama, itu tergantung pada apakah desainnya seimbang. Dalam yang terbaik dari semua dunia yang mungkin, dengan jumlah kasus yang sama di semua sel dari desain faktorial, tidak akan ada perbedaan karena urutan memasukkan faktor ke dalam model, terlepas dari bagaimana ANOVA dilakukan. * Kasus-kasus yang ada , jelas dari kohort klinis retrospektif, tampaknya berasal dari dunia nyata di mana keseimbangan seperti itu tidak ditemukan. Jadi urutannya mungkin penting.
Kedua, itu tergantung pada bagaimana ANOVA dilakukan, yang merupakan masalah yang agak kontroversial. Jenis-jenis ANOVA untuk desain yang tidak seimbang berbeda dalam urutan mengevaluasi efek dan interaksi utama. Mengevaluasi interaksi merupakan hal mendasar untuk ANOVA dua arah dan tingkat tinggi, sehingga ada perselisihan tentang cara terbaik untuk melanjutkan. Lihat halaman Cross Validated ini untuk satu penjelasan dan diskusi. Lihat Detail dan Peringatan untuk fungsi
Anova()
(dengan huruf besar "A") dalam manual untukcar
paket untuk tampilan yang berbeda.Urutan faktor tidak masalah dalam desain yang tidak seimbang di bawah standar
aov()
dalam R, yang menggunakan apa yang disebut tes tipe-I. Ini adalah atribusi berurutan varians dengan faktor-faktor dalam urutan masuk ke dalam model, seperti pertanyaan yang dibayangkan. Urutan tidak masalah dengan tes tipe-II atau tipe-III yang disediakan olehAnova()
fungsi dalamcar
paket dalam R. Namun, alternatif-alternatif ini memiliki potensi kerugiannya sendiri sebagaimana tercantum dalam tautan di atas.Akhirnya, pertimbangkan hubungan dengan regresi linier berganda seperti
lm()
pada R, yang pada dasarnya adalah tipe model yang sama jika Anda memasukkan istilah interaksi. Urutan masuknya variabellm()
tidak menjadi masalah dalam hal koefisien regresi dan nilai p yang dilaporkan olehsummary(lm())
, di mana faktor kategori tingkat-k dikodekan sebagai (k-1) variabel dummy biner dan koefisien regresi dilaporkan untuk setiap dummy .Namun demikian, dimungkinkan untuk membungkus
lm()
output dengananova()
(huruf kecil "a," daristats
paket R ) atauAnova()
untuk merangkum pengaruh masing-masing faktor terhadap semua levelnya, seperti yang diharapkan dalam ANOVA klasik. Kemudian urutan faktor akan peduli dengananova()
seperti untukaov()
, dan tidak akan peduli denganAnova()
. Demikian pula, perselisihan tentang jenis ANOVA mana yang akan digunakan akan kembali. Jadi tidak aman untuk mengasumsikan keteraturan-masuknya faktor dengan semua penggunaanlm()
model hilir .* Memiliki jumlah pengamatan yang sama di semua sel sudah cukup tetapi, seperti yang saya mengerti, tidak perlu urutan faktor menjadi tidak relevan. Jenis-jenis keseimbangan yang kurang menuntut mungkin memungkinkan independensi pesanan.
sumber
Istilah model hirarkis mengacu pada struktur antara faktor-faktor. Misalnya, studi multi-pusat bersifat hierarkis: Anda memiliki pasien yang bersarang di rumah sakit yang merawat mereka. Setiap rumah sakit memperlakukan pasien dengan plasebo dan verum, tetapi menerima masing-masing dari mereka di rumah sakit A atau B sedikit berbeda karena beberapa efek umum dari rumah sakit yang mengatur semua pasien mereka (bahkan mungkin merupakan efek interaksi dengan agen eksperimental). Jadi itu disebut efek hirarkis.
Sekarang metode ektomi Anda mungkin hierarkis: Apakah masuk akal bahwa metode tonsilektomi tertentu sedikit berbeda (dalam dirinya sendiri, belum berpengaruh, karena itulah yang akan Anda perkirakan dan uji) tergantung pada metode adenoidektomi yang digunakan sebelumnya pada metode yang sama. sabar? Jika ya, Anda harus menentukannya dalam model Anda.
Pengamatan Anda bahwa y ~ a + b mungkin berbeda dari y ~ b + a menunjukkan bahwa ada sesuatu yang salah. Efek aditif bolak-balik, jadi seharusnya tidak ada perbedaan (terlepas dari perbedaan numerik kecil). Tidak masuk akal atau diinginkan bahwa efek dari metode operasi mungkin tergantung pada urutan di mana ahli statistik kemudian menentukan efeknya. Jadi Anda mungkin memilih pendekatan yang salah untuk memberi makan
R
dengan data.sumber
aov
perintah dalam R menggunakan Tipe I SS secara default. Ketika saya menawarkan hadiah itu, saya berharap mendapatkan jawaban yang menjelaskan masalah di balik desain anova yang tidak seimbang, perbedaan antara Tipe I / II / III SS, dan beberapa komentar tentang apakah regresi linier memiliki atau tidak memiliki masalah yang sama.aov
daripadalm
, dan akan sangat membantu untuk memiliki jawaban untuk pertanyaan jenis yang ditunjukkan @amoeba dalam komentar dari 12 Mei, 14:31 .