Urutan variabel dalam hal ANOVA penting, bukan?

20

Apakah saya benar untuk memahami bahwa urutan variabel ditentukan dalam ANOVA multifaktorial membuat perbedaan tetapi urutan itu tidak masalah ketika melakukan regresi linier berganda?

Jadi dengan asumsi hasil seperti kehilangan darah yang diukur y dan dua variabel kategori

  1. metode adenoidektomi a ,
  2. metode tonsilektomi b .

Model y~a+bberbeda dengan model y~b+a(atau implementasi saya di R tampaknya menunjukkan).

Apakah saya benar untuk memahami bahwa istilah di sini adalah bahwa ANOVA adalah model hierarkis karena pertama kali atribut varians sebanyak mungkin untuk faktor pertama sebelum mencoba untuk atribut varians residual ke faktor kedua?

Dalam contoh di atas hierarki masuk akal karena saya selalu melakukan adenoidektomi terlebih dahulu sebelum melakukan tonsilektomi tetapi apa yang akan terjadi jika seseorang memiliki dua variabel tanpa urutan yang melekat?

Farrel
sumber
12
Memesan hal-hal di ANOVA dengan desain yang tidak seimbang, yaitu ketika ada ukuran sel yang tidak sama. Topik ini sering diperlakukan di bawah judul "jenis jumlah kuadrat". Lihat epm.sagepub.com/content/38/3/621.full.pdf+html dan jawaban chl
caracal
1
Lihat juga jawaban gung di stats.stackexchange.com/questions/20452 .
Amoeba berkata Reinstate Monica
Saya baru saja memperpanjang pembahasan saya yang lebih lama dengan harapan hal itu akan menjelaskan masalah ini. Pasti masih perlu bekerja, dan mungkin seseorang memiliki keberanian untuk membantu menyuntingnya. Inilah yang saya miliki sejauh ini: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Mungkin ada sesuatu yang menarik dengan potensi untuk diekstraksi ke beberapa jawaban yang jelas untuk pertanyaan itu di sini.
Gottfried Helms

Jawaban:

17

Pertanyaan ini jelas berasal dari penelitian dengan desain dua arah yang tidak seimbang, dianalisis dalam R dengan aov()fungsi; halaman ini memberikan contoh yang lebih baru dan terperinci tentang masalah ini.

Jawaban umum untuk pertanyaan ini, seperti halnya bagi banyak orang, adalah: "Itu tergantung." Di sini tergantung pada apakah desainnya seimbang dan, jika tidak, rasa ANOVA mana yang dipilih.

Pertama, itu tergantung pada apakah desainnya seimbang. Dalam yang terbaik dari semua dunia yang mungkin, dengan jumlah kasus yang sama di semua sel dari desain faktorial, tidak akan ada perbedaan karena urutan memasukkan faktor ke dalam model, terlepas dari bagaimana ANOVA dilakukan. * Kasus-kasus yang ada , jelas dari kohort klinis retrospektif, tampaknya berasal dari dunia nyata di mana keseimbangan seperti itu tidak ditemukan. Jadi urutannya mungkin penting.

Kedua, itu tergantung pada bagaimana ANOVA dilakukan, yang merupakan masalah yang agak kontroversial. Jenis-jenis ANOVA untuk desain yang tidak seimbang berbeda dalam urutan mengevaluasi efek dan interaksi utama. Mengevaluasi interaksi merupakan hal mendasar untuk ANOVA dua arah dan tingkat tinggi, sehingga ada perselisihan tentang cara terbaik untuk melanjutkan. Lihat halaman Cross Validated ini untuk satu penjelasan dan diskusi. Lihat Detail dan Peringatan untuk fungsi Anova()(dengan huruf besar "A") dalam manual untuk carpaket untuk tampilan yang berbeda.

Urutan faktor tidak masalah dalam desain yang tidak seimbang di bawah standar aov()dalam R, yang menggunakan apa yang disebut tes tipe-I. Ini adalah atribusi berurutan varians dengan faktor-faktor dalam urutan masuk ke dalam model, seperti pertanyaan yang dibayangkan. Urutan tidak masalah dengan tes tipe-II atau tipe-III yang disediakan oleh Anova()fungsi dalam carpaket dalam R. Namun, alternatif-alternatif ini memiliki potensi kerugiannya sendiri sebagaimana tercantum dalam tautan di atas.

Akhirnya, pertimbangkan hubungan dengan regresi linier berganda seperti lm()pada R, yang pada dasarnya adalah tipe model yang sama jika Anda memasukkan istilah interaksi. Urutan masuknya variabel lm()tidak menjadi masalah dalam hal koefisien regresi dan nilai p yang dilaporkan oleh summary(lm()), di mana faktor kategori tingkat-k dikodekan sebagai (k-1) variabel dummy biner dan koefisien regresi dilaporkan untuk setiap dummy .

Namun demikian, dimungkinkan untuk membungkus lm()output dengan anova()(huruf kecil "a," dari statspaket R ) atau Anova()untuk merangkum pengaruh masing-masing faktor terhadap semua levelnya, seperti yang diharapkan dalam ANOVA klasik. Kemudian urutan faktor akan peduli dengan anova()seperti untuk aov(), dan tidak akan peduli dengan Anova(). Demikian pula, perselisihan tentang jenis ANOVA mana yang akan digunakan akan kembali. Jadi tidak aman untuk mengasumsikan keteraturan-masuknya faktor dengan semua penggunaan lm()model hilir .


* Memiliki jumlah pengamatan yang sama di semua sel sudah cukup tetapi, seperti yang saya mengerti, tidak perlu urutan faktor menjadi tidak relevan. Jenis-jenis keseimbangan yang kurang menuntut mungkin memungkinkan independensi pesanan.

EdM
sumber
Memang ya, data pengamatan itu tidak seimbang, sangat tidak seimbang.
Farrel
Semoga komentar ini masih mendapat jawaban di sini: Anda mengatakan bahwa, di bawah desain penelitian yang seimbang, perkiraan SS tidak akan pernah bergantung pada pesanan, terlepas dari jenis tes anova (tipe I, II, III) yang dipilih. Saya tidak yakin apakah saya mengerti ini. menggunakan fungsi 'anova' dalam R (yang menggunakan tes tipe I) pada model linier berdasarkan data yang seimbang, tentunya urutan fitur penting, bukan?
PejoPhylo
1
@PejoPhylo ketika data seimbang maka Anda dapat memiliki apa yang disebut desain ortogonal. Dengan desain ortogonal ada satu cara unik untuk mempartisi jumlah kuadrat di antara perawatan dan interaksinya, sehingga urutan masuknya perawatan tidak akan menjadi masalah sehubungan dengan perkiraan efek dan nilai-p mereka. Halaman ini memberikan penjelasan matematis. Ini tidak segera jelas; pertanyaan yang baru saya tautkan diajukan oleh anggota situs ini dengan salah satu reputasi tertinggi. Data yang tidak seimbang dapat menghancurkan ortogonalitas.
EdM
Terima kasih banyak atas jawaban Anda @EdM
PejoPhylo
0

Istilah model hirarkis mengacu pada struktur antara faktor-faktor. Misalnya, studi multi-pusat bersifat hierarkis: Anda memiliki pasien yang bersarang di rumah sakit yang merawat mereka. Setiap rumah sakit memperlakukan pasien dengan plasebo dan verum, tetapi menerima masing-masing dari mereka di rumah sakit A atau B sedikit berbeda karena beberapa efek umum dari rumah sakit yang mengatur semua pasien mereka (bahkan mungkin merupakan efek interaksi dengan agen eksperimental). Jadi itu disebut efek hirarkis.

Sekarang metode ektomi Anda mungkin hierarkis: Apakah masuk akal bahwa metode tonsilektomi tertentu sedikit berbeda (dalam dirinya sendiri, belum berpengaruh, karena itulah yang akan Anda perkirakan dan uji) tergantung pada metode adenoidektomi yang digunakan sebelumnya pada metode yang sama. sabar? Jika ya, Anda harus menentukannya dalam model Anda.

Pengamatan Anda bahwa y ~ a + b mungkin berbeda dari y ~ b + a menunjukkan bahwa ada sesuatu yang salah. Efek aditif bolak-balik, jadi seharusnya tidak ada perbedaan (terlepas dari perbedaan numerik kecil). Tidak masuk akal atau diinginkan bahwa efek dari metode operasi mungkin tergantung pada urutan di mana ahli statistik kemudian menentukan efeknya. Jadi Anda mungkin memilih pendekatan yang salah untuk memberi makan Rdengan data.

Horst Grünbusch
sumber
1
Saya tidak yakin saya mengikuti paragraf terakhir. Dalam ANOVA faktorial yang tidak seimbang, nilai-p untuk setiap faktor yang dikomputasi melalui jumlah kuadrat Tipe I (berurutan) pasti akan tergantung pada urutan faktor-faktor tersebut. Saya percaya ini adalah inti dari pertanyaan.
Amoeba berkata Reinstate Monica
Saya tidak yakin apakah @ Farrel mendapat Tipe I SS. Saya ingat saya pernah mengamati SAS untuk menghasilkan SS Tipe III yang berbeda karena penyortiran yang berbeda dalam kumpulan data dan pernyataan model. Mungkin ini bisa terjadi dengan R juga?
Horst Grünbusch
2
Saya tidak tahu pasti dan dia mungkin tidak ingat dirinya mengingat bahwa Q ditanya lima tahun lalu. Tapi saya pikir ini jauh penafsiran yang paling pelit kata-katanya "Model y ~ a + b berbeda dengan model y ~ b + (atau sehingga implementasi saya di R tampaknya menunjukkan)", khususnya mengingat fakta yang aovperintah dalam R menggunakan Tipe I SS secara default. Ketika saya menawarkan hadiah itu, saya berharap mendapatkan jawaban yang menjelaskan masalah di balik desain anova yang tidak seimbang, perbedaan antara Tipe I / II / III SS, dan beberapa komentar tentang apakah regresi linier memiliki atau tidak memiliki masalah yang sama.
Amoeba berkata Reinstate Monica
1
Tidak. Matriks desain adalah singular dalam anova bahkan jika seimbang, ketika tidak ada perbedaan antara SS I / II / III. SS I / II / III hanya berbeda dalam kasus tidak seimbang karena faktor-faktornya menjadi non-ortogonal (tidak seperti dalam kasus seimbang). Dalam pemahaman saya, ini sesuai dengan regresi linier dengan prediktor berkorelasi, yang merupakan situasi yang sangat umum. Jawaban saya adalah bahwa masalah yang sama terjadi dalam regresi juga, hanya saja standar untuk menghitung nilai-p dari satu prediktor setelah memperhitungkan efek semua prediktor lainnya; ini sesuai dengan Tipe III SS di anova.
Amoeba berkata Reinstate Monica
1
Pertanyaan seperti itu tentang urutan variabel dalam ANOVA terus berdatangan, seperti yang ini dimigrasikan dari Stack Overflow kemarin. Saya pikir aman untuk mengasumsikan bahwa pertanyaan berusia 5 tahun ini sama-sama didasarkan pada aovdaripada lm, dan akan sangat membantu untuk memiliki jawaban untuk pertanyaan jenis yang ditunjukkan @amoeba dalam komentar dari 12 Mei, 14:31 .
EdM