Mengapa tindakan berulang ANOVA menganggap bola?

10

Mengapa tindakan berulang ANOVA menganggap bola?

Maksud saya adalah asumsi bahwa varian dari semua perbedaan berpasangan antar kelompok harus sama.

Secara khusus, saya tidak mengerti mengapa ini harus menjadi asumsi dan bukan bahwa varians dari kelompok yang diamati menilai diri mereka sama.

user1205901 - Pasang kembali Monica
sumber
1
Seperti yang saya komentari di sini , karena variabel perbedaan antara level RM terikat, oleh asalnya, kebulatan kemudian menyiratkan bahwa mereka memiliki varian yang sama.
ttnphns
1
Sebelum menjawab, akan sangat membantu jika mengetahui jika Anda memahami mengapa tindakan independen ANOVA memiliki asumsi homogenitas varian.
John
@ John Pemahaman saya adalah ini jawaban yang diberikan di stats.stackexchange.com/questions/81914/… menjawab pertanyaan itu dengan benar.
user1205901
@ttnphns Sayangnya saya tidak begitu mengerti jawaban Anda. Apakah Anda atau poster lain tertarik untuk mengubahnya menjadi respons yang lebih rinci?
user1205901

Jawaban:

2

Intuisi di balik asumsi kebulatan

Salah satu asumsi umum, tindakan yang tidak diulang, ANOVA adalah varian yang sama di semua kelompok.

(Kita dapat memahaminya karena varians yang sama, juga dikenal sebagai homoscedasticity , diperlukan untuk penaksir OLS dalam regresi linier menjadi BIRU dan untuk uji-t yang sesuai menjadi valid, lihat teorema Gauss-Markov . Dan ANOVA dapat diimplementasikan sebagai linear regresi.)

Jadi mari kita coba mengurangi case RM-ANOVA menjadi case non-RM. Untuk kesederhanaan, saya akan berurusan dengan satu faktor RM-ANOVA (tanpa efek antar-subjek) yang memiliki subjek yang direkam dalam kondisi RM.knk

Setiap subjek dapat memiliki offset subjek-spesifik mereka sendiri, atau mencegat. Jika kami mengurangi nilai dalam satu grup dari nilai di semua grup lain, kami akan membatalkan intersepsi ini dan sampai pada situasi ketika kita dapat menggunakan non-RM-ANOVA untuk menguji apakah perbedaan grup semuanya nol. Agar tes ini valid, kita perlu asumsi varian yang sama dari perbedaan .k - 1k1k1

Sekarang kita dapat mengurangi grup # 2 dari semua grup lain, lagi-lagi sampai pada perbedaan yang juga harus memiliki varian yang sama. Untuk setiap kelompok di luar , varian dari perbedaan sesuai harus sama. Dengan cepat mengikuti bahwa semua perbedaan yang mungkin harus sama.k k - 1 k ( k - 1 ) / 2k1kk1k(k1)/2

Yang justru merupakan asumsi kebulatan.

Mengapa varians grup tidak harus sama sendiri?

Ketika kita memikirkan RM-ANOVA, kita biasanya memikirkan model model campuran-aditif sederhana dari bentuk mana adalah efek subjek, adalah efek kondisi, dan .α i β j ϵ N ( 0 , σ 2 )

yij=μ+αi+βj+ϵij,
αiβjϵN(0,σ2)

Untuk model ini, perbedaan kelompok akan mengikuti , yaitu semua akan memiliki varian yang sama , sehingga kebulatan berlaku. Tetapi setiap kelompok akan mengikuti campuran Gaussians dengan mean di dan varians , yang merupakan distribusi rumit dengan varians yang konstan di seluruh grup.2 σ 2 n α i σ 2 V ( α , σ 2 )N(βj1βj2,2σ2)2σ2nαsayaσ2V(α,σ2)

Jadi dalam model ini, memang, varian kelompok juga sama. Group covariances juga sama, artinya model ini mengimplikasikan simetri gabungan . Ini adalah kondisi yang lebih ketat dibandingkan dengan kebulatan. Seperti yang ditunjukkan oleh argumen intuitif saya di atas, RM-ANOVA dapat bekerja dengan baik dalam situasi yang lebih umum, ketika model aditif yang ditulis di atas tidak berlaku .

Pernyataan matematika yang tepat

Saya akan menambahkan di sini sesuatu dari Huynh & Feldt, 1970, Kondisi Di Bawah Yang Berarti Rasio Kuadrat dalam Desain Pengukuran Berulang Memiliki Distribusi TepatF .

Apa yang terjadi ketika bola pecah?

Ketika sphericity tidak tahan, kita mungkin dapat mengharapkan RM-ANOVA untuk (i) memiliki ukuran yang meningkat (lebih banyak kesalahan tipe I), (ii) memiliki daya yang menurun (lebih banyak kesalahan tipe II). Orang dapat menjelajahi ini dengan simulasi, tetapi saya tidak akan melakukannya di sini.

amuba
sumber
4

Ternyata, bahwa efek melanggar bola adalah hilangnya daya (yaitu peningkatan probabilitas kesalahan Tipe II) dan statistik uji (F-rasio) yang tidak bisa dibandingkan dengan nilai-nilai tabulasi distribusi-F. Uji-F menjadi terlalu liberal (yaitu proporsi penolakan hipotesis nol lebih besar dari tingkat alpha ketika hipotesis nol benar.

Investigasi yang tepat dari subjek ini sangat terlibat, tetapi untungnya Box et al menulis makalah tentang itu: https://projecteuclid.org/download/pdf_1/euclid.aoms/1177728786

Singkatnya, situasinya adalah sebagai berikut. Pertama, katakanlah kita memiliki satu faktor desain pengukuran berulang dengan subjek S dan A perlakuan eksperimental Dalam hal ini pengaruh variabel independen diuji dengan menghitung statistik F, yang dihitung sebagai rasio rata-rata kuadrat efek oleh rata-rata kuadrat interaksi antara faktor subjek dan variabel independen. Ketika sphericity bertahan, statistik ini memiliki distribusi Fisher dengan dan derajat kebebasan.υ 2 = ( A - 1 ) ( S - 1 )kamu1=SEBUAH-1kamu2=(SEBUAH-1)(S-1)

Dalam artikel di atas Box mengungkapkan, bahwa ketika kebulatan gagal, jumlah derajat kebebasan yang benar menjadi rasio F tergantung pada kebulatan seperti: ϵ υ 1 = ϵ ( A - 1 ) υ 2 = ϵ ( A - 1 ) ( S - 1 )kamu1ϵ

kamu1=ϵ(SEBUAH-1)
kamu2=ϵ(SEBUAH-1)(S-1)

Box juga memperkenalkan indeks kebulatan, yang berlaku untuk matriks kovarians populasi . Jika kita memanggil entri dari tabel AxA ini, maka indeksnya adalahξSebuah,Sebuah

ϵ=(SebuahξSebuah,Sebuah)2(SEBUAH-1)Sebuah,SebuahξSebuah,Sebuah2

Indeks kotak kebulatan paling baik dipahami dalam kaitannya dengan nilai eigen dari matriks kovarians. Ingat bahwa matriks kovarians termasuk dalam kelas matriks semi-pasti positif dan karenanya selalu memiliki nilai eigen nol yang positif. Dengan demikian, kondisi bulatan setara dengan memiliki semua nilai eigen sama dengan konstanta.

Jadi, ketika kebulatan dilanggar kita harus menerapkan beberapa koreksi untuk statistik F kami, dan contoh yang paling menonjol dari koreksi ini adalah Greenhouse-Geisser dan Huynh-Feldt, misalnya

Tanpa koreksi apa pun, hasil Anda akan menjadi bias dan tidak dapat diandalkan. Semoga ini membantu!

Akademisi Luas
sumber
+1. Saya akan berkomentar lebih lanjut nanti, tetapi untuk paragraf pertama Anda menggabungkan kekuatan dan ukuran tes. Apa yang dirusak ketika sphericity dilanggar? Tingkat kesalahan tipe I di bawah nol? Atau kekuatannya? Atau keduanya? Anda mungkin berarti keduanya, tetapi formulasi tidak terlalu jelas (saya pikir). Juga, itu bukan "Box et al", itu Box saja :)
amoeba
Saya pikir kekuatan sebagian besar akan terganggu, karena seperti yang ditunjukkan Box, ketika kebulatan dilanggar kita harus bergantung pada statistik yang sangat berbeda (dengan derajat kebebasan yang lain). Jika kita tidak mengandalkan itu, maka tergantung pada seberapa kuat pelanggaran kita, kita akan memiliki proporsi penolakan yang lebih besar dari hipotesis nol.
Vast Academician
Maaf, masih bingung, sekarang oleh komentar Anda: "proporsi penolakan yang lebih besar dari nol" - maksud Anda ketika nol sebenarnya benar? Tapi ini tidak ada hubungannya dengan kekuasaan, ini adalah tingkat kesalahan tipe I.
amoeba
+10. Saya memberikan hadiah saya untuk jawaban ini: itu bagus dan juga itu satu-satunya jawaban yang muncul pada periode hadiah. Saya tidak sepenuhnya puas dengan jawaban Anda (belum?) Dan saya mulai menulis jawaban saya sendiri (saat ini tidak lengkap, tetapi sudah diposting), tetapi saya hanya memiliki sebagian pemahaman tentang matematika yang mendasarinya. Jawaban Anda pasti membantu dan referensi ke Kotak 1954 juga sangat membantu.
amoeba
Beberapa momen membingungkan selanjutnya. (1) Di mana Box memperkenalkan indeks kebulatan dalam makalah ini? Saya tidak melihatnya sama sekali. Rumus untuk tidak muncul dalam makalah ini. (2) Apakah Anda yakin bahwa dalam formula ini adalah nilai eigen dari kovarians matriks? Saya tidak berpikir itu benar: ketika matriks ini memenuhi "kondisi kebulatan" RM-ANOVA nilai eigennya tidak harus sama. ϵ ξ A × AϵϵξSEBUAH×SEBUAH
amoeba
1

Saya akan mencoba menjawab pertanyaan ini dalam pengaturan sederhana tindakan berulang ANOVA. Konsepnya mirip dengan jawaban oleh @amoeba, dengan semoga ilustrasi yang lebih mendasar. Asumsikan bahwa sekelompok mata pelajaran secara acak dibagi ke dalam kelompok yang berbeda dan setiap mata pelajaran diukur pada jumlah yang sama kali. Ini adalah desain plot terpisah dengan subjek sebagai keseluruhan plot dan pengukuran dalam setiap subjek sebagai pengamatan subplot. Mendenotasikan sebagai pengukuran pada k-th timepoint dari j-th subjek dari i-th kelompok,ysayajksaya=1,...,saya;j=1,...,J;k=1,...,K.

Sampel rata-rata dari kelompok ke-i adalah

y¯saya..=1JKj=1Jk=1Kysayajk

dan bahwa subjek ij-th adalah

y¯sayaj.=1Kk=1Kysayajk

Dengan mengasumsikan independensi di antara subyek, varians perbedaan antara dua kelompok berarti

VSebuahr(y¯saya..-y¯saya..)=1J2j=1JVSebuahr(y¯sayaj.)+1J2j=1JVSebuahr(y¯sayaj.)

Masuk akal untuk berharap bahwa pengukuran berulang dalam suatu subjek berkorelasi. Jadi, Tidak sesederhana dengan menjadi varian dari setiap pengamatan. Terlepas dari itu, jika Dianggap konstan untuk semua subjek, seseorang dapat secara valid menjalankan uji-t 2 sampel "langsung" untuk membandingkan 2 cara kelompok. Dengan demikian, satu motivasi untuk mengasumsikan varian konstan adalah untuk melakukan uji-t yang valid dan sederhana. VSebuahr(y¯sayaj.)σ2/Kσ2VSebuahr(y¯sayaj.)

Sekarang, untuk pertanyaan kebulatan yang dimunculkan.

Mungkin ada minat untuk membandingkan rata-rata sampel antara dua titik waktu dengan , di mana Perbandingan ini membutuhkan menemukan perbedaan selisih berpasangan antara dan di semua subjek. Secara khusus, di bawah asumsi kemandirian di antara subyek,y¯..k-y¯..k

y¯..k=1sayaJsaya=1sayaj=1Jysayajk.
ysayajkysayajk

VSebuahr(y¯..k-y¯..k)=1(sayaJ)2saya=1sayaj=1JVSebuahr(ysayajk-ysayajk)

Oleh karena itu, dengan asumsi varians konstan dari semua perbedaan berpasangan membuatnya valid untuk melakukan uji-t setelah varians umum diperkirakan. Asumsi ini, bersama dengan varian konstan dari setiap pengamatan, menyiratkan bahwa kovarians antara setiap pasangan pengukuran adalah konstan di semua pasangan - Sergiomemiliki pos yang bagus tentang topik ini. Asumsi karena itu membuat struktur varians-kovarians untuk pengukuran berulang setiap subjek sebagai matriks dengan konstanta diagonal dan konstanta off-diagonal lainnya. Ketika entri off-diagonal semuanya nol, itu berkurang menjadi model semua-independen (yang mungkin tidak sesuai untuk banyak studi pengukuran berulang). Ketika entri diagonal tidak sama dengan entri diagonal, pengukuran berulang berkorelasi sempurna untuk subjek, artinya setiap pengukuran tunggal sama baiknya dengan semua pengukuran untuk setiap subjek. Catatan akhir - ketika K = 2 dalam desain plot sederhana kami, kondisi kebulatan terpenuhi secara otomatis.

T Lin
sumber