Intro: Setelah mencatat perhatian yang diterima hari ini oleh pertanyaan ini, " Bisakah ANOVA menjadi signifikan ketika tidak ada uji-t berpasangan?, " Saya pikir saya mungkin dapat membingkai ulang dengan cara yang menarik yang pantas mendapatkan jawaban sendiri. .
Berbagai hasil yang tidak sesuai (pada nilai nominal) dapat terjadi ketika signifikansi statistik dipahami sebagai dikotomi sederhana dan dinilai berdasarkan dasar yang lebih tinggi, atau . Jawaban @ Glen_b untuk pertanyaan di atas menyajikan contoh yang berguna dari kasus di mana:
- ANOVA -test menghasilkan untuk satu variabel independen (IV) dengan empat level, tetapi
- untuk semua dua-sample -tests yang membandingkan perbedaan dalam variabel dependen yang sama (DV) antara pengamatan sesuai dengan masing-masing pasangan dari empat tingkat IV ini.
Kasus serupa muncul meskipun koreksi Bonferroni untuk perbandingan berpasangan post-hoc melalui pertanyaan ini: Tindakan berulang Anova penting, tetapi semua perbandingan ganda dengan koreksi Bonferroni tidak? Kasus yang disebutkan sebelumnya dengan tes yang sedikit berbeda dalam regresi berganda juga ada:
- Mengapa mungkin untuk mendapatkan statistik F yang signifikan (p <0,001) tetapi t-tes regressor tidak signifikan? :
- Bagaimana regresi menjadi signifikan namun semua prediktor menjadi tidak signifikan?
- Dalam jawaban @ whuber ,
Saya bertaruh bahwa dalam kasus-kasus seperti ini, beberapa (tetapi tidak semua) perbandingan berpasangan '(atau koefisien regresi' tes signifikansi ') nilai-nilai harus cukup dekat dengan jika tes omnibus yang sesuai dapat mencapai . Saya melihat ini adalah kasus di @ contoh pertama Glen_b, di mana , , dan perbedaan berpasangan terbesar memberikan terkecil . Haruskah ini terjadi secara umum? Lebih khusus :
Pertanyaan: Jika ANOVA -test menghasilkan untuk satu efek IV politytous pada DV kontinu, seberapa tinggi nilai terendah di antara semua dua sampel tes yang membandingkan setiap pasangan tingkat IV? Bisa minimum berpasangan signifikansi setinggi ?
Saya menyambut jawaban yang hanya menjawab pertanyaan spesifik ini . Namun, untuk lebih memotivasi pertanyaan ini, saya akan menguraikan dan melemparkan beberapa pertanyaan retoris yang berpotensi. Senang juga untuk mengatasi masalah ini, dan bahkan mengabaikan pertanyaan spesifik jika Anda suka, terutama jika pertanyaan spesifik mendapatkan jawaban yang pasti.
Signifikansi: Pertimbangkan berapa banyak kurang penting perbedaan antara dan p t = 0,06 akan jika signifikansi statistik dihakimi dalam hal terus menerus dari kekuatan bukti terhadap hipotesis nol (pendekatan Ron Fisher, saya pikir? ), daripada dalam istilah dikotomis seperti di atas atau di bawah ambang batas α = .05 untuk kemungkinan kesalahan yang dapat diterima dalam memilih apakah akan menolak grosir nol. " p -hacking " adalah masalah yang diketahui yang sebagian berutang pada kerentanan yang tidak perlu yang diperkenalkan oleh interpretasi pnilai-nilai sesuai dengan praktik umum dikotomi signifikansi ke dalam padanan "cukup baik" dan "tidak cukup baik." Jika seseorang membuang praktik ini dan fokus pada menafsirkan nilai sebagai kekuatan bukti terhadap nol pada interval yang berkelanjutan, mungkinkah pengujian omnibus agak kurang penting ketika seseorang benar-benar peduli tentang beberapa perbandingan berpasangan? Tidak sia-sia tentu, karena setiap peningkatan yang cukup efisien dalam akurasi statistik tentu saja diinginkan, tetapi ... jika, misalnya, nilai p perbandingan berpasangan terendah harus dalam 0,10 dari ANOVA (atau tes omnibus lainnya) pnilai, bukankah ini membuat tes omnibus agak lebih sepele, kurang wajib, dan bahkan lebih menyesatkan (dalam hubungannya dengan kesalahpahaman yang sudah ada sebelumnya), terutama jika seseorang tidak secara khusus ingin mengendalikan di beberapa tes?
Sebaliknya, jika data ada sehingga omnibus , tetapi semua berpasangan p > .50 , tidakkah ini memotivasi omnibus dan pengujian kontras lebih lanjut di seluruh praktik dan pedagogi? Tampaknya bagi saya bahwa masalah ini juga harus menginformasikan manfaat relatif menilai signifikansi statistik menurut dikotomi vs kontinum, dalam hal bahwa sistem penafsiran dikotomis harus lebih sensitif terhadap penyesuaian kecil ketika perbedaan "sedikit signifikan", sedangkan kedua sistem tidak aman dari kegagalan untuk melakukan tes omnibus atau menyesuaikan beberapa perbandingan jika perbedaan / penyesuaian ini bisa sangat besar (misalnya, p t - p F > dalam teori.
Kompleksitas opsional lainnya untuk dipertimbangkan atau diabaikan — apa pun yang membuat menjawab lebih mudah dan lebih bermanfaat :
- Seberapa tinggi s untuk t s jika, untuk F , p < 0,05 sebagai gantinya (misalnya, p = .01 , .001 , ... )
- Sensitivitas terhadap jumlah level dalam IV politom
- Sensitivitas terhadap ketidakmerataan dalam arti perbedaan berpasangan (sementara semua )
- Jawaban whuber menunjukkan bahwa memasukkan perbedaan kecil dapat menutupi perbedaan besar.
- Perbedaan antara berbagai koreksi tes omnibus untuk beberapa perbandingan
- Lihat juga: Mengoreksi untuk beberapa perbandingan dalam suatu subyek / tindakan berulang ANOVA; terlalu konservatif?
- Dengan banyak infus, tampaknya multikolinieritas dapat memperburuk masalah ini .
- Kasus terbatas di mana data memenuhi semua asumsi tes parametrik klasik secara optimal
- Pembatasan ini mungkin penting untuk mencegah pertanyaan ini agak diperdebatkan.
Jawaban:
Dengan asumsi sama s [tetapi lihat catatan 2 di bawah] untuk setiap perlakuan dalam tata letak satu arah, dan bahwa SD yang dikumpulkan dari semua kelompok digunakan dalam uji t (seperti yang dilakukan dalam perbandingan post hoc biasa), semaksimal mungkin nilai p untuk uji t adalah 2 Φ ( - √n t p t (di sini,ΦmenunjukkanN(0,1)cdf). Dengan demikian, tidak adaptdapat setinggi0,5. Menariknya (dan agak aneh), yang0,1573terikat memegang bukan hanya untukpF=0,05, tetapi untuk setiap tingkat signifikansi yang kita butuhkan untukF.2Φ(−2–√)≈.1573 Φ N(0,1) pt 0.5 .1573 pF=.05 F
The justification is as follows: For a given range of sample means,maxi,j|y¯i−y¯j|=2a , the largest possible F statistic is achieved when half the y¯i are at one extreme and the other half are at the other. This represents the case where F looks the most significant given that two means differ by at most 2a .
So, without loss of generality, suppose thaty¯.=0 so that y¯i=±a in this boundary case. And again, without loss of generality, suppose that MSE=1 , as we can always rescale the data to this value. Now consider k means (where k is even for simplicity [but see note 1 below]), we have F=∑ny¯2/(k−1)MSE=kna2k−1 . Setting pF=α so that F=Fα=Fα,k−1,k(n−1) , we obtain a=(k−1)Fαkn−−−−−−√ . When all the y¯i are ±a (and still MSE=1 ), each nonzero t statistic is thus t=2a12/n√=2(k−1)Fαk−−−−−−√ . This is the smallest maximum t value possible when F=Fα .
So you can just try different cases ofk and n , compute t , and its associated pt . But notice that for given k , Fα is decreasing in n [but see note 3 below]; moreover, as n→∞ , (k−1)Fα,k−1,k(n−1)→χ2α,k−1 ; so t≥tmin=2χ2α,k−1/k−−−−−−−−√ . Note that χ2/k=k−1kχ2/(k−1) has mean k−1k and SDk−1k⋅2k−1−−−√ . So limk→∞tmin=2–√ , regardless of α , and the result I stated in the first paragraph above is obtained from asymptotic normality.
It takes a long time to reach that limit, though. Here are the results (computed usingk , using α=.05 :
R
) for various values ofA few loose ends...
sumber