Apakah mungkin untuk ANOVA satu arah (dengan grup, atau "level") melaporkan perbedaan yang signifikan ketika tidak ada uji-t berpasangan berpasangan?
Dalam jawaban ini @whuber menulis:
Telah diketahui secara umum bahwa uji F ANOVA global dapat mendeteksi perbedaan rata-rata bahkan dalam kasus-kasus di mana tidak ada uji t individu [yang tidak disesuaikan berpasangan] dari pasangan cara akan menghasilkan hasil yang signifikan.
jadi sepertinya itu mungkin, tapi saya tidak mengerti caranya. Kapan itu terjadi dan apa intuisi di balik kasus seperti itu? Mungkin seseorang dapat memberikan contoh mainan sederhana dari situasi seperti itu?
Beberapa komentar lebih lanjut:
Kebalikannya jelas dimungkinkan: keseluruhan ANOVA dapat menjadi tidak signifikan sementara beberapa uji-t berpasangan secara keliru melaporkan perbedaan yang signifikan (yaitu hal itu akan menjadi false positive).
Pertanyaan saya adalah tentang standar, tidak disesuaikan untuk beberapa t-test perbandingan. Jika tes yang disesuaikan digunakan (seperti misalnya prosedur HSD Tukey), maka ada kemungkinan bahwa tidak ada yang berubah menjadi signifikan walaupun ANOVA keseluruhannya. Ini dibahas di sini dalam beberapa pertanyaan, misalnya Bagaimana saya bisa mendapatkan ANOVA keseluruhan yang signifikan tetapi tidak ada perbedaan berpasangan yang signifikan dengan prosedur Tukey? dan interaksi ANOVA Signifikan tetapi perbandingan berpasangan tidak signifikan .
Memperbarui. Pertanyaan saya awalnya merujuk pada uji-t berpasangan dua sampel biasa . Namun, seperti yang ditunjukkan @whuber dalam komentar, dalam konteks ANOVA, t-tes biasanya dipahami sebagai kontras post hoc menggunakan estimasi ANOVA dari varian dalam-kelompok, yang dikumpulkan di semua kelompok (yang tidak terjadi pada dua kelompok). -sampel t-test). Jadi sebenarnya ada dua versi pertanyaan saya yang berbeda, dan jawaban keduanya ternyata positif. Lihat di bawah.
sumber
Jawaban:
Catatan: Ada yang salah dengan contoh asli saya. Dengan bodohnya aku terperangkap oleh daur ulang argumen bisu R. Contoh baru saya sangat mirip dengan contoh lama saya. Semoga semuanya ada sekarang.
Berikut adalah contoh yang saya buat yang memiliki ANOVA signifikan pada level 5% tetapi tidak satupun dari 6 perbandingan berpasangan yang signifikan, bahkan pada level 5% .
Berikut datanya:
Inilah ANOVA:
Inilah dua nilai-nilai p-test t (asumsi varians sama):
Dengan sedikit lebih mengutak-atik nilai kelompok atau poin individu, perbedaan signifikansi dapat dibuat lebih mencolok (dalam hal itu saya bisa membuat nilai-p pertama lebih kecil dan terendah dari set enam nilai-p untuk uji-t lebih tinggi ).
-
Sunting: Berikut adalah contoh tambahan yang pada awalnya dibuat dengan noise tentang suatu tren, yang menunjukkan seberapa baik Anda dapat melakukannya jika Anda memindahkan sedikit poin:
F memiliki nilai p di bawah 3% dan tidak ada t yang memiliki nilai p di bawah 8%. (Untuk contoh 3 grup - tetapi dengan nilai p agak lebih besar pada F - hilangkan grup kedua)
Dan inilah contoh yang sangat sederhana, jika lebih tiruan, dengan 3 kelompok:
(Dalam hal ini, varians terbesar adalah pada kelompok menengah - tetapi karena ukuran sampel yang lebih besar di sana, kesalahan standar rata-rata grup masih lebih kecil)
Beberapa uji t perbandingan
Whuber menyarankan saya mempertimbangkan beberapa kasus perbandingan. Itu terbukti sangat menarik.
Kasus untuk beberapa perbandingan (semua dilakukan pada tingkat signifikansi asli - yaitu tanpa menyesuaikan alpha untuk beberapa perbandingan) agak lebih sulit untuk dicapai, karena bermain-main dengan varian yang lebih besar dan lebih kecil atau lebih banyak dan lebih sedikit dalam kelompok yang berbeda tidak membantu dengan cara yang sama seperti yang mereka lakukan dengan uji-t dua sampel biasa.
Namun, kami masih memiliki alat untuk memanipulasi jumlah kelompok dan tingkat signifikansi; jika kita memilih lebih banyak kelompok dan tingkat signifikansi yang lebih kecil, maka akan menjadi mudah untuk mengidentifikasi kasus. Ini dia:
Namun nilai p terkecil pada perbandingan berpasangan tidak signifikan pada tingkat itu:
sumber
Ringkasan: Saya percaya ini mungkin, tapi sangat, sangat tidak mungkin. Perbedaannya akan kecil, dan jika itu terjadi, itu karena asumsi telah dilanggar (seperti homoscedasticity of variance).
Inilah beberapa kode yang mencari kemungkinan seperti itu. Perhatikan bahwa ia menambah benih dengan 1 setiap kali berjalan, sehingga benih disimpan (dan pencarian melalui biji sistematis).
Mencari R2 yang signifikan dan tidak ada t-tes yang tidak signifikan, saya belum menemukan apa pun hingga 18.000. Mencari nilai p lebih rendah dari R2 daripada dari uji-t, saya mendapatkan hasil pada seed = 323, tetapi perbedaannya sangat, sangat kecil. Ada kemungkinan bahwa mengubah parameter (menambah jumlah grup?) Dapat membantu. Alasan bahwa nilai p R2 bisa lebih kecil adalah bahwa ketika kesalahan standar dihitung untuk parameter dalam regresi, semua kelompok digabungkan, sehingga kesalahan standar perbedaan berpotensi lebih kecil daripada dalam uji-t.
Saya bertanya-tanya apakah melanggar heteroskedastisitas dapat membantu (seolah-olah). Itu benar. Jika saya gunakan
Untuk menghasilkan y, maka saya menemukan hasil yang sesuai pada seed = 1889, di mana nilai p minimum dari uji-t adalah 0,061 dan nilai p yang terkait dengan R-kuadrat adalah 0,046.
Jika saya memvariasikan ukuran grup (yang meningkatkan efek pelanggaran heteroskedastisitas), dengan mengganti x sampling dengan:
Saya mendapatkan hasil yang signifikan pada seed = 531, dengan t-test p-value minimum pada 0,063 dan p-value untuk R2 pada 0,046.
Jika saya berhenti mengoreksi heteroskedastisitas dalam uji-t, dengan menggunakan:
Kesimpulan saya adalah bahwa ini sangat tidak mungkin terjadi, dan perbedaannya mungkin sangat kecil, kecuali jika Anda telah melanggar asumsi homoseksualitas dalam regresi. Coba jalankan analisis Anda dengan kuat / sandwich / apa pun yang Anda ingin koreksi itu.
sumber
Sangat mungkin:
Tes F keseluruhan menguji semua kontras secara bersamaan . Dengan demikian, itu harus kurang sensitif (kekuatan statistik kurang) untuk kontras individu (mis: tes berpasangan) Kedua tes ini terkait erat satu sama lain tetapi mereka tidak melaporkan hal yang persis sama.
Seperti yang dapat Anda lihat, rekomendasi buku teks untuk tidak melakukan perbandingan yang direncanakan kecuali keseluruhan uji-F signifikan tidak selalu benar. Bahkan, rekomendasi dapat mencegah kita dari menemukan perbedaan yang signifikan karena uji F keseluruhan memiliki kekuatan lebih kecil dari perbandingan yang direncanakan untuk menguji perbedaan spesifik.
sumber