Berapa banyak lebih kecil dapat

13

Intro: Setelah mencatat perhatian yang diterima hari ini oleh pertanyaan ini, " Bisakah ANOVA menjadi signifikan ketika tidak ada uji-t berpasangan?, " Saya pikir saya mungkin dapat membingkai ulang dengan cara yang menarik yang pantas mendapatkan jawaban sendiri. .

Berbagai hasil yang tidak sesuai (pada nilai nominal) dapat terjadi ketika signifikansi statistik dipahami sebagai dikotomi sederhana dan dinilai berdasarkan dasar yang lebih tinggi, p atau α . Jawaban @ Glen_b untuk pertanyaan di atas menyajikan contoh yang berguna dari kasus di mana:

  • ANOVA F -test menghasilkan pF<.05 untuk satu variabel independen (IV) dengan empat level, tetapi
  • pt>.08 untuk semua dua-samplet -tests yang membandingkan perbedaan dalam variabel dependen yang sama (DV) antara pengamatan sesuai dengan masing-masing pasangan dari empat tingkat IV ini.

Kasus serupa muncul meskipun koreksi Bonferroni untuk perbandingan berpasangan post-hoc melalui pertanyaan ini: Tindakan berulang Anova penting, tetapi semua perbandingan ganda dengan koreksi Bonferroni tidak? Kasus yang disebutkan sebelumnya dengan tes yang sedikit berbeda dalam regresi berganda juga ada:

Saya bertaruh bahwa dalam kasus-kasus seperti ini, beberapa (tetapi tidak semua) perbandingan berpasangan '(atau koefisien regresi' tes signifikansi ') nilai-nilai p harus cukup dekat dengan α jika tes omnibus yang sesuai dapat mencapai p<α . Saya melihat ini adalah kasus di @ contoh pertama Glen_b, di mana F(3,20)=3.19 , pF=.046 , dan perbedaan berpasangan terbesar memberikan terkecil pt=.054 . Haruskah ini terjadi secara umum? Lebih khusus :


Pertanyaan: Jika ANOVA F -test menghasilkan pF=.05 untuk satu efek IV politytous pada DV kontinu, seberapa tinggi nilai terendah dip antara semua dua sampel t tes yang membandingkan setiap pasangan tingkat IV? Bisa minimum berpasangan signifikansi setinggi pt=.50 ?


Saya menyambut jawaban yang hanya menjawab pertanyaan spesifik ini . Namun, untuk lebih memotivasi pertanyaan ini, saya akan menguraikan dan melemparkan beberapa pertanyaan retoris yang berpotensi. Senang juga untuk mengatasi masalah ini, dan bahkan mengabaikan pertanyaan spesifik jika Anda suka, terutama jika pertanyaan spesifik mendapatkan jawaban yang pasti.

Signifikansi: Pertimbangkan berapa banyak kurang penting perbedaan antara dan p t = 0,06 akan jika signifikansi statistik dihakimi dalam hal terus menerus dari kekuatan bukti terhadap hipotesis nol (pendekatan Ron Fisher, saya pikir? ), daripada dalam istilah dikotomis seperti di atas atau di bawah ambang batas α = .05 untuk kemungkinan kesalahan yang dapat diterima dalam memilih apakah akan menolak grosir nol. " p -hacking " adalah masalah yang diketahui yang sebagian berutang pada kerentanan yang tidak perlu yang diperkenalkan oleh interpretasi ppF=.04pt=.06α=.05ppnilai-nilai sesuai dengan praktik umum dikotomi signifikansi ke dalam padanan "cukup baik" dan "tidak cukup baik." Jika seseorang membuang praktik ini dan fokus pada menafsirkan nilai sebagai kekuatan bukti terhadap nol pada interval yang berkelanjutan, mungkinkah pengujian omnibus agak kurang penting ketika seseorang benar-benar peduli tentang beberapa perbandingan berpasangan? Tidak sia-sia tentu, karena setiap peningkatan yang cukup efisien dalam akurasi statistik tentu saja diinginkan, tetapi ... jika, misalnya, nilai p perbandingan berpasangan terendah harus dalam 0,10 dari ANOVA (atau tes omnibus lainnya) ppp.10pnilai, bukankah ini membuat tes omnibus agak lebih sepele, kurang wajib, dan bahkan lebih menyesatkan (dalam hubungannya dengan kesalahpahaman yang sudah ada sebelumnya), terutama jika seseorang tidak secara khusus ingin mengendalikan di beberapa tes?α

Sebaliknya, jika data ada sehingga omnibus , tetapi semua berpasangan p > .50 , tidakkah ini memotivasi omnibus dan pengujian kontras lebih lanjut di seluruh praktik dan pedagogi? Tampaknya bagi saya bahwa masalah ini juga harus menginformasikan manfaat relatif menilai signifikansi statistik menurut dikotomi vs kontinum, dalam hal bahwa sistem penafsiran dikotomis harus lebih sensitif terhadap penyesuaian kecil ketika perbedaan "sedikit signifikan", sedangkan kedua sistem tidak aman dari kegagalan untuk melakukan tes omnibus atau menyesuaikan beberapa perbandingan jika perbedaan / penyesuaian ini bisa sangat besar (misalnya, p t - p F >p=.05p>.50 dalam teori.ptpF>.40)

Kompleksitas opsional lainnya untuk dipertimbangkan atau diabaikan — apa pun yang membuat menjawab lebih mudah dan lebih bermanfaat :

  • Seberapa tinggi s untuk t s jika, untuk F , p < 0,05 sebagai gantinya (misalnya, p = .01 , .001 , ... )ptFp<.05p=.01,.001,
  • Sensitivitas terhadap jumlah level dalam IV politom
  • Sensitivitas terhadap ketidakmerataan dalam arti perbedaan berpasangan (sementara semua )pt>pF
    • Jawaban whuber menunjukkan bahwa memasukkan perbedaan kecil dapat menutupi perbedaan besar.
  • Perbedaan antara berbagai koreksi tes omnibus untuk beberapa perbandingan
  • Kasus terbatas di mana data memenuhi semua asumsi tes parametrik klasik secara optimal
    • Pembatasan ini mungkin penting untuk mencegah pertanyaan ini agak diperdebatkan.
Nick Stauner
sumber
1
Anda mungkin ingin mengklarifikasi apakah uji-t berpasangan harus menggunakan estimasi varians kesalahan yang sama dengan uji-F omnibus (dalam contoh Glen tidak).
Scortchi
1
Aku berarti sebuah t-test biasa untuk perbedaan dalam cara menggunakan , tetapi denganσdihitung sebagai akar kuadrat dari ANOVAR berarti kesalahan persegi. Ini adalah uji-t berpasangan post-hoc biasa &tidakmenyesuaikan untuk beberapa perbandingan, tidak seperti HSD Tukey. Itu memang menggabungkan informasi dari semua kelompok, tetapi tidak tergantung pada perbedaan cara kelompok. t=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi
1
Saya melihat (semacam)! Saya terutama tertarik mengikuti contoh @ Glen_b dan tidak menggunakan , tetapi menggunakan rumus pertama yang Anda sebutkan untuk menghindari memasukkan info dari semua grup. Itu bukan untuk mengatakan saya memiliki preferensi yang kuat di sini ... tetapi bagian dari niat awal saya adalah untuk menyajikan varian dari tema umum dalam pertanyaan-pertanyaan ini: "Apa kerugian sebenarnya dari mengabaikan informasi di luar dua kelompok tertentu yang dipertanyakan untuk setiap pemberian tes dua sampel di antara banyak? " Saya kira tema itu layak untuk dijalankan dalam keputusan ini juga. MSE
Nick Stauner
1
@Scortchi Saya telah memasukkan contoh di pertanyaan lain yang mencakup komentar pertama Anda (yaitu di mana tes dilakukan menggunakan varians kesalahan umum dan df), meskipun semua tes (F dan beberapa perbandingan) dilakukan pada tingkat signifikansi yang cukup rendah (0,0025, bukan 0,05). Bila dibandingkan dengan individu dua-sample t-tes biasa seperti yang diminta oleh Nick S. sini, itu menunjukkan bahwa perbedaan yang cukup besar dalam signifikansi adalah mungkin (dalam hal ini, untuk semua biasa t-tes , namun p F < 0,002 ). Saya percaya dengan banyak kelompok, adalah mungkin untuk melangkah lebih jauh. pt>.05pF<0.002
Glen_b -Reinstate Monica
1
Saya membuat sketsa jawaban untuk bagian pertama dari pertanyaan ini beberapa menit yang lalu dalam komentar di stats.stackexchange.com/questions/83030/… .
whuber

Jawaban:

8

Dengan asumsi sama s [tetapi lihat catatan 2 di bawah] untuk setiap perlakuan dalam tata letak satu arah, dan bahwa SD yang dikumpulkan dari semua kelompok digunakan dalam uji t (seperti yang dilakukan dalam perbandingan post hoc biasa), semaksimal mungkin nilai p untuk uji t adalah 2 Φ ( - ntpt(di sini,ΦmenunjukkanN(0,1)cdf). Dengan demikian, tidak adaptdapat setinggi0,5. Menariknya (dan agak aneh), yang0,1573terikat memegang bukan hanya untukpF=0,05, tetapi untuk setiap tingkat signifikansi yang kita butuhkan untukF.2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F

The justification is as follows: For a given range of sample means, maxi,j|y¯iy¯j|=2a, the largest possible F statistic is achieved when half the y¯i are at one extreme and the other half are at the other. This represents the case where F looks the most significant given that two means differ by at most 2a.

So, without loss of generality, suppose that y¯.=0 so that y¯i=±a in this boundary case. And again, without loss of generality, suppose that MSE=1, as we can always rescale the data to this value. Now consider k means (where k is even for simplicity [but see note 1 below]), we have F=ny¯2/(k1)MSE=kna2k1. Setting pF=α so that F=Fα=Fα,k1,k(n1), we obtain a=(k1)Fαkn. When all the y¯i are ±a (and still MSE=1), each nonzero t statistic is thus t=2a12/n=2(k1)Fαk. This is the smallest maximum t value possible when F=Fα.

So you can just try different cases of k and n, compute t, and its associated pt. But notice that for given k, Fα is decreasing in n [but see note 3 below]; moreover, as n, (k1)Fα,k1,k(n1)χα,k12; so ttmin=2χα,k12/k. Note that χ2/k=k1kχ2/(k1) has mean k1k and SDk1k2k1. So limktmin=2, regardless of α, and the result I stated in the first paragraph above is obtained from asymptotic normality.

It takes a long time to reach that limit, though. Here are the results (computed using R) for various values of k, using α=.05:

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

A few loose ends...

  1. When k is odd: The maximum F statistic still occurs when the y¯i are all ±a; however, we will have one more at one end of the range than the other, making the mean ±a/k, and you can show that the factor k in the F statistic is replaced by k1k. This also replaces the denominator of t, making it slightly larger and hence decreasing pt.
  2. Unequal ns: The maximum F is still achieved with the y¯i=±a, with the signs arranged to balance the sample sizes as nearly equally as possible. Then the F statistic for the same total sample size N=ni will be the same or smaller than it is for balanced data. Moreover, the maximum t statistic will be larger because it will be the one with the largest ni. So we can't obtain larger pt values by looking at unbalanced cases.
  3. A slight correction: I was so focused on trying to find the minimum t that I overlooked the fact that we are trying to maximize pt, and it is less obvious that a larger t with fewer df won't be less significant than a smaller one with more df. However, I verified that this is the case by computing the values for n=2,3,4, until the df are high enough to make little difference. For the case α=.05,k3 I did not see any cases where the pt values did not increase with n. Note that the df=k(n1) so the possible df are k,2k,3k, which get large fast when k is large. So I'm still on safe ground with the claim above. I also tested α=.25, and the only case I observed where the .1573 threshold was exceeded was k=3,n=2.
Russ Lenth
sumber