Berapa banyak lebih kecil dapat

Intro: Setelah mencatat perhatian yang diterima hari ini oleh pertanyaan ini, " Bisakah ANOVA menjadi signifikan ketika tidak ada uji-t berpasangan?, " Saya pikir saya mungkin dapat membingkai ulang dengan cara yang menarik yang pantas mendapatkan jawaban sendiri. .

Berbagai hasil yang tidak sesuai (pada nilai nominal) dapat terjadi ketika signifikansi statistik dipahami sebagai dikotomi sederhana dan dinilai berdasarkan dasar yang lebih tinggi, $p$ atau $\alpha$ . Jawaban @ Glen_b untuk pertanyaan di atas menyajikan contoh yang berguna dari kasus di mana:

ANOVA $F$ -test menghasilkan $p_F<.05$ untuk satu variabel independen (IV) dengan empat level, tetapi
$p_t>.08$ untuk semua dua-sample $t$ -tests yang membandingkan perbedaan dalam variabel dependen yang sama (DV) antara pengamatan sesuai dengan masing-masing pasangan dari empat tingkat IV ini.

Kasus serupa muncul meskipun koreksi Bonferroni untuk perbandingan berpasangan post-hoc melalui pertanyaan ini: Tindakan berulang Anova penting, tetapi semua perbandingan ganda dengan koreksi Bonferroni tidak? Kasus yang disebutkan sebelumnya dengan tes yang sedikit berbeda dalam regresi berganda juga ada:

Mengapa mungkin untuk mendapatkan statistik F yang signifikan (p <0,001) tetapi t-tes regressor tidak signifikan? : $p_F<.001,p_{\beta t}>.09$
Bagaimana regresi menjadi signifikan namun semua prediktor menjadi tidak signifikan?
- Dalam jawaban @ whuber , $p_F=.0003,p_{\beta t}>.09$

Saya bertaruh bahwa dalam kasus-kasus seperti ini, beberapa (tetapi tidak semua) perbandingan berpasangan '(atau koefisien regresi' tes signifikansi ') nilai-nilai $p$ harus cukup dekat dengan $\alpha$ jika tes omnibus yang sesuai dapat mencapai $p <\alpha$ . Saya melihat ini adalah kasus di @ contoh pertama Glen_b, di mana $F_{(3,20)}=3.19$ , $p_F=.046$ , dan perbedaan berpasangan terbesar memberikan terkecil $p_t=.054$ . Haruskah ini terjadi secara umum? Lebih khusus :

Pertanyaan: Jika ANOVA $F$ -test menghasilkan $p_F=.05$ untuk satu efek IV politytous pada DV kontinu, seberapa tinggi nilai terendah di $p$ antara semua dua sampel $t$ tes yang membandingkan setiap pasangan tingkat IV? Bisa minimum berpasangan signifikansi setinggi $p_t=.50$ ?

_{Saya menyambut jawaban yang hanya menjawab pertanyaan spesifik ini . Namun, untuk lebih memotivasi pertanyaan ini, saya akan menguraikan dan melemparkan beberapa pertanyaan retoris yang berpotensi. Senang juga untuk mengatasi masalah ini, dan bahkan mengabaikan pertanyaan spesifik jika Anda suka, terutama jika pertanyaan spesifik mendapatkan jawaban yang pasti.}

Signifikansi: Pertimbangkan berapa banyak kurang penting perbedaan antara dan akan jika signifikansi statistik dihakimi dalam hal terus menerus dari kekuatan bukti terhadap hipotesis nol (pendekatan Ron Fisher, saya pikir? ), daripada dalam istilah dikotomis seperti di atas atau di bawah ambang batas untuk kemungkinan kesalahan yang dapat diterima dalam memilih apakah akan menolak grosir nol. " -hacking " adalah masalah yang diketahui yang sebagian berutang pada kerentanan yang tidak perlu yang diperkenalkan oleh interpretasi $p_F=.04$ $p_t=.06$ $\alpha=.05$ $p$ $p$ nilai-nilai sesuai dengan praktik umum dikotomi signifikansi ke dalam padanan "cukup baik" dan "tidak cukup baik." Jika seseorang membuang praktik ini dan fokus pada menafsirkan nilai sebagai kekuatan bukti terhadap nol pada interval yang berkelanjutan, mungkinkah pengujian omnibus agak kurang penting ketika seseorang benar-benar peduli tentang beberapa perbandingan berpasangan? Tidak sia-sia tentu, karena setiap peningkatan yang cukup efisien dalam akurasi statistik tentu saja diinginkan, tetapi ... jika, misalnya, nilai perbandingan berpasangan terendah harus dalam dari ANOVA (atau tes omnibus lainnya) $p$ $p$ $.10$ $p$ nilai, bukankah ini membuat tes omnibus agak lebih sepele, kurang wajib, dan bahkan lebih menyesatkan (dalam hubungannya dengan kesalahpahaman yang sudah ada sebelumnya), terutama jika seseorang tidak secara khusus ingin mengendalikan di beberapa tes? $\alpha$

Sebaliknya, jika data ada sehingga omnibus , tetapi semua berpasangan , tidakkah ini memotivasi omnibus dan pengujian kontras lebih lanjut di seluruh praktik dan pedagogi? Tampaknya bagi saya bahwa masalah ini juga harus menginformasikan manfaat relatif menilai signifikansi statistik menurut dikotomi vs kontinum, dalam hal bahwa sistem penafsiran dikotomis harus lebih sensitif terhadap penyesuaian kecil ketika perbedaan "sedikit signifikan", sedangkan kedua sistem tidak aman dari kegagalan untuk melakukan tes omnibus atau menyesuaikan beberapa perbandingan jika perbedaan / penyesuaian ini bisa sangat besar (misalnya, $p=.05$ $p>.50$ dalam teori. $p_t-p_F>.40)$

_{Kompleksitas opsional lainnya untuk dipertimbangkan atau diabaikan — apa pun yang membuat menjawab lebih mudah dan lebih bermanfaat :}

^{Seberapa tinggi s untuk s jika, untuk , sebagai gantinya (misalnya, ) $p$ $t$ $F$ $p<.05$ $p=.01, .001,\dots$}
^{Sensitivitas terhadap jumlah level dalam IV politom}
^{Sensitivitas terhadap ketidakmerataan dalam arti perbedaan berpasangan (sementara semua ) $p_t>p_F$}
- ^{Jawaban whuber menunjukkan bahwa memasukkan perbedaan kecil dapat menutupi perbedaan besar.}
^{Perbedaan antara berbagai koreksi tes omnibus untuk beberapa perbandingan}
- ^{Lihat juga: Mengoreksi untuk beberapa perbandingan dalam suatu subyek / tindakan berulang ANOVA; terlalu konservatif?}
- ^{Dengan banyak infus, tampaknya multikolinieritas dapat memperburuk masalah ini .}
^{Kasus terbatas di mana data memenuhi semua asumsi tes parametrik klasik secara optimal}
- ^{Pembatasan ini mungkin penting untuk mencegah pertanyaan ini agak diperdebatkan.}

hypothesis-testing anova statistical-significance t-test multiple-comparisons Nick Stauner
sumber

Anda mungkin ingin mengklarifikasi apakah uji-t berpasangan harus menggunakan estimasi varians kesalahan yang sama dengan uji-F omnibus (dalam contoh Glen tidak).

Scortchi

Aku berarti sebuah t-test biasa untuk perbedaan dalam cara menggunakan

, tetapi dengan

dihitung sebagai akar kuadrat dari ANOVAR berarti kesalahan persegi. Ini adalah uji-t berpasangan post-hoc biasa &tidakmenyesuaikan untuk beberapa perbandingan, tidak seperti HSD Tukey. Itu memang menggabungkan informasi dari semua kelompok, tetapi tidak tergantung pada perbedaan cara kelompok.

t = ({\bar{y}}_{1} - {\bar{y}}_{2}) / (\hat{σ} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}})

$t=(\bar{y}_1-\bar{y}_2)/\left({\hat\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\right)$

\hat{σ}

$\hat\sigma$

Scortchi

Saya melihat (semacam)! Saya terutama tertarik mengikuti contoh @ Glen_b dan tidak menggunakan

, tetapi menggunakan rumus pertama yang Anda sebutkan untuk menghindari memasukkan info dari semua grup. Itu bukan untuk mengatakan saya memiliki preferensi yang kuat di sini ... tetapi bagian dari niat awal saya adalah untuk menyajikan varian dari tema umum dalam pertanyaan-pertanyaan ini: "Apa kerugian sebenarnya dari mengabaikan informasi di luar dua kelompok tertentu yang dipertanyakan untuk setiap pemberian tes dua sampel di antara banyak? " Saya kira tema itu layak untuk dijalankan dalam keputusan ini juga.

\sqrt{MSE}

$\sqrt{\text{MSE}}$

Nick Stauner

@Scortchi Saya telah memasukkan contoh di pertanyaan lain yang mencakup komentar pertama Anda (yaitu di mana tes dilakukan menggunakan varians kesalahan umum dan df), meskipun semua tes (F dan beberapa perbandingan) dilakukan pada tingkat signifikansi yang cukup rendah (0,0025, bukan 0,05). Bila dibandingkan dengan individu dua-sample t-tes biasa seperti yang diminta oleh Nick S. sini, itu menunjukkan bahwa perbedaan yang cukup besar dalam signifikansi adalah mungkin (dalam hal ini,

untuk semua biasa t-tes , namun

). Saya percaya dengan banyak kelompok, adalah mungkin untuk melangkah lebih jauh.

p_{t} > .05

$p_t>.05$

p_{F} < 0.002

$p_F<0.002$

Glen_b -Reinstate Monica

Saya membuat sketsa jawaban untuk bagian pertama dari pertanyaan ini beberapa menit yang lalu dalam komentar di stats.stackexchange.com/questions/83030/… .

whuber

Dengan asumsi sama s [tetapi lihat catatan 2 di bawah] untuk setiap perlakuan dalam tata letak satu arah, dan bahwa SD yang dikumpulkan dari semua kelompok digunakan dalam uji (seperti yang dilakukan dalam perbandingan post hoc biasa), semaksimal mungkin nilai untuk uji adalah $n$ $t$ $p$ $t$ (di sini,menunjukkancdf). Dengan demikian, tidak adadapat setinggi. Menariknya (dan agak aneh), yangterikat memegang bukan hanya untuk, tetapi untuk setiap tingkat signifikansi yang kita butuhkan untuk. $2\Phi(-\sqrt{2}) \approx .1573$ $\Phi$ $N(0,1)$ $p_t$ $0.5$ $.1573$ $p_F=.05$ $F$

The justification is as follows: For a given range of sample means, $\max_{i,j}|\bar y_i - \bar y_j| = 2a$ , the largest possible $F$ statistic is achieved when half the $\bar y_i$ are at one extreme and the other half are at the other. This represents the case where $F$ looks the most significant given that two means differ by at most $2a$ .

So, without loss of generality, suppose that $\bar y_.=0$ so that $\bar y_i=\pm a$ in this boundary case. And again, without loss of generality, suppose that $MS_E=1$ , as we can always rescale the data to this value. Now consider $k$ means (where $k$ is even for simplicity [but see note 1 below]), we have $F=\frac{\sum n\bar y^2/(k-1)}{MS_E}= \frac{kna^2}{k-1}$ . Setting $p_F=\alpha$ so that $F=F_\alpha=F_{\alpha,k-1,k(n-1)}$ , we obtain $a =\sqrt{\frac{(k-1)F_\alpha}{kn}}$ . When all the $\bar y_i$ are $\pm a$ (and still $MS_E=1$ ), each nonzero $t$ statistic is thus $t=\frac{2a}{1\sqrt{2/n}} = \sqrt{\frac{2(k-1)F_\alpha}{k}}$ . This is the smallest maximum $t$ value possible when $F=F_\alpha$ .

So you can just try different cases of $k$ and $n$ , compute $t$ , and its associated $p_t$ . But notice that for given $k$ , $F_\alpha$ is decreasing in $n$ [but see note 3 below]; moreover, as $n\rightarrow\infty$ , $(k-1)F_{\alpha,k-1,k(n-1)} \rightarrow \chi^2_{\alpha,k-1}$ ; so $t \ge t_{min} =\sqrt{2\chi^2_{\alpha,k-1}/k}$ . Note that $\chi^2/k=\frac{k-1}k \chi^2/(k-1)$ has mean $\frac{k-1}k$ and SD $\frac{k-1}k\cdot\sqrt{\frac2{k-1}}$ . So $\lim_{k\rightarrow\infty}t_{min} = \sqrt{2}$ , regardless of $\alpha$ , and the result I stated in the first paragraph above is obtained from asymptotic normality.

It takes a long time to reach that limit, though. Here are the results (computed using R) for various values of $k$ , using $\alpha=.05$ :

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

A few loose ends...

When k is odd: The maximum $F$ statistic still occurs when the $\bar y_i$ are all $\pm a$ ; however, we will have one more at one end of the range than the other, making the mean $\pm a/k$ , and you can show that the factor $k$ in the $F$ statistic is replaced by $k-\frac 1k$ . This also replaces the denominator of $t$ , making it slightly larger and hence decreasing $p_t$ .
Unequal $n$ s: The maximum $F$ is still achieved with the $\bar y_i = \pm a$ , with the signs arranged to balance the sample sizes as nearly equally as possible. Then the $F$ statistic for the same total sample size $N = \sum n_i$ will be the same or smaller than it is for balanced data. Moreover, the maximum $t$ statistic will be larger because it will be the one with the largest $n_i$ . So we can't obtain larger $p_t$ values by looking at unbalanced cases.
A slight correction: I was so focused on trying to find the minimum $t$ that I overlooked the fact that we are trying to maximize $p_t$ , and it is less obvious that a larger $t$ with fewer df won't be less significant than a smaller one with more df. However, I verified that this is the case by computing the values for $n=2,3,4,\ldots$ until the df are high enough to make little difference. For the case $\alpha=.05, k\ge 3$ I did not see any cases where the $p_t$ values did not increase with $n$ . Note that the $df=k(n-1)$ so the possible df are $k,2k,3k,\ldots$ which get large fast when $k$ is large. So I'm still on safe ground with the claim above. I also tested $\alpha=.25$ , and the only case I observed where the $.1573$ threshold was exceeded was $k=3,n=2$ .

Russ Lenth
sumber

Berapa banyak lebih kecil dapat

Jawaban: