Mengapa metode Stouffer bekerja?

9

Sepertinya pertanyaan yang cukup mudah, tetapi ketika saya benar-benar memikirkannya, metode Stouffer tidak masuk akal bagi saya. Ini sebabnya:

Asumsikan hipotesis dua sisi. Anda pertama-tama menghitung dari nilai- . Jadi mari kita ambil contoh yang cukup sederhana. Mari kita ambil dua -nilai . Ini berarti bahwa dan keduanya . Menurut metode Stouffer, dan digabungkan sedemikian rupa sehingga: zsayahalhal0,05z1z21.96z1z2

Z=saya=1kZsayak=1.96+1.962=2.77

Nilai- ini kemudian dikonversi menjadi nilai- sekali lagi, menghasilkan nilai- dari , sedangkan nilai- dari masing-masing individual adalah sekitar .zhalhal0,005halzsaya0,05

Dalam pengertian ini, sepertinya tes Stouffer secara artifisial mengubah nilai nilai yang dihasilkan menjadi nilai yang berbeda dengan nilai -masing-masing , yang bagi saya, tidak masuk akal.halhalzsaya

Apakah saya salah memahami tes ini atau dapatkah seseorang membantu saya memahami bagaimana / mengapa kerjanya?

akan
sumber
5
(+1) Tetapi harap dicatat bahwa metode Stouffer dalam formulir ini tidak sesuai untuk alternatif dua sisi. Masalahnya adalah bahwa hal itu mengabaikan kemungkinan bahwa satu studi mungkin telah menemukan efek di satu arah dan yang lain, efek di arah yang berlawanan. Kita harus memeriksa bahwa ini belum terjadi. Untuk sampai ke pertanyaan Anda: dalam arti apa ini "buatan"? Ingatlah bahwa tujuannya adalah untuk menggabungkan bukti untuk mendukung pengambilan keputusan. Bukankah masuk akal bahwa dua hasil yang signifikan harus merupakan dukungan yang lebih kuat untuk suatu keputusan daripada hanya satu saja?
whuber
Ketika saya menulis bahwa itu tampaknya "buatan," saya maksudkan bahwa dalam kasus ada dua sampel (N = 2), akan selalu ada inflasi dalam skor-Z, yang menghasilkan nilai-p yang secara konsisten lebih rendah daripada yang diharapkan dari salah satu z-score ( ). Meskipun masuk akal bahwa dua hasil signifikan harus menghasilkan dukungan yang lebih kuat untuk keputusan daripada salah satu saja, tidak masuk akal untuk dua nilai-p untuk diimplementasikan ke dalam metode Stouffer dan hasilnya sama sekali berbeda dari kedua nilai. zsaya
Akan
2
@will, saya tidak bisa mengerti kalimat terakhir dari komentar pertama Anda di sini. Ya, masuk akal bahwa dua hasil signifikan menghasilkan dukungan yang lebih kuat ketika digabungkan. Yang berarti bahwa nilai p gabungan dapat lebih rendah dari keduanya. Jadi apa masalahnya?
amoeba
2
Saya berpikir bahwa salah satu cara untuk mengembangkan intuisi Anda adalah membalik prosedur ini: mengambil satu studi dan membaginya menjadi dua bagian acak, kemudian menganalisis setiap bagian secara terpisah. Sebagai contoh yang sangat sederhana, pertimbangkan survei pasca pemilihan di mana 1.000 orang disurvei dan 535 mengatakan mereka memilih petahana dan 465 untuk lawannya. Perpecahan acak mungkin menjadi 265-235 di satu setengah dan 270-230 di setengah lainnya. Apa nilai-p untuk uji persamaan proporsi dalam dua bagian dan apa nilai-p secara keseluruhan? (Dalam R, hitung menggunakan prop.test(535,1000), dll.)
whuber
2
Anda tampaknya mengacaukan estimasi sampel proporsi dengan nilai p tes !! Nilai p keseluruhan adalah 0,03 sedangkan nilai p dari kedua bagian adalah 0,08 dan 0,19.
whuber

Jawaban:

8

Ukuran sampel keseluruhan yang lebih tinggi mengarah ke kekuatan yang lebih tinggi dan dengan demikian ke nilai p yang lebih kecil (setidaknya jika hipotesis kerja didukung oleh data).

Ini biasanya merupakan poin utama dari setiap analisis meta: banyak bukti lemah yang mendukung hipotesis digabungkan dengan bukti kuat untuk itu.

Michael M.
sumber
Karena istilah statistik "kekuatan" dalam konteks ini memiliki makna yang sangat berbeda dari nilai-p, saya khawatir bahwa penjelasan ini dapat menyebabkan beberapa kebingungan di antara mereka.
whuber
Jadi apakah ini berarti bahwa dalam hal ukuran sampel adalah 2, kekuatan metode Stouffer akan selalu diturunkan, dan bahwa nilai-p akan selalu lebih kecil? Bagaimana bisa mendapatkan jawaban yang lebih akurat ketika ukuran sampel dua?
Akan
Ukuran "sampel meta" adalah dua, yaitu ada dua percobaan yang keduanya menghasilkan hal=0,05. Ukuran sampel gabunganN adalah N=N1+N2, jadi biasanya jauh lebih besar dari 2. Karena analisis meta ini hanya memperhitungkan nilai p, informasi yang tersedia jauh lebih rendah daripada dari data mentah N1+N2acara
quazgar
2

Untuk kesederhanaan, pikirkan dalam hal tes sarana. Misalkan di bawah H0 efek pengobatan adalah nol, sehingga setiap nilai z adalah estimasi tertimbang dari efek pengobatan θ i. Metode Stouffer memberikan rata-rata tertimbang efek pengobatan ini sehingga akan memberikan perkiraan yang lebih tepat (dan karenanya nilai p lebih kecil) daripada masing-masing nilai z yang terpisah. Perkiraan tidak tertimbang dari efek pengobatan ini bias tetapi metode Stouffer tertimbang adalah mungkin, dan jika bobot sebanding dengan 1 / standard error (θi) estimasi efek pengobatan tidak bias. Namun ini hanya masuk akal jika nilai z yang terpisah adalah ukuran dari kuantitas yang sama. Keuntungan dari metode Stouffer dan Fisher adalah bahwa mereka juga dapat diterapkan pada meta-analisis di mana variabel respons yang berbeda telah dipilih - sehingga mereka dapat '

Paul Silcocks
sumber
0

Pikirkan itu dari sudut pandang meta-analisis: Jika tidak ada efek (H0), hal nilai akan terdistribusi secara merata antara 0 dan 1. Jadi jika Anda mendapatkannya hal<0,1 di lebih dari 10% dari semua analisis tunggal (berpotensi banyak dari mereka), ini dapat mencapai kesimpulan bahwa H0 mungkin harus ditolak.

Saya bahkan tidak melihat masalah untuk tes dua sisi: Dalam hal ini hasilnya harus ditafsirkan sebagai: Tidak mungkin bahwa mean sebenarnya adalah 0 (dalam contoh gaussian sekitar 0), tetapi saya tidak tahu (dari salah satu sebelumnya atau gabungan hal value) jika mean sebenarnya berada di atas atau di bawahnya.

quazgar
sumber
-2

Saya pikir tidak apa-apa untuk menggabungkan hasil 2-tailed karena itu berarti bahwa hasilnya akan berjumlah nol (jika ada bukti bahwa pengobatan meningkatkan [kanan-ekor] penyakit pasien tetapi juga bukti bahwa itu memburuk [kiri] -tail], hasil bersih tidak ada bukti terhadap hipotesis tertentu karena mereka membatalkan dan pengamatan lebih lanjut diperlukan.

gah
sumber
1
Saya tidak berpikir bahwa ini menjawab pertanyaan. Juga, komentar whuber menunjukkan bahwa metode khusus ini tidak berfungsi untuk pengujian 2-tailed.
mkt - Reinstate Monica