Apakah penelitian yang kurang bertenaga telah meningkatkan kemungkinan positif palsu?

23

Pertanyaan ini telah ditanyakan sebelumnya di sini dan di sini tetapi saya tidak berpikir jawabannya menjawab pertanyaan secara langsung.

Apakah penelitian yang kurang bertenaga telah meningkatkan kemungkinan positif palsu? Beberapa artikel berita membuat pernyataan ini. Sebagai contoh :

Kekuatan statistik yang rendah adalah berita buruk. Studi underpowered lebih cenderung melewatkan efek asli, dan sebagai kelompok mereka cenderung memasukkan proporsi positif palsu yang lebih tinggi - yaitu, efek yang mencapai signifikansi statistik meskipun tidak nyata.

Seperti yang saya pahami, kekuatan tes dapat ditingkatkan dengan:

  • meningkatkan ukuran sampel
  • memiliki ukuran efek yang lebih besar
  • meningkatkan tingkat signifikansi

Dengan asumsi kami tidak ingin mengubah tingkat signifikansi, saya percaya kutipan di atas mengacu pada mengubah ukuran sampel. Namun, saya tidak melihat bagaimana mengurangi sampel harus meningkatkan jumlah positif palsu. Sederhananya, mengurangi kekuatan penelitian meningkatkan kemungkinan negatif palsu, yang menjawab pertanyaan:

P(kegagalan untuk menolak H0|H0 itu salah)

Sebaliknya, positif palsu merespons pertanyaan:

P(menolak H0|H0 adalah benar)

Keduanya adalah pertanyaan yang berbeda karena persyaratannya berbeda. Kekuasaan (terbalik) terkait dengan negatif palsu tetapi tidak positif palsu. Apakah saya melewatkan sesuatu?

Robert Smith
sumber
4
Bukan tingkat positif palsu yang bergantung pada kekuatan statistik, tetapi "tingkat penemuan palsu":P(H0adalah benar|menolakH0)
Jake Westfall
2
Ya, itu tampaknya interpretasi yang benar dari pernyataan dalam artikel Wired.
Robert Smith

Jawaban:

30

Anda benar bahwa ukuran sampel memengaruhi daya (mis. 1 tipe kesalahan II), tetapi bukan tipe I kesalahan. Ini adalah kesalahpahaman umum bahwa nilai-p seperti itu (ditafsirkan dengan benar) kurang dapat diandalkan atau valid ketika ukuran sampel kecil - artikel yang sangat menghibur oleh Friston 2012 memiliki pandangan lucu tentang hal itu [1].

Yang sedang berkata, masalah dengan studi underpowered adalah nyata, dan kutipan itu sebagian besar benar saya akan mengatakan, hanya sedikit tidak tepat dalam kata-katanya.

Masalah dasar dengan studi underpowered adalah bahwa, meskipun tingkat positif palsu (tipe I kesalahan) dalam tes hipotesis tetap, tingkat positif sejati (kekuasaan) turun. Karenanya, hasil positif (= signifikan) lebih kecil kemungkinannya menjadi positif sejati dalam studi kurang bertenaga. Gagasan ini diungkapkan dalam tingkat penemuan palsu [2], lihat juga [3]. Sepertinya kutipan ini merujuk.

Masalah tambahan yang sering disebut mengenai studi underpowered adalah bahwa mereka menyebabkan ukuran efek terlalu tinggi. Alasannya adalah bahwa a) dengan daya yang lebih rendah, perkiraan efek sebenarnya akan menjadi lebih bervariasi (stokastik) di sekitar nilai sebenarnya, dan b) hanya efek terkuat yang akan melewati filter signifikansi ketika daya rendah. Orang harus menambahkan bahwa ini adalah masalah pelaporan yang dapat dengan mudah diperbaiki dengan mendiskusikan dan melaporkan semua dan tidak hanya efek yang signifikan.

Akhirnya, masalah praktis yang penting dengan studi yang kurang kuat adalah bahwa daya rendah meningkatkan masalah statistik (misalnya bias penduga) serta godaan untuk bermain-main dengan variabel dan taktik p-hacking serupa. Menggunakan "derajat kebebasan peneliti" ini paling efektif ketika daya rendah, dan ini bisa meningkatkan kesalahan tipe I, lihat, misalnya, [4].

Karena semua alasan ini, karena itu saya memang skeptis tentang studi yang kurang kuat.

[1] Friston, K. (2012) Sepuluh aturan ironis untuk pengulas non-statistik. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Tombol, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Kegagalan daya: mengapa ukuran sampel yang kecil merusak keandalan ilmu saraf. Nat. Rev. Neurosci., 14, 365-376

[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Psikologi Palsu-Positif: Fleksibilitas yang Tidak diungkapkan dalam Pengumpulan dan Analisis Data Memungkinkan Menyajikan Apa pun sebagai Signifikan. Psychol Sci., 22, 1359-1366.

Florian Hartig
sumber
Terima kasih. Referensi yang sangat baik. Untuk kelengkapan, [1] dapat ditemukan di sini dan [3] tersedia di sini . Ketika Anda berbicara tentang tingkat penemuan yang salah, apakah Anda yakin itu adalah konsep yang tepat? Berdasarkan [3], mungkin Anda maksudkan nilai prediktif positif (PPV) di mana studi kurang bertenaga memiliki PPV yang lebih rendah (yaitu, positif sejati tidak sesering sebagaimana seharusnya dalam studi bertenaga tinggi) Sepertinya tingkat penemuan yang salah adalah pelengkap PPV.
Robert Smith
Cara saya memahaminya, konsep-konsep ini identik, PPV = 1-FDR. Saya lebih suka menggunakan FDR karena saya menemukan kata secara intuitif lebih baik dimengerti.
Florian Hartig
2
Tal Yarkoni menunjukkan semua hal yang salah tentang artikel Friston di sini .
jona
1
@ jona - Saya pikir Tal Yarkoni memunculkan beberapa poin bagus di posting blognya. Saya kira ringkasan 1 kalimat akan menjadi "daya rendah adalah masalah", yang persis seperti yang saya katakan di atas. Saya masih menemukan karikatur komentar resensi Friston lucu, karena memang terjadi bahwa pengulas "menemukan ukuran sampel terlalu rendah" tanpa argumen meyakinkan yang melibatkan memiliki kekuatan yang dihitung.
Florian Hartig
6

Tergantung pada bagaimana Anda melihatnya, daya rendah dapat meningkatkan tingkat positif palsu dalam skenario yang diberikan.

Pertimbangkan yang berikut ini: seorang peneliti menguji suatu perawatan. Jika tes kembali sebagai tidak signifikan, mereka meninggalkannya dan pindah ke perawatan berikutnya. Jika tes kembali signifikan, mereka mempublikasikannya. Mari kita juga mempertimbangkan bahwa peneliti akan menguji beberapa perawatan yang berhasil dan beberapa yang tidak. Jika peneliti memiliki kekuatan tinggi (tentu saja merujuk pada kasus ketika mereka menguji suatu pengobatan yang berhasil), maka mereka sangat mungkin berhenti setelah mereka menguji pengobatan yang efektif. Di sisi lain, dengan daya rendah, mereka cenderung kehilangan efek pengobatan yang sebenarnya dan beralih ke perawatan lain. Semakin banyak perawatan nol yang mereka uji, semakin besar kemungkinan mereka membuat kesalahan Tipe I (peneliti ini tidak memperhitungkan beberapa perbandingan). Dalam kasus daya rendah, mereka diharapkan untuk menguji lebih banyak lagi perawatan nol,

Anda mungkin berkata "baiklah, ini hanya seorang peneliti yang menyalahgunakan beberapa perbandingan!". Ya, itu mungkin benar, tetapi itu juga yang dilakukan oleh banyak penelitian akhir-akhir ini. Karena alasan-alasan ini, saya pribadi kurang percaya pada karya yang diterbitkan kecuali memiliki ukuran sampel yang cukup besar sehingga peneliti tidak dapat mengulangi percobaan yang sama beberapa kali.

Cliff AB
sumber
1
Terima kasih. Bahkan mengabaikan kasus beberapa perbandingan (tanpa koreksi yang tepat), saya pikir Anda menggambarkan contoh PPV lain seperti dijelaskan di sini . Saya tidak bisa menempelkan paragraf tetapi diawali dengan ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Robert Smith
1
Ah ya, itu menggambarkan dengan sangat dekat apa yang saya maksud. Perbedaan terkecil adalah bahwa saya mengatakan "Dalam prosedur eksperimental yang diberikan , memiliki daya rendah individu pada setiap pengujian efek sebenarnya meningkatkan kemungkinan menggunakan kesalahan tipe I dalam seluruh prosedur eksperimental kami ". Ini tentu saja berbeda dari meningkatkan tingkat kesalahan tipe I dalam setiap uji statistik. Juga, itu hanya dalam pengertian yang paling teknis berbeda dari PPV. Tapi itu satu-satunya cara pernyataan media "daya rendah meningkatkan kesalahan tipe I" masuk akal (dan saya pikir itu masuk akal).
Cliff AB
4

Daya rendah tidak dapat memengaruhi tingkat kesalahan Tipe-1, tetapi ini dapat memengaruhi proporsi hasil yang dipublikasikan yang merupakan kesalahan tipe-1.

Alasannya adalah bahwa daya rendah mengurangi kemungkinan penolakan yang benar terhadap H0 (kesalahan Tipe-2) tetapi bukan kemungkinan penolakan palsu terhadap H0 (Kesalahan tipe-1).

Asumsikan sesaat bahwa ada dua literatur ... satu dilakukan dengan daya yang sangat rendah - mendekati nol - dan yang lainnya dilakukan dengan daya yang memadai. Dalam kedua literatur, Anda dapat mengasumsikan bahwa ketika H0 salah, Anda masih akan mendapatkan positif palsu beberapa waktu (misalnya, 5% untuk alpha = .05). Dengan asumsi peneliti tidak selalu benar dalam hipotesis mereka, kita dapat mengasumsikan kedua literatur harus memiliki NUMBER kesalahan Tipe-1 yang sama, kekuatan yang baik atau tidak. Ini karena tingkat kesalahan Tipe-1 tidak terpengaruh oleh daya, seperti yang dikatakan orang lain.

Namun, dalam literatur dengan kekuatan RENDAH, Anda juga akan memiliki banyak kesalahan Tipe-2. Dengan kata lain, literatur berdaya rendah harus KURANGNYA penolakan yang benar dari H0, membuat kesalahan Tipe-1 proporsi yang lebih besar dari literatur. Dalam literatur daya tinggi, Anda harus memiliki campuran penolakan H0 yang benar dan salah.

Jadi, apakah daya rendah meningkatkan kesalahan Tipe-1? Tidak. Namun, hal itu membuat sulit untuk menemukan efek yang sebenarnya, membuat kesalahan Tipe-1 proporsi yang lebih besar dari temuan yang dipublikasikan.

Tom Carpenter
sumber
1
Terima kasih. Bagaimana dengan PPV? Dalam makalah yang dirujuk oleh Florian Hartig, ada klaim yang diberikan kesalahan tipe I, semakin rendah kekuatan, semakin rendah PPV. Jika PPV lebih rendah, yang berarti bahwa jumlah penemuan yang diklaim benar lebih rendah, maka jumlah penemuan yang diklaim palsu (false positive) harus meningkat.
Robert Smith
0

Selain jawaban yang lain, studi biasanya kurang bertenaga ketika ukuran sampel kecil. Ada banyak tes yang hanya asymptotically valid, dan terlalu optimis atau konservatif untuk n kecil.

Tes lain hanya berlaku untuk ukuran sampel kecil jika kondisi tertentu terpenuhi, tetapi menjadi lebih kuat dengan ukuran sampel besar (misalnya uji-t).

Dalam kedua kasus ini ukuran sampel kecil dan asumsi yang tidak terpenuhi dapat menyebabkan peningkatan tingkat kesalahan tipe I. Kedua situasi ini cukup sering terjadi sehingga saya menganggap jawaban sebenarnya atas pertanyaan Anda: bukan dalam teori tetapi dalam praktik.

Erik
sumber