Pertanyaan ini telah ditanyakan sebelumnya di sini dan di sini tetapi saya tidak berpikir jawabannya menjawab pertanyaan secara langsung.
Apakah penelitian yang kurang bertenaga telah meningkatkan kemungkinan positif palsu? Beberapa artikel berita membuat pernyataan ini. Sebagai contoh :
Kekuatan statistik yang rendah adalah berita buruk. Studi underpowered lebih cenderung melewatkan efek asli, dan sebagai kelompok mereka cenderung memasukkan proporsi positif palsu yang lebih tinggi - yaitu, efek yang mencapai signifikansi statistik meskipun tidak nyata.
Seperti yang saya pahami, kekuatan tes dapat ditingkatkan dengan:
- meningkatkan ukuran sampel
- memiliki ukuran efek yang lebih besar
- meningkatkan tingkat signifikansi
Dengan asumsi kami tidak ingin mengubah tingkat signifikansi, saya percaya kutipan di atas mengacu pada mengubah ukuran sampel. Namun, saya tidak melihat bagaimana mengurangi sampel harus meningkatkan jumlah positif palsu. Sederhananya, mengurangi kekuatan penelitian meningkatkan kemungkinan negatif palsu, yang menjawab pertanyaan:
Sebaliknya, positif palsu merespons pertanyaan:
Keduanya adalah pertanyaan yang berbeda karena persyaratannya berbeda. Kekuasaan (terbalik) terkait dengan negatif palsu tetapi tidak positif palsu. Apakah saya melewatkan sesuatu?
sumber
Jawaban:
Anda benar bahwa ukuran sampel memengaruhi daya (mis. 1 tipe kesalahan II), tetapi bukan tipe I kesalahan. Ini adalah kesalahpahaman umum bahwa nilai-p seperti itu (ditafsirkan dengan benar) kurang dapat diandalkan atau valid ketika ukuran sampel kecil - artikel yang sangat menghibur oleh Friston 2012 memiliki pandangan lucu tentang hal itu [1].
Yang sedang berkata, masalah dengan studi underpowered adalah nyata, dan kutipan itu sebagian besar benar saya akan mengatakan, hanya sedikit tidak tepat dalam kata-katanya.
Masalah dasar dengan studi underpowered adalah bahwa, meskipun tingkat positif palsu (tipe I kesalahan) dalam tes hipotesis tetap, tingkat positif sejati (kekuasaan) turun. Karenanya, hasil positif (= signifikan) lebih kecil kemungkinannya menjadi positif sejati dalam studi kurang bertenaga. Gagasan ini diungkapkan dalam tingkat penemuan palsu [2], lihat juga [3]. Sepertinya kutipan ini merujuk.
Masalah tambahan yang sering disebut mengenai studi underpowered adalah bahwa mereka menyebabkan ukuran efek terlalu tinggi. Alasannya adalah bahwa a) dengan daya yang lebih rendah, perkiraan efek sebenarnya akan menjadi lebih bervariasi (stokastik) di sekitar nilai sebenarnya, dan b) hanya efek terkuat yang akan melewati filter signifikansi ketika daya rendah. Orang harus menambahkan bahwa ini adalah masalah pelaporan yang dapat dengan mudah diperbaiki dengan mendiskusikan dan melaporkan semua dan tidak hanya efek yang signifikan.
Akhirnya, masalah praktis yang penting dengan studi yang kurang kuat adalah bahwa daya rendah meningkatkan masalah statistik (misalnya bias penduga) serta godaan untuk bermain-main dengan variabel dan taktik p-hacking serupa. Menggunakan "derajat kebebasan peneliti" ini paling efektif ketika daya rendah, dan ini bisa meningkatkan kesalahan tipe I, lihat, misalnya, [4].
Karena semua alasan ini, karena itu saya memang skeptis tentang studi yang kurang kuat.
[1] Friston, K. (2012) Sepuluh aturan ironis untuk pengulas non-statistik. NeuroImage, 61, 1300-1310.
[2] https://en.wikipedia.org/wiki/False_discovery_rate
[3] Tombol, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Kegagalan daya: mengapa ukuran sampel yang kecil merusak keandalan ilmu saraf. Nat. Rev. Neurosci., 14, 365-376
[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Psikologi Palsu-Positif: Fleksibilitas yang Tidak diungkapkan dalam Pengumpulan dan Analisis Data Memungkinkan Menyajikan Apa pun sebagai Signifikan. Psychol Sci., 22, 1359-1366.
sumber
Tergantung pada bagaimana Anda melihatnya, daya rendah dapat meningkatkan tingkat positif palsu dalam skenario yang diberikan.
Pertimbangkan yang berikut ini: seorang peneliti menguji suatu perawatan. Jika tes kembali sebagai tidak signifikan, mereka meninggalkannya dan pindah ke perawatan berikutnya. Jika tes kembali signifikan, mereka mempublikasikannya. Mari kita juga mempertimbangkan bahwa peneliti akan menguji beberapa perawatan yang berhasil dan beberapa yang tidak. Jika peneliti memiliki kekuatan tinggi (tentu saja merujuk pada kasus ketika mereka menguji suatu pengobatan yang berhasil), maka mereka sangat mungkin berhenti setelah mereka menguji pengobatan yang efektif. Di sisi lain, dengan daya rendah, mereka cenderung kehilangan efek pengobatan yang sebenarnya dan beralih ke perawatan lain. Semakin banyak perawatan nol yang mereka uji, semakin besar kemungkinan mereka membuat kesalahan Tipe I (peneliti ini tidak memperhitungkan beberapa perbandingan). Dalam kasus daya rendah, mereka diharapkan untuk menguji lebih banyak lagi perawatan nol,
Anda mungkin berkata "baiklah, ini hanya seorang peneliti yang menyalahgunakan beberapa perbandingan!". Ya, itu mungkin benar, tetapi itu juga yang dilakukan oleh banyak penelitian akhir-akhir ini. Karena alasan-alasan ini, saya pribadi kurang percaya pada karya yang diterbitkan kecuali memiliki ukuran sampel yang cukup besar sehingga peneliti tidak dapat mengulangi percobaan yang sama beberapa kali.
sumber
For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null
)Daya rendah tidak dapat memengaruhi tingkat kesalahan Tipe-1, tetapi ini dapat memengaruhi proporsi hasil yang dipublikasikan yang merupakan kesalahan tipe-1.
Alasannya adalah bahwa daya rendah mengurangi kemungkinan penolakan yang benar terhadap H0 (kesalahan Tipe-2) tetapi bukan kemungkinan penolakan palsu terhadap H0 (Kesalahan tipe-1).
Asumsikan sesaat bahwa ada dua literatur ... satu dilakukan dengan daya yang sangat rendah - mendekati nol - dan yang lainnya dilakukan dengan daya yang memadai. Dalam kedua literatur, Anda dapat mengasumsikan bahwa ketika H0 salah, Anda masih akan mendapatkan positif palsu beberapa waktu (misalnya, 5% untuk alpha = .05). Dengan asumsi peneliti tidak selalu benar dalam hipotesis mereka, kita dapat mengasumsikan kedua literatur harus memiliki NUMBER kesalahan Tipe-1 yang sama, kekuatan yang baik atau tidak. Ini karena tingkat kesalahan Tipe-1 tidak terpengaruh oleh daya, seperti yang dikatakan orang lain.
Namun, dalam literatur dengan kekuatan RENDAH, Anda juga akan memiliki banyak kesalahan Tipe-2. Dengan kata lain, literatur berdaya rendah harus KURANGNYA penolakan yang benar dari H0, membuat kesalahan Tipe-1 proporsi yang lebih besar dari literatur. Dalam literatur daya tinggi, Anda harus memiliki campuran penolakan H0 yang benar dan salah.
Jadi, apakah daya rendah meningkatkan kesalahan Tipe-1? Tidak. Namun, hal itu membuat sulit untuk menemukan efek yang sebenarnya, membuat kesalahan Tipe-1 proporsi yang lebih besar dari temuan yang dipublikasikan.
sumber
Selain jawaban yang lain, studi biasanya kurang bertenaga ketika ukuran sampel kecil. Ada banyak tes yang hanya asymptotically valid, dan terlalu optimis atau konservatif untuk n kecil.
Tes lain hanya berlaku untuk ukuran sampel kecil jika kondisi tertentu terpenuhi, tetapi menjadi lebih kuat dengan ukuran sampel besar (misalnya uji-t).
Dalam kedua kasus ini ukuran sampel kecil dan asumsi yang tidak terpenuhi dapat menyebabkan peningkatan tingkat kesalahan tipe I. Kedua situasi ini cukup sering terjadi sehingga saya menganggap jawaban sebenarnya atas pertanyaan Anda: bukan dalam teori tetapi dalam praktik.
sumber